生成图像
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
神经网络
MaskDiT:用于图像生成的低学习成本扩散模型
MaskDiT:用于图像生成的低学习成本扩散模型
生成图像
根据产品类别和品牌风格生成电子商务背景图片
根据产品类别和品牌风格生成电子商务背景图片
生成图像
提出一种新的图像编辑方法 "模仿编辑"--MimicBrush
提出一种新的图像编辑方法 "模仿编辑"--MimicBrush
图像编辑
文本-2-图像 利用扩散模型生成物体背景
文本-2-图像 利用扩散模型生成物体背景
生成图像
MicroDiffusion:千元生成图像质量模型,胜过数万美元的模型
MicroDiffusion:千元生成图像质量模型,胜过数万美元的模型
生成图像
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
大型语言模型
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
大型语言模型
[LDDGAN]用于最快推理的扩散模型
[LDDGAN]用于最快推理的扩散模型
扩散模型
GenTron:用于生成图像和视频的扩散变换器
GenTron:用于生成图像和视频的扩散变换器
生成图像
帧插值人工智能技术 RIFE 和 IFNet 的机制和应用
帧插值人工智能技术 RIFE 和 IFNet 的机制和应用
生成图像
AVI-Talking,它能通过语音生成自然的 3D 说话面孔
AVI-Talking,它能通过语音生成自然的 3D 说话面孔
人脸识别
分离扩散:从单张图像中提取多个概念的 T2I 模型
分离扩散:从单张图像中提取多个概念的 T2I 模型
生成图像
U-ViT:用于扩散建模的 ViT 主干网
U-ViT:用于扩散建模的 ViT 主干网
生成图像
ADD:具有对抗学习和知识提炼功能的扩散模型
ADD:具有对抗学习和知识提炼功能的扩散模型
生成图像
苹果公司开发了一种大规模自回归图像模型,它可以像 LLM 一样进行扩展。
苹果公司开发了一种大规模自回归图像模型,它可以像 LLM 一样进行扩展 ...
计算机视觉
小波扩散:最快的扩散模型
小波扩散:最快的扩散模型
生成图像