图片识别
稳定流:图像生成背后 "真正重要的层次 "可视化
稳定流:图像生成背后 "真正重要的层次 "可视化
通过 OWL-ViT 实现开放词汇对象检测
通过 OWL-ViT 实现开放词汇对象检测
神经网络
[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计
[Libra] 利用解耦视觉系统对大规模语言模型进行新的多模态设计
大型语言模型
MVANet:最强大的背景消除模型
MVANet:最强大的背景消除模型
神经网络
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
神经网络
MaskDiT:用于图像生成的低学习成本扩散模型
MaskDiT:用于图像生成的低学习成本扩散模型
生成图像
根据产品类别和品牌风格生成电子商务背景图片
根据产品类别和品牌风格生成电子商务背景图片
生成图像
提出一种新的图像编辑方法 "模仿编辑"--MimicBrush
提出一种新的图像编辑方法 "模仿编辑"--MimicBrush
图像编辑
文本-2-图像 利用扩散模型生成物体背景
文本-2-图像 利用扩散模型生成物体背景
生成图像
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
提示方法
MicroDiffusion:千元生成图像质量模型,胜过数万美元的模型
MicroDiffusion:千元生成图像质量模型,胜过数万美元的模型
生成图像
利用大规模语言模型实现人机协作装配
利用大规模语言模型实现人机协作装配
机器人
[GenAI-Arena]通过用户投票评估生成模型的新平台
[GenAI-Arena]通过用户投票评估生成模型的新平台
大型语言模型
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
大型语言模型
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
大型语言模型
LAVE 是一款使用 LLM 的代理辅助视频编辑工具
LAVE 是一款使用 LLM 的代理辅助视频编辑工具
大型语言模型
YesBut:帮助 VLM 理解讽刺和漫画的数据集的出现!
YesBut:帮助 VLM 理解讽刺和漫画的数据集的出现!
数据集