多式联运
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGPT-4o-Image 挑战
GPT-4o 级图像生成的民主化:Janus-4o 和 ShareGP ...
FedNano:大型多模态模型的轻量级高效分布式学习
FedNano:大型多模态模型的轻量级高效分布式学习
ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实场景生成
ImmerseGen:由代理引导的、轻量级的、高度逼真的下一代虚拟现实 ...
为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模型
为了让人工智能不会忘记图像,CoMemo 率先推出了下一代视觉和语言模 ...
SCIVER 的未来:多模式科学索赔验证的前沿
SCIVER 的未来:多模式科学索赔验证的前沿
嵌入式网络代理 "的挑战,新一代人工智能将物理与数字相结合
嵌入式网络代理 "的挑战,新一代人工智能将物理与数字相结合
GenRecal,一个用于轻量级高性能的通用蒸馏框架
GenRecal,一个用于轻量级高性能的通用蒸馏框架
ProtoReasoning:通过逻辑和规划磨练通用推理技能
ProtoReasoning:通过逻辑和规划磨练通用推理技能
建议采用混合优先优化方法,彻底改变多模态 LLM 的推理性能!
建议采用混合优先优化方法,彻底改变多模态 LLM 的推理性能!
UnifiedCrawl:低资源语言数据收集和高效 LLM 适应的新方法
UnifiedCrawl:低资源语言数据收集和高效 LLM 适应的新方 ...
其他
Insight-V:连接视觉与思维的多模态推理新策略
Insight-V:连接视觉与思维的多模态推理新策略
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI ...
大型语言模型
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
提示方法
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
大型语言模型
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
大型语言模型
跨层关注大大减少了变压器内存
跨层关注大大减少了变压器内存
Transformer