多式联运
GenRecal,一个用于轻量级高性能的通用蒸馏框架
GenRecal,一个用于轻量级高性能的通用蒸馏框架
ProtoReasoning:通过逻辑和规划磨练通用推理技能
ProtoReasoning:通过逻辑和规划磨练通用推理技能
建议采用混合优先优化方法,彻底改变多模态 LLM 的推理性能!
建议采用混合优先优化方法,彻底改变多模态 LLM 的推理性能!
UnifiedCrawl:低资源语言数据收集和高效 LLM 适应的新方法
UnifiedCrawl:低资源语言数据收集和高效 LLM 适应的新方 ...
其他
Insight-V:连接视觉与思维的多模态推理新策略
Insight-V:连接视觉与思维的多模态推理新策略
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力
大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI ...
大型语言模型
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
让法律硕士在白板上写下他们的推理过程,可以大大提高他们的视觉推理能力!
提示方法
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
[SKETCHPAD] 利用中间草图增强多模态语言模型的推理能力
大型语言模型
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
[Plot2Code] 用于测试多模式 LLM 代码生成的基准
大型语言模型
跨层关注大大减少了变压器内存
跨层关注大大减少了变压器内存
Transformer
使用 GPT-4V 全面评估泛化情绪识别 (GER)
使用 GPT-4V 全面评估泛化情绪识别 (GER)
大型语言模型
[MMSEARCH] 整合图像和文本的多模态搜索系统
[MMSEARCH] 整合图像和文本的多模态搜索系统
大型语言模型
Gen-RecSys 系统调查,这是一个通过生成和大规模语言模型发展起来的推荐系统
Gen-RecSys 系统调查,这是一个通过生成和大规模语言模型发展起 ...
大型语言模型
[Qwen2-VL] 可处理不同分辨率图像和视频的最新 VLM
[Qwen2-VL] 可处理不同分辨率图像和视频的最新 VLM
大型语言模型
[NVLM]多模态 LLM 在图像和语言任务中的表现优于 GPT-4o
[NVLM]多模态 LLM 在图像和语言任务中的表现优于 GPT-4o
大型语言模型
人工智能×手工艺打造 "味道像爱 "的面包
人工智能×手工艺打造 "味道像爱 "的面包
人机交互
Ferret-UI,一种用于移动用户界面的多模态大规模语言模型
Ferret-UI,一种用于移动用户界面的多模态大规模语言模型
大型语言模型