「言葉」で指示して「画像」で探す!OWL-ViTが実現するオープンボキャブラリー物体検出 「言葉」で指示して「画像」で探す!OWL-ViTが実現するオープンボキ ... 2025年02月28日 Neural Network
【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多モーダル設計 【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多 ... 2025年02月27日 Large language models
【愛犬も話したZero-shot Learning】AI音声クローンとリップシンキングの検証と解説 【愛犬も話したZero-shot Learning】AI音声クローンと ... 2025年01月29日 Neural Network
新しい画像編集手法「イミテイティブ編集」を実現するMimicBrushを提案 新しい画像編集手法「イミテイティブ編集」を実現するMimicBrush ... 2025年01月16日 Image Editing
推論過程を書き出すホワイトボードを与えることで、LLMの視覚的推論能力が大きく向上!? 推論過程を書き出すホワイトボードを与えることで、LLMの視覚的推論能力 ... 2024年12月26日 Prompting Method
MicroDiffusion: 数万ドルのモデルに勝る千ドルの生成画質モデル MicroDiffusion: 数万ドルのモデルに勝る千ドルの生成画質 ... 2024年12月25日 Image generation
【GenAI-Arena】ユーザー投票で生成モデルを評価する新プラットフォーム 【GenAI-Arena】ユーザー投票で生成モデルを評価する新プラット ... 2024年12月20日 Large language models
【SKETCHPAD】マルチモーダル言語モデルの推論を中間スケッチで強化 【SKETCHPAD】マルチモーダル言語モデルの推論を中間スケッチで強 ... 2024年12月18日 Large language models
【Plot2Code】マルチモーダルLLMのコード生成をテストするベンチマーク 【Plot2Code】マルチモーダルLLMのコード生成をテストするベン ... 2024年12月17日 Large language models
【MMSEARCH】画像とテキストを統合したマルチモーダル検索システム 【MMSEARCH】画像とテキストを統合したマルチモーダル検索システム 2024年10月29日 Large language models