MCP-Benchが拓くLLMエージェント評価の新潮流!複雑タスクと実世界シナリオへの挑戦 MCP-Benchが拓くLLMエージェント評価の新潮流!複雑タスクと実 ... 2025年09月08日 LLM-Paper
分離学習と報酬学習による新手法『USO』:スタイルと主体を統合した画像生成の最前線 分離学習と報酬学習による新手法『USO』:スタイルと主体を統合した画像 ... 2025年09月03日 LLM-Paper
rStar2-Agent: GRPO-RoCによる効率的エージェント型強化学習で到達した最先端の数理推論 rStar2-Agent: GRPO-RoCによる効率的エージェント型 ... 2025年08月31日 LLM-Paper
Pref-GRPO: ペアワイズ比較で実現する安定的なテキスト画像生成強化学習の新手法 Pref-GRPO: ペアワイズ比較で実現する安定的なテキスト画像生成 ... 2025年08月31日 LLM-Paper
TRACEALIGN:大規模言語モデルにおけるアライメントドリフトの原因追跡と防御策 TRACEALIGN:大規模言語モデルにおけるアライメントドリフトの原 ... 2025年08月30日 LLM-Paper
AlignGuard-LoRA:効率的微調整と安全性保持を両立する新たな正則化手法 AlignGuard-LoRA:効率的微調整と安全性保持を両立する新た ... 2025年08月29日 LLM-Paper
ChartCap:大規模データセットと新評価指標によるチャートキャプションの幻覚抑制 ChartCap:大規模データセットと新評価指標によるチャートキャプシ ... 2025年08月29日 LLM-Paper
LiveMCPBench:大規模ツール環境でLLMエージェントを評価する新たなベンチマーク LiveMCPBench:大規模ツール環境でLLMエージェントを評価す ... 2025年08月28日 LLM-Paper
Goedel-Prover-V2:自己修正と段階的データ合成による効率的な自動定理証明の新展開 Goedel-Prover-V2:自己修正と段階的データ合成による効率 ... 2025年08月27日 LLM-Paper
複数人会話映像生成の新展開!MITデータセットとベースラインモデル『CovOG』 複数人会話映像生成の新展開!MITデータセットとベースラインモデル『C ... 2025年08月27日 LLM-Paper
ToolTrain:LLMによるリポジトリ深層探索とIssue Localizationの新手法 ToolTrain:LLMによるリポジトリ深層探索とIssue Loc ... 2025年08月25日 LLM-Paper
FlashAttention対応のトークン圧縮『Representation Shift』の仕組みと効果 FlashAttention対応のトークン圧縮『Representat ... 2025年08月25日 LLM-Paper
CompassVerifier:LLM解答検証を革新する新たなベンチマークと堅牢モデル CompassVerifier:LLM解答検証を革新する新たなベンチマ ... 2025年08月24日 LLM-Paper
Skywork UniPic:高効率で画像理解・生成・編集を統合する次世代マルチモーダルモデル Skywork UniPic:高効率で画像理解・生成・編集を統合する次 ... 2025年08月13日 LLM-Paper
Seed Diffusion Preview:高速推論と高性能を両立する次世代コード生成モデル Seed Diffusion Preview:高速推論と高性能を両立す ... 2025年08月13日 LLM-Paper