最新AI論文をキャッチアップ

AI-SCHOLARとは？

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報酬設計

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報 ...

2025年07月05日 LLM-Paper

人間の代わりにLLMが指導役に？自然言語で鍛える強化学習エージェント

人間の代わりにLLMが指導役に？自然言語で鍛える強化学習エージェント

2025年06月25日 LLM-Paper

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの開発

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの ...

2024年09月09日 Large language models

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせる手法

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせ ...

2024年02月02日 RLHF

EUREKA：LLMを用いた報酬設計の自動化

EUREKA：LLMを用いた報酬設計の自動化

2023年12月04日 RLHF