「強化学習」の記事一覧 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：(人工知能)論文・技術情報メディア

CompassVerifier：LLM解答検証を革新する新たなベンチマークと堅牢モデル

CompassVerifier：LLM解答検証を革新する新たなベンチマ ...

2025年08月24日 LLM-Paper

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の力

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の ...

2025年07月28日 LLM-Paper

DualTHORとは何か？双腕ロボットの現実適応力を高める次世代シミュレータ

DualTHORとは何か？双腕ロボットの現実適応力を高める次世代シミュ ...

2025年07月28日 LLM-Paper

長文生成の効率革命『Truncated Proximal Policy Optimization』による強化学習高速化

長文生成の効率革命『Truncated Proximal Policy ...

2025年07月14日 LLM-Paper

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報酬設計

【SCoRe】LLMの自己修正能力を高める強化学習！多段階的にエラーを特定して修正する

【SCoRe】LLMの自己修正能力を高める強化学習！多段階的にエラーを ...

2024年10月31日 Large language models

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOVA X」

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOV ...

2024年10月29日 Large language models

【Cross-Ensemble Representation Learning】深層強化学習における多様性の課題を克服

【Cross-Ensemble Representation Lear ...

2024年10月23日 Neural Network

AIが解決する！EV大量普及時代の電力需給難題

2024年10月11日 Neural Network

【Grasper】逃走者をAIで追跡する新技術

2024年10月09日 Multiagent Systems

【FlagVNE】仮想ネットワークエンベディングのための柔軟かつ汎化可能な強化学習フレームワーク

【FlagVNE】仮想ネットワークエンベディングのための柔軟かつ汎化 ...

2024年10月04日 Networking and Internet Architecture

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの開発

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの ...

2024年09月09日 Large language models

盲目のAIが環境の地図を学習するという興味深い発見

2024年05月31日強化学習

Metaがベイズ最適化の予想外の改善を実現

2024年02月19日 Bayesian Optimization

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせる手法

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせ ...

2024年02月02日 RLHF

強化学習

CompassVerifier：LLM解答検証を革新する新たなベンチマークと堅牢モデル

CompassVerifier：LLM解答検証を革新する新たなベンチマ ...

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の力

Llamaを強化学習対応に進化、OctoThinkerが示す中間学習の ...

DualTHORとは何か？双腕ロボットの現実適応力を高める次世代シミュレータ

DualTHORとは何か？双腕ロボットの現実適応力を高める次世代シミュ ...

長文生成の効率革命『Truncated Proximal Policy Optimization』による強化学習高速化

長文生成の効率革命『Truncated Proximal Policy ...

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報酬設計

長文生成を進化させる新しい評価法『PrefBERT』による意味重視の報 ...

人間の代わりにLLMが指導役に？自然言語で鍛える強化学習エージェント

人間の代わりにLLMが指導役に？自然言語で鍛える強化学習エージェント

Insight-V：視覚と思考をつなぐマルチモーダル推論の新戦略

Insight-V：視覚と思考をつなぐマルチモーダル推論の新戦略

製造業向けロボット操作のデモからの学習のロードマップ

製造業向けロボット操作のデモからの学習のロードマップ

【SCoRe】LLMの自己修正能力を高める強化学習！多段階的にエラーを特定して修正する

【SCoRe】LLMの自己修正能力を高める強化学習！多段階的にエラーを ...

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOVA X」

NAVERが開発！韓国語に特化した大規模言語モデル「HyperCLOV ...

【Cross-Ensemble Representation Learning】深層強化学習における多様性の課題を克服

【Cross-Ensemble Representation Lear ...

AIが解決する！EV大量普及時代の電力需給難題

AIが解決する！EV大量普及時代の電力需給難題

【Grasper】逃走者をAIで追跡する新技術

【Grasper】逃走者をAIで追跡する新技術

【FlagVNE】 仮想ネットワークエンベディングのための柔軟かつ汎化可能な強化学習フレームワーク

【FlagVNE】 仮想ネットワークエンベディングのための柔軟かつ汎化 ...

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの開発

インドの高校レベルの物理の多肢選択問題に特化したLLMチャットボットの ...

盲目のAIが環境の地図を学習するという興味深い発見

盲目のAIが環境の地図を学習するという興味深い発見

Metaがベイズ最適化の予想外の改善を実現

Metaがベイズ最適化の予想外の改善を実現

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせる手法

【DPO】強化学習を用いずに大規模言語モデルをユーザの好みに直接合わせ ...

【FlagVNE】仮想ネットワークエンベディングのための柔軟かつ汎化可能な強化学習フレームワーク

【FlagVNE】仮想ネットワークエンベディングのための柔軟かつ汎化 ...