强化学习文章 | AI-SCHOLAR.TECH | AI-SCHOLAR | AI：（人工智能）文章和技术信息媒体

CompassVerifier：彻底改变 LLM 解决方案验证的新基准和稳健模型

CompassVerifier：彻底改变 LLM 解决方案验证的新基准 ...

24/08/2025

OctoThinker 通过改进 Llama 来支持强化学习，展示了中间学习的威力

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长句的新评估方法

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长 ...

05/07/2025

让 LLM 代替人类当导师？用自然语言训练的强化学习代理

25/06/2025

Insight-V：连接视觉与思维的多模态推理新策略

23/06/2025

从制造业机器人操作演示中学习的路线图

22/01/2025 机器人

[SCoRe]强化学习，提高 LLM 自我纠错能力！在多步骤过程中发现和纠正错误

[SCoRe]强化学习，提高 LLM 自我纠错能力！在多步骤过程中发现 ...

31/10/2024 大型语言模型

由 NAVER 开发！HyperCLOVA X 是专门针对韩语的大规模语言模型

由 NAVER 开发！HyperCLOVA X 是专门针对韩语的大规模 ...

29/10/2024 大型语言模型

[交叉集合表征学习] 克服深度强化学习中的多样性挑战

23/10/2024 神经网络

在大规模采用电动汽车的时代，人工智能将解决电力供需难题

11/10/2024 神经网络

[利用人工智能追踪逃犯的新技术

09/10/2024 多代理系统

[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架

04/10/2024 网络和互联网架构

在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人

09/09/2024 大型语言模型

有趣的发现：盲人人工智能学会了绘制环境地图

31/05/2024 强化学习

Meta 为贝叶斯优化带来意想不到的改进

19/02/2024 贝叶斯优化

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方法

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方 ...

02/02/2024 RLHF

强化学习

CompassVerifier：彻底改变 LLM 解决方案验证的新基准和稳健模型

CompassVerifier：彻底改变 LLM 解决方案验证的新基准 ...

OctoThinker 通过改进 Llama 来支持强化学习，展示了中间学习的威力

OctoThinker 通过改进 Llama 来支持强化学习，展示了中 ...

什么是 DualTHOR？用于提高双臂机器人实际适应能力的新一代模拟器

什么是 DualTHOR？用于提高双臂机器人实际适应能力的新一代模拟器

通过 "截断近端策略优化 "加速强化学习，实现长句生成的效率革命

通过 "截断近端策略优化 "加速强化学习，实现长句生成的效率革命

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长句的新评估方法

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长 ...

让 LLM 代替人类当导师？用自然语言训练的强化学习代理

让 LLM 代替人类当导师？用自然语言训练的强化学习代理

Insight-V：连接视觉与思维的多模态推理新策略

Insight-V：连接视觉与思维的多模态推理新策略

从制造业机器人操作演示中学习的路线图

从制造业机器人操作演示中学习的路线图

[SCoRe]强化学习，提高 LLM 自我纠错能力！在多步骤过程中发现和纠正错误

[SCoRe]强化学习，提高 LLM 自我纠错能力！在多步骤过程中发现 ...

由 NAVER 开发！HyperCLOVA X 是专门针对韩语的大规模语言模型

由 NAVER 开发！HyperCLOVA X 是专门针对韩语的大规模 ...

[交叉集合表征学习] 克服深度强化学习中的多样性挑战

[交叉集合表征学习] 克服深度强化学习中的多样性挑战

在大规模采用电动汽车的时代，人工智能将解决电力供需难题

在大规模采用电动汽车的时代，人工智能将解决电力供需难题

[利用人工智能追踪逃犯的新技术

[利用人工智能追踪逃犯的新技术

[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架

[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架

在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人

在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人

有趣的发现：盲人人工智能学会了绘制环境地图

有趣的发现：盲人人工智能学会了绘制环境地图

Meta 为贝叶斯优化带来意想不到的改进

Meta 为贝叶斯优化带来意想不到的改进

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方法

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方 ...