赶上最新的AI论文

什么是AI-SCHOLAR？

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长句的新评估方法

使用 PrefBERT 进行以语义为重点的奖励设计，这是一种用于生成长 ...

让 LLM 代替人类当导师？用自然语言训练的强化学习代理

让 LLM 代替人类当导师？用自然语言训练的强化学习代理

在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人

在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人

09/09/2024 大型语言模型

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方法

[DPO]一种不使用强化学习，直接将大规模语言模型与用户偏好相匹配的方 ...

02/02/2024 RLHF

EUREKA：利用 LLM 自动设计薪酬。

EUREKA：利用 LLM 自动设计薪酬。

04/12/2023 RLHF