强化学习
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
什么是 DualTHOR?用于提高双臂机器人实际适应能力的新一代模拟器
通过 "截断近端策略优化 "加速强化学习,实现长句生成的效率革命
通过 "截断近端策略优化 "加速强化学习,实现长句生成的效率革命
使用 PrefBERT 进行以语义为重点的奖励设计,这是一种用于生成长句的新评估方法
使用 PrefBERT 进行以语义为重点的奖励设计,这是一种用于生成长 ...
让 LLM 代替人类当导师?用自然语言训练的强化学习代理
让 LLM 代替人类当导师?用自然语言训练的强化学习代理
Insight-V:连接视觉与思维的多模态推理新策略
Insight-V:连接视觉与思维的多模态推理新策略
从制造业机器人操作演示中学习的路线图
从制造业机器人操作演示中学习的路线图
机器人
[SCoRe]强化学习,提高 LLM 自我纠错能力!在多步骤过程中发现和纠正错误
[SCoRe]强化学习,提高 LLM 自我纠错能力!在多步骤过程中发现 ...
大型语言模型
由 NAVER 开发!HyperCLOVA X 是专门针对韩语的大规模语言模型
由 NAVER 开发!HyperCLOVA X 是专门针对韩语的大规模 ...
大型语言模型
[交叉集合表征学习] 克服深度强化学习中的多样性挑战
[交叉集合表征学习] 克服深度强化学习中的多样性挑战
神经网络
在大规模采用电动汽车的时代,人工智能将解决电力供需难题
在大规模采用电动汽车的时代,人工智能将解决电力供需难题
神经网络
[利用人工智能追踪逃犯的新技术
[利用人工智能追踪逃犯的新技术
多代理系统
[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架
[FlagVNE] 用于虚拟网络嵌入的灵活、可通用的强化学习框架
网络和互联网架构
在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人
在印度开发一个专门处理高中物理选择题的 LLM 聊天机器人
大型语言模型
有趣的发现:盲人人工智能学会了绘制环境地图
有趣的发现:盲人人工智能学会了绘制环境地图
强化学习
Meta 为贝叶斯优化带来意想不到的改进
Meta 为贝叶斯优化带来意想不到的改进
贝叶斯优化
[DPO]一种不使用强化学习,直接将大规模语言模型与用户偏好相匹配的方法
[DPO]一种不使用强化学习,直接将大规模语言模型与用户偏好相匹配的方 ...
RLHF
Open X-Embodiment:实现通用机器人学习
Open X-Embodiment:实现通用机器人学习
机器人