DeepSeek-R1模型训练方法发布
- 来源:科技日报
- 2025-09-20 15:08:43
-
收藏
DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。
DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。
在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。
关键词:
相关推荐
记者手记|29个女孩一个家,取名叫“幸福”
推荐 2025/09/20埃基蒂克:感谢科纳特帮我融入,C罗是我关注的第一个球星
推荐 2025/09/20恒指牛熊街货比(62:38)︱9月20日
推荐 2025/09/20【ETF动向】9月19日博时科创综指ETF基金跌1.3%
推荐 2025/09/20还没定,乔纳森·库明加的经纪人坦诚谈论勇士队的未来
推荐 2025/09/20热门资讯 日 周 总
胃肠不适、晒伤多发?中医支招健康过“三伏”
健康 2025/08/13防汛关键期,如何安全避险?
健康 2025/08/13立秋养生贵在“收”
健康 2025/08/13国家卫健委:警惕“秋老虎”和换季健康谣言,养生莫信“偏方”
健康 2025/08/13中国医师协会以岭关爱医师健康专项基金2025医师节关爱医师座谈会在烟台举行
健康 2025/08/13澳门将办“绿色公众日”活动 鼓励市民环保生活
节目 2019/03/26抖音多闪精准推荐多位“好友” 博士生起诉抖音、多闪侵犯隐私权
节目 2019/03/25香港科学园举办大型创科招聘会 60秒求职擂台现场面试
节目 2019/03/13中国原创赛事高山定点滑雪公开赛总决赛落幕
节目 2019/03/12首例斑狐猴三胞胎正式与游客见面
节目 2019/03/07- DeepSeek-R1模型训练方法发布2025-09-20
- 国际科技园及创新区域协会世界大会在京开幕2025-09-20
- 商务部、工信部等9部门发文扩大服务消费2025-09-20
- 月球热演化研究获重要进展 内生月震引发新2025-09-20
- 我国工业互联网应用加速落地2025-09-20
- 首个行业标准预发布 智算中心建设迈向规范2025-09-20
- 国家网信办拟细化未成年人用户数量巨大的网2025-09-20
- 新华视点·关注AI造假丨透视AI“魔改”视频2025-09-20
- 组合驾驶辅助系统将迎国家标准 工业和信息2025-09-20
- 让传感器动起来 我国科研团队研发出脑机接2025-09-20
- 我国首次向全球共享气候数据产品2025-09-20
- 我国“灯塔工厂”数量全球第一2025-09-20
- 这五年,我国科技事业取得历史性成就2025-09-20
- 我科学家探索大质量恒星形成之谜获重要进展2025-09-20
- 我国科技事业取得历史性成就 2024年“三新2025-09-20
- L2级辅助驾驶将迎来国家标准 智慧的车如何2025-09-20
- 强化安全 组合驾驶辅助系统将迎国标2025-09-20
- 科学与健康丨机器人成“康复助手”?先学好2025-09-20
- 铁路物流优化供给提升品质2025-09-20
- 电动汽车充电基础设施总数达1734.8万个2025-09-20
- 电商赋能“链”式发展 乡村特色产业向“新2025-09-20
- 我国高新技术企业超50万家2025-09-20
- 科技部:我国研发人员总量世界第一2025-09-20
- 新华全媒+丨东博会手记:人工智能+,从“点2025-09-20
- 新华鲜报|向科技强国挺进!“十四五”大国2025-09-20
- 高质量完成“十四五”规划|“十四五”时期2025-09-20
- AI重奏人生|毫米级精准植入,脑机接口让瘫2025-09-20
- 记者手记|29个女孩一个家,取名叫“幸福”2025-09-20
- 我国科研团队研发出新型氢负离子原型电池2025-09-20
- 速览!“十四五”时期科技创新发展成就2025-09-20