DeepSeek研究员在线爆料：过年都没歇还有大招！

2025-02-05 09:52:05 来源：微博作者：新浪证券编辑：心态良好的胖子　浏览：loading

大年初四Daya Guo发了一条推文，透露了春节期间让他最兴奋的事情，亲眼见证了R1-Zero模型性能曲线的 “持续增长”，并且直言感受到了强化学习（RL）的强大力量。

Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的计划，只能说DeepSeek的R1仅仅只是开始，内部研究还在快速推进，DeepSeek的研究员过年都没歇，一直在爆肝推进研究，接下来DeepSeek还有大招。

网友提问：“如果不是秘密的话：这次RL训练跑了多久？”对此，Daya Guo表示，660B参数的R1-Zero和R1是在V3发布之后才开始跑的，训练大约花了2-3周。

此外，他还表示在尝试将R1应用于形式化证明环境，希望尽快向社区发布更好的模型。听Daya Guo的意思，他们在这方面已经有进展，未来可能会有更重磅的模型发布！期待值拉满！

人喜欢

游民星空APP

随时掌握游戏情报

新浪微博 QQ 微信

举报| 收藏|

休闲娱乐

综合热点资讯

单机游戏下载

好物推荐

游民星空联运游戏

DeepSeek研究员在线爆料：过年都没歇 还有大招！