![](/d/file/p/2025/02/9035006842133500749.jpg)
大年初四,Daya Guo在社交媒体上分享了他最兴奋的事情:亲眼见证了R1-Zero模型性能曲线的持续增长,并直言强化学习(RL)的力量非常强大。
Daya Guo回复网友有关DeepSeek R1的一些问题和公司计划。他透露,尽管R1只是他们研究的开始,但内部研究仍在快速推进,甚至春节期间都没有休息,研究人员一直在努力推动他们的研究成果。他还表示,在尝试将R1应用于形式化证明环境,并希望尽快向社区发布更好的模型。
根据Daya Guo的说法,他们在该领域已经有了进展,并期待未来会有更重磅的模型发布!