post_img

DeepSeek-R1论文笔记

摘要

从基础模型上强化学习 R1-Zero使用大规模RL进行训练,不使用任何SFT数据,模型展示了显著的推理能力,例如自我验证、反思和生 …