DeepSeek-R1论文笔记

NekoNekoNiko120 发布于 2025-01-27 26 次阅读


从基础模型上强化学习

R1-Zero使用大规模RL进行训练,不使用任何SFT数据,模型展示了显著的推理能力,例如自我验证、反思和生成长推理链(CoT),它使用的RL算法是组相对策略优化(GRPO),它通过组分数而不是使用与策略模型大小相同的批评者模型来估计基线。奖励系统包括准确性奖励和格式奖励,以确保模型提供正确答案并遵循指定格式

蒸馏

R1使用“Distillation”(蒸馏)来保证小模型的推理能力,像使用Qwen2.532B为基础模型,直接从DeepSeek-R1进行蒸馏的表现优于在其上应用RL,蒸馏后的模型在推理基准测试中显著优于之前的开源模型

自我进化

在推理基准分中,R1与OpenAI的o1性能相当,且可以使用更多数据集训练增大数据量而保证性能损失不大

R1可以在对话中更好的理解上下文,且占用的显存更少

强化学习

R1-zero有一系列的问题,例如可读性差,语言混合(胡言乱语)等问题,R1使用了冷启动——一系列参数微调R1-zero,进一步提升了LLM性能

拒绝了采样创建新的SFT数据,并重新训练模型

实验结果

R1的实验结果在MMLU、MMLU-Pro、GPQA Diamond、SimpleQA、LiveCodeBench和Codeforces中,略微超过GPT-o1

在编码任务上,DeepSeek-R1在Codeforces上超过了96.3%的人类参与者

目前的限制和未来的工作方向

目前R1仍然有可读性差、语言乱用的情况

目前R1仅仅优化了中文和英文,对于其他语言,R1可能会突然回答出中文/英文单词

未来,deepseek将会继续优化对于语言乱用和可读性的问题,并及时的修正错误——当然,这对于本地的开源大模型会慢于类似GPT的商业在线大模型

我的补充

关于deepseek的使用上,Mac用户可以使用ollama体验

比如我的m3Max MacBook pro 36GB建议使用32B版本:

ollama run deepseek-r1:32b

关于图形界面:

建议使用open webUI(在orbstack中运行)