学习 - Niko's Blog

Just For Fun.

发布于 2025-03-04

600 热度无~ 学习

Grok, Deepseek’s Janus, Gemini, Qwen, Mistral, and ChatGPT的评估论文笔记

摘要

序言在大语言模型（LLM）快速发展的时代，transformer架构的大语言模型的理解能力评估主要集中在图形，语言理解，忽略了上 …

发布于 2025-01-27

684 热度无~ 学习

Apple Intelligence Foundation Language Models论文笔记

摘要

介绍在WWDC2024发布了Apple Intelligence相关的AI组件，Apple少见的不改名技术（例如把120hz改名 …

发布于 2025-01-27

509 热度无~ 学习

DeepSeek-R1论文笔记

摘要

从基础模型上强化学习 R1-Zero使用大规模RL进行训练，不使用任何SFT数据，模型展示了显著的推理能力，例如自我验证、反思和生 …