介绍
在WWDC2024发布了Apple Intelligence相关的AI组件,Apple少见的不改名技术(例如把120hz改名叫Pro Motion,把MR改名叫空间计算),而是直接使用了AI一词——但是此AI非彼AI,叫Apple Intelligence而不是Artificial Intelligence
本论文讲述的是Apple Intelligence的架构、训练过程、优化策略和应用
架构
Apple Foundation Models(AFM)基于transformer架构
由AFM-on-device(一个大约30亿参数的模型)、AFM- server(一个更大的Apple未公布参数的模型)组成
然而似乎AFM- server被ChatGPT取代了
AFM-on-device的具体参数细节如下:
预训练
AFM的预训练过程分为三个阶段:核心预训练、持续预训练和上下文扩展预训练。预训练数据集包括多样化和高质量的数据混合,如授权数据集、代码数据、数学数据和公开数据集
数据来源
懒得写了,大概意思就是以尊重用户隐私的方式弄到的已授权数据库
核心预训练
AFM-server:使用6.3T的源tokens在8192个TPUv4芯片训练,序列长度为4096,批量大小为4096个序列。通过学习率扫描确定最优学习率为0.01,使用调优后的解耦权重衰减3.16e-4,学习率调度包括5000步的线性热身,随后是余弦衰减至峰值的0.005
AFM-on-device:从一个经过结构化剪枝的6.4B模型初始化(使用与AFM-server相同的训练配方从头开始训练),使用Soft-Top-K掩码代替HardConcrete掩码进行剪枝,,仍使用6.3T tokens,在训练过程中,使用知识蒸馏,将目标标签替换为教师模型的top-1预测的凸组合(赋予教师标签0.9的权重),同时,使用与AFM-server相同的学习率0.01和解耦权重衰减3.16e-4,使用与AFM-server相同的4096个序列
持续预训练
在序列长度为8192的情况下,使用1T标记的数据混合进行持续预训练,增加数学和代码的权重,降低大量网络爬取数据的权重,并包含授权数据
使用的学习率为3e-4,解耦权重衰减为1e-5,与核心预训练阶段有所不同
上下文扩展预训练
使用100B的token混合进行进一步的持续预训练,增加合成长上下文问答数据,并将RoPE基础频率从500k提高到6315089,这让AFM的举一反三能力加强了不少,同时检查了AFM-server的长句生成能力
优化器
使用RMSProp变体,带有动量,将原始梯度除以平方梯度的平方根的偏差校正指数移动平均值,以产生即时更新,然后将其限制在每个参数块的最大范数1.0,最后通过指数移动平均值平滑估计以产生净更新
训练设施
使用v4和v5p Cloud TPU集群与AXLearn框架(Apple,2023)进行预训练,该框架是基于JAX的深度学习库,专为公共云设计。训练使用张量、全分片数据并行和序列并行,允许训练扩展到大量模型参数和序列长度
后训练
后训练阶段包括监督微调(SFT)和从人类反馈强化学习(RLHF)。研究者提出了两种新的后训练算法:带有教师委员会的拒绝采样微调算法(iTeC)和带有镜像下降策略优化和留一法优势估计器的RLHF算法(MDLOO)。这些方法旨在提高模型在指令遵循、对话能力和写作方面的性能,并确保模型与苹果的核心价值观和负责任AI原则保持一致
使Apple Intelligence的功能跑起来
Apple设计了大量的模型来实现Apple Intelligence,客户端(AFM-on-deivce)由语义编码模型、app意图解释模型、大语言模型、图片生成模型组成
服务端(AFM-server)使用server models
具体架构如下
虽然但是Apple的服务器芯片不是没出吗
评估
预训练模型
AFM benchmark结果如下
后训练模型
人工队vs机器队(
学习指引
工具使用
写作
数学计算
总结
Apple Intelligence目前还是大量依赖ChatGPT,也许是因为Apple自研服务器芯片尚未成熟,也许是因为AFM-server的问题,至少这篇论文证明了Apple的野心
你说的对但是Apple Intelligence目前还是只能Ask GPT
Comments NOTHING