它以范例多头正式力(MHA)为基准
发布日期:2025-03-18 09:20 点击次数:136
大模子相似的高下文窗口,只需一半内存就能杀青,况且精度无损?
前苹果ASIC架构师Nils Graef,和又名UC伯克利在读本科生一王人提倡了新的正式力机制Slim Attention。
它以范例多头正式力(MHA)为基准,对其中的value缓存责罚过程进行了波折,杀青了更少的内存占用。
具体来说,Slim Attention既不错让KV缓存大小减半,也不错在KV缓存大小不变的情况下让高下文翻倍,都不会带来精度赔本。
此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2倍。
网友评价,Slim Attention天然简便,但却是一个很酷的主见。
还有AI创业者评答复,这是一项首要打破,可能重塑对模子测验和部署的概念。
K-Cache is All You Need
在范例的MHA机制当中,关于输入X和会过线性变换,经由三个投影矩阵W_Q、W_K、W_V获得Q(query)、K(key)和V(value)三个矩阵。
在推理阶段,每个输入token贪图获得的K和V向量都需要缓存起来,变成KV cache供后续token贪图时使用。
Slim Attention的中枢念念路是,期骗MHA中W_K和W_V频繁都是方阵的性质,只存储K而抗拒直存储V,然后及时间骗K贪图出V。
△
原始MHA(左)与编削版(右)对比
在测验阶段,Slim Attention与范例MHA一样,会对输入X贪图Q、K、V三个矩阵,正式力贪图和梯度回传也与范例MHA十足一致。
在W_K可逆的前提下,Slim Attention引入一个新的参数矩阵W_KV:
W_KV = W_K^(-1)·W_V
据此,不错获得:
V = X·W_V = X·W_K·W_K^(-1)·W_V = K·W_KV
推理过程则主要分为两个阶段——辅导阶段(并行贪图)和生成阶段(自总结)。
辅导阶段与范例MHA一样,将输入的通盘token并行贪图Q、K矩阵,但不同的是,这里抗拒直贪图V,在线配资平台而是将中间为止K缓存供后续使用。
生成阶段每个时辰步生成一个新token,最初贪图该时辰步的Q向量q,然后基于q和之前时辰步缓存的K矩阵,贪图正式力得(即softmax的输入)。
在softmax之前,Slim Attention通过公式V = K · W_KV及时贪图V矩阵。具体有两种神色:
平直贪图V,然后将softmax为止与V相乘(矩阵乘法)获得正式力输出;
先将softmax为止与K相乘,然后再与W_KV相乘,当序列较永劫这种神色更高效。
剩余经由(残差诱导、前馈层等)与范例MHA一致,终末将现时步的k向量添加到K缓存中,供下一时辰步使用。
总之,Slim Attention是范例MHA的精准数学重写,因此与雷同本事不同,可确保准确率不会着落。
以此为前提,Slim Attention杀青了KV缓存减半或高下文翻倍的效果。
前苹果架构师与UC伯克利本科生后果
Slim Attention的作家是AI初创公司OpenMachine的创举东谈主兼CEO Nils Graef,以及UC伯克利在读本科生Andrew Wasielewski。
平安优配Nils的主业是机器学习加快器的架构和联想,曾发表两篇IEEE期刊论文和30多项专利,援用次数逾越900次。
创立OpenMachine前,Nils在著名推理加快平台Groq(正式不是马斯克的Grok)担任芯片架构师。
更早的时候,他先后担任过谷歌ML加快器架构&联想工程师和苹果ASIC架构师。
Andrew Wasielewski是UC伯克利在读本科生,专科是物理和EECs(电气工程与贪图机科学),展望将于来岁毕业。
凭据论文签字信息贯通,Slim Attention的使命是Andrew在OpenMachine完成的。
客岁7月,Nils和Andrew还与其他东谈主协作,发表了一篇名为Flash normalization的论文,提倡了一种更快的RNS归一化神色。
此外皮Slim Attention的致谢中还提到,艾伦实践室的Dirk Groeneveld,以及SGLang三作谢志强,对其使命提供了有意询查;Transformer作家之一、Character.AI创举东谈主Noam Shazeer给出了积极反映。
参考联接:
https://x.com/rohanpaul_ai/status/1901092052282339474
— 完 —