它以范例多头正式力（MHA）为基准

栏目分类

热点资讯

优配最新消息而在前一天举行的有关香港银行业的记者会上

事故发生在土耳其口岸城市博德鲁姆

坚守支付为民中信银行成皆分行解锁支付服务新体验

股票9月布伦特原油期货结算价下跌0.5%

中证报批驳员：捕捉属于中国成本商场的时间红利

你的位置：辉煌资本 > 在线配资平台 > 它以范例多头正式力（MHA）为基准

在线配资平台

它以范例多头正式力（MHA）为基准

发布日期：2025-03-18 09:20 点击次数：139

大模子相似的高下文窗口，只需一半内存就能杀青，况且精度无损？

前苹果ASIC架构师Nils Graef，和又名UC伯克利在读本科生一王人提倡了新的正式力机制Slim Attention。

它以范例多头正式力（MHA）为基准，对其中的value缓存责罚过程进行了波折，杀青了更少的内存占用。

具体来说，Slim Attention既不错让KV缓存大小减半，也不错在KV缓存大小不变的情况下让高下文翻倍，都不会带来精度赔本。

此外，在内存带宽受限的场景下，它还不错将模子的推理过程加快1.5-2倍。

网友评价，Slim Attention天然简便，但却是一个很酷的主见。

还有AI创业者评答复，这是一项首要打破，可能重塑对模子测验和部署的概念。

K-Cache is All You Need

在范例的MHA机制当中，关于输入X和会过线性变换，经由三个投影矩阵W_Q、W_K、W_V获得Q(query)、K(key)和V(value)三个矩阵。

在推理阶段，每个输入token贪图获得的K和V向量都需要缓存起来，变成KV cache供后续token贪图时使用。

Slim Attention的中枢念念路是，期骗MHA中W_K和W_V频繁都是方阵的性质，只存储K而抗拒直存储V，然后及时间骗K贪图出V。

△

原始MHA（左）与编削版（右）对比

在测验阶段，Slim Attention与范例MHA一样，会对输入X贪图Q、K、V三个矩阵，正式力贪图和梯度回传也与范例MHA十足一致。

在W_K可逆的前提下，Slim Attention引入一个新的参数矩阵W_KV：

W_KV = W_K^(-1)·W_V

据此，不错获得：

V = X·W_V = X·W_K·W_K^(-1)·W_V = K·W_KV

推理过程则主要分为两个阶段——辅导阶段（并行贪图）和生成阶段（自总结）。

辅导阶段与范例MHA一样，将输入的通盘token并行贪图Q、K矩阵，但不同的是，这里抗拒直贪图V，在线配资平台而是将中间为止K缓存供后续使用。

生成阶段每个时辰步生成一个新token，最初贪图该时辰步的Q向量q，然后基于q和之前时辰步缓存的K矩阵，贪图正式力得（即softmax的输入）。

在softmax之前，Slim Attention通过公式V = K · W_KV及时贪图V矩阵。具体有两种神色:

平直贪图V，然后将softmax为止与V相乘（矩阵乘法）获得正式力输出；

先将softmax为止与K相乘，然后再与W_KV相乘，当序列较永劫这种神色更高效。

剩余经由（残差诱导、前馈层等）与范例MHA一致，终末将现时步的k向量添加到K缓存中，供下一时辰步使用。

总之，Slim Attention是范例MHA的精准数学重写，因此与雷同本事不同，可确保准确率不会着落。

以此为前提，Slim Attention杀青了KV缓存减半或高下文翻倍的效果。

前苹果架构师与UC伯克利本科生后果

Slim Attention的作家是AI初创公司OpenMachine的创举东谈主兼CEO Nils Graef，以及UC伯克利在读本科生Andrew Wasielewski。

平安优配

Nils的主业是机器学习加快器的架构和联想，曾发表两篇IEEE期刊论文和30多项专利，援用次数逾越900次。

创立OpenMachine前，Nils在著名推理加快平台Groq（正式不是马斯克的Grok）担任芯片架构师。

更早的时候，他先后担任过谷歌ML加快器架构&联想工程师和苹果ASIC架构师。

Andrew Wasielewski是UC伯克利在读本科生，专科是物理和EECs（电气工程与贪图机科学），展望将于来岁毕业。

凭据论文签字信息贯通，Slim Attention的使命是Andrew在OpenMachine完成的。

客岁7月，Nils和Andrew还与其他东谈主协作，发表了一篇名为Flash normalization的论文，提倡了一种更快的RNS归一化神色。

此外皮Slim Attention的致谢中还提到，艾伦实践室的Dirk Groeneveld，以及SGLang三作谢志强，对其使命提供了有意询查；Transformer作家之一、Character.AI创举东谈主Noam Shazeer给出了积极反映。

参考联接：

https://x.com/rohanpaul_ai/status/1901092052282339474

— 完 —

上一篇：【12315投诉公示】浮滥者投诉中央阛阓其他投诉问题

下一篇：2025年3月18日宇宙主要批发阛阓鲢鱼价钱行情

让建站和SEO变得简单

在线配资平台