它以范例多头正式力(MHA)为基准
2025-03-18大模子相似的高下文窗口,只需一半内存就能杀青,况且精度无损? 前苹果ASIC架构师Nils Graef,和又名UC伯克利在读本科生一王人提倡了新的正式力机制Slim Attention。 它以范例多头正式力(MHA)为基准,对其中的value缓存责罚过程进行了波折,杀青了更少的内存占用。 具体来说,Slim Attention既不错让KV缓存大小减半,也不错在KV缓存大小不变的情况下让高下文翻倍,都不会带来精度赔本。 此外,在内存带宽受限的场景下,它还不错将模子的推理过程加快1.5-2倍。 网