你的LLM无法拟合?1958年的数学技巧搞定了

MIT-IBM刚刚暴露了LLaMA、Mistral和Falcon背后注意力机制的根本缺陷。修复方法已有67年历史。

Householder反射:一种变换,无限可能。PaTH使用这种1958年的技术动态编码位置。

总结

Householder变换的起源

Alston Stewart Householder从未听说过Transformer。这不足为奇:他于1993年去世,比Hochreiter和Schmidhuber发表LSTM(1997年)早四年,比”Attention Is All You Need”(2017年)早二十四年。

1958年,Householder在Oak Ridge National Laboratory工作。那个时代的计算机是真空管巨兽。他开发了一种优雅的技术,使用几何反射分解矩阵,后来被称为Householder变换

这个想法很简单:将向量反射过超平面。就像数学上的镜子。

六十七年后,这项技术解决了大型语言模型中最棘手的问题之一。

**这个悖论很有趣。**当AI行业投入数十亿美元到GPU集群和越来越复杂的技术时,他们一个盲点的解决方案来自一个刚刚发射第一颗人造卫星(Sputnik)的时代。

为什么RoPE位置编码在状态跟踪上失败

RoPE:隐形标准

如果你使用LLaMA、Mistral、PaLM、Falcon或大多数现代开源LLM,你正在使用RoPE(旋转位置嵌入)。

RoPE由Jianlin Su于2021年引入。其理念是:通过对查询和键向量应用旋转来编码序列中每个token的位置。旋转仅取决于token的位置,而不是其内容。

它很优雅。它很高效。它已成为事实上的标准。