你的LLM无法拟合？1958年的数学技巧搞定了

MIT-IBM刚刚暴露了LLaMA、Mistral和Falcon背后注意力机制的根本缺陷。修复方法已有67年历史。

Householder反射：一种变换，无限可能。PaTH使用这种1958年的技术动态编码位置。

Alston Stewart Householder从未听说过Transformer。这不足为奇：他于1993年去世，比Hochreiter和Schmidhuber发表LSTM（1997年）早四年，比”Attention Is All You Need”（2017年）早二十四年。

1958年，Householder在Oak Ridge National Laboratory工作。那个时代的计算机是真空管巨兽。他开发了一种优雅的技术，使用几何反射分解矩阵，后来被称为Householder变换。

这个想法很简单：将向量反射过超平面。就像数学上的镜子。

六十七年后，这项技术解决了大型语言模型中最棘手的问题之一。

**这个悖论很有趣。**当AI行业投入数十亿美元到GPU集群和越来越复杂的技术时，他们一个盲点的解决方案来自一个刚刚发射第一颗人造卫星（Sputnik）的时代。

如果你使用LLaMA、Mistral、PaLM、Falcon或大多数现代开源LLM，你正在使用RoPE（旋转位置嵌入）。

RoPE由Jianlin Su于2021年引入。其理念是：通过对查询和键向量应用旋转来编码序列中每个token的位置。旋转仅取决于token的位置，而不是其内容。

它很优雅。它很高效。它已成为事实上的标准。