Householder反射:一种变换,无限可能。PaTH使用这种1958年的技术动态编码位置。
Alston Stewart Householder从未听说过Transformer。这不足为奇:他于1993年去世,比Hochreiter和Schmidhuber发表LSTM(1997年)早四年,比”Attention Is All You Need”(2017年)早二十四年。
1958年,Householder在Oak Ridge National Laboratory工作。那个时代的计算机是真空管巨兽。他开发了一种优雅的技术,使用几何反射分解矩阵,后来被称为Householder变换。
这个想法很简单:将向量反射过超平面。就像数学上的镜子。
六十七年后,这项技术解决了大型语言模型中最棘手的问题之一。
**这个悖论很有趣。**当AI行业投入数十亿美元到GPU集群和越来越复杂的技术时,他们一个盲点的解决方案来自一个刚刚发射第一颗人造卫星(Sputnik)的时代。
如果你使用LLaMA、Mistral、PaLM、Falcon或大多数现代开源LLM,你正在使用RoPE(旋转位置嵌入)。
RoPE由Jianlin Su于2021年引入。其理念是:通过对查询和键向量应用旋转来编码序列中每个token的位置。旋转仅取决于token的位置,而不是其内容。
它很优雅。它很高效。它已成为事实上的标准。