在 AI 进化史的长河中,2017 年不仅是《Attention Is All You Need》发布的元年,更是人类彻底向“规模化算力”臣服的转折点。DeepMind 资深科学家 Rich Sutton 在《苦涩教训》(The Bitter Lesson)中深刻指出:AI 领域近 70 年的进步,最终都归结为通过海量算力释放搜索与学习能力,而试图手动建模人类认知偏置的精巧设计,在通用的统计规律面前表现得极其拙劣。
Transformer 的崛起,本质上是算法对底层硬件架构(GPU)并行算力的彻底投降与适配。它不再试图模仿人类处理语言时那种小心翼翼的、线性的逐词阅读习惯,而是直接在全局统计视野下,通过矩阵运算暴力拆解语义空间。
Transformer 的成功不是对人类语言天才的模仿,而是对并行算力和全局统计规律的彻底释放。
在 Transformer 统治之前,循环神经网络(RNN)及其变体 LSTM 曾是序列建模的代名词。其核心逻辑是引入“隐藏状态(Hidden State)”,试图通过一条连续的隐变量链条来承载记忆。
RNN 的致命伤在于其串行计算(Sequential Computation)串行依赖使得模型无法利用 GPU 动辄数千个 CUDA 核心的并行计算优势,时间复杂度被牢牢锁定在 O(n),导致训练效率在面对海量语料时呈断崖式下跌。
尽管 LSTM 通过门控机制(Forget/Input/Output Gates)在一定程度上缓解了短期记忆失效,但依然无法从物理层面根治以下顽疾:
[架构对比:RNN vs Transformer 计算流向]
Transformer 架构的精髓在于它彻底抛弃了循环,转而通过自注意力(Self-Attention)重新构建信息流。