2025年末人工智能思考
- 多年来,尽管相关功能证据与科学线索不断积累,仍有部分人工智能研究者坚持认为,大语言模型不过是随机鹦鹉——这类概率性模型存在两大缺陷:1. 无法理解提示词背后的语义。2. 无法预判自身将要生成的内容。而到了2025年,几乎所有人都摒弃了这一观点。
- 如今,思维链已成为提升大语言模型输出质量的核心方法。但究竟什么是思维链?它为何能优化输出效果?我认为原因有两点:1. 对模型表征进行采样(这相当于一种内部检索机制)。当与提示词主题相关的信息和概念被纳入上下文窗口后,模型就能给出更优质的回复。2. 若将该方法与强化学习相结合,模型还会学会逐词生成内容(每个生成的词都会改变模型状态),最终收敛到有效的回复结果。
- 曾经有观点认为,模型的性能上限受制于训练所用的语料token数量,但随着基于可验证奖励的强化学习技术出现,这一说法已不再成立。我们目前尚未迎来人工智能领域的“阿尔法狗第37手”时刻,但这在未来真的遥不可及吗?以程序提速优化这类任务为例,理论上模型能在清晰奖励信号的引导下,实现长期持续的性能提升。我相信,强化学习在大语言模型中的应用优化,将成为人工智能领域的下一个重大突破。
- 程序员对人工智能辅助编程的抵触情绪已大幅减弱。即便大语言模型偶尔会出错,但其生成实用代码和提示的能力已经显著提升,以至于多数持怀疑态度的程序员也开始主动使用这类工具:如今,人工智能辅助编程的投入产出比,已经能满足更多人的需求。编程领域目前仍存在两种不同的使用模式:一部分人将大语言模型当作协作伙伴(比如我自己,全程通过Gemini、Claude等工具的网页界面开展交互);另一部分人则将其作为独立的代码生成智能体。
- 部分知名人工智能科学家认为,继Transformer架构之后,新的技术路径有望实现更卓越的突破。为此,他们已组建团队、创立公司,致力于研发Transformer的替代方案,以及具备显性符号表征或世界模型的新型模型。在我看来,大语言模型本质是在特定空间内训练的可微分机器,能够对离散推理步骤进行近似模拟。即便没有颠覆性的全新技术范式出现,这类模型也完全有可能助力我们实现通用人工智能。而且,通用人工智能的目标,或许能通过多种截然不同的技术架构分别达成。
- 有些人声称,思维链从根本上改变了大语言模型的本质——这也是他们过去唱衰大语言模型、如今又转变态度的原因。他们宣称,正是思维链的加持,让大语言模型脱胎换骨。但这是一种谎言。大语言模型的底层架构并未改变,核心目标依旧是逐词预测下一个token,而思维链的生成过程,也正是基于这种逐词生成的逻辑。
- 如今来看,ARC测试已不再像最初那般高不可攀:针对这项任务优化的小型模型,能在ARC-AGI-1测试集中取得不错的成绩;而配备深度思维链机制的超大型大语言模型,更是在ARC-AGI-2测试集中斩获亮眼表现——这一结果,超出了许多人对现有模型架构的预期。从某种意义上说,ARC测试已从当初专门“刁难”大语言模型的评测工具,转变为验证大语言模型能力的重要标杆。
- 在未来20年里,人工智能领域面临的核心挑战,是避免人类因人工智能走向灭绝。