第120期:将网站转化为适用于大语言模型（LLM）的知识库

一、引言

我们当下所熟悉的互联网，本质是为人类打造的产物。网页的设计围绕“浏览器呈现效果”展开，配备了菜单、导航栏、图片等元素，以提升人类用户的视觉体验与操作便捷性。

然而，对于大语言模型（LLMs）这类AI系统而言，设计美观与否毫无意义。它们真正关注的是清晰的结构、简洁的文本，以及有价值的示例。而目前，互联网上的绝大多数内容，都难以被LLMs有效学习和利用。

这就引出了一个关键问题：

倘若我们能让网站（或任何知识来源）不仅“对人类友好”，同时也“对AI友好”，会产生怎样的改变？

这正是“LLM化（LLMification）”理念的核心——将知识资源转化为针对大语言模型优化的格式。这一理念的近期灵感，主要来自安德烈·卡帕西（Andrej Karpathy）与杰里米·霍华德（Jeremy Howard）两位专家的观点。

安德烈·卡帕西曾在一条推文中设想：每一本教科书都能实现完美的“LLM化”。无需让AI艰难地逐页读取PDF文件，我们完全可以为模型量身打造一套结构化的内容版本。

具体实现流程如下：

最终能实现什么效果？LLM可以像学生一样“学习物理课程”——阅读知识点解析、尝试示例练习、完成课后习题。这一思路不仅适用于教科书，还能推广到任何知识来源。

杰里米·霍华德近期提出的一个方案，也与“LLM化”理念异曲同工。他在关于“llms.txt”的提案中提出了一个问题：如何从源头让网站更易于被LLM抓取和索引？

在他的方案中，知识来源聚焦于“网站”，而针对LLM的内容转化无需大规模重构，只需遵循一个特定文本文件的标准即可——核心思路与卡帕西的设想高度契合。

就像“robots.txt”文件用于告知搜索引擎“哪些内容可索引”一样，“llms.txt”是一个放置在网站根目录下的简易Markdown文件，主要功能包括：

这种方式无需重新格式化网站所有内容，仅通过一个“轻量级信号”，就能为LLM指明获取有效信息的方向。

尽管卡帕西与霍华德的方案均以“提升内容对AI的友好性”为目标，但二者的侧重点存在明显差异：