Anthropic 说 AI 要自我进化了？让我们来聊一聊大模型真正的瓶颈

2026 年 6 月，Anthropic 发了一篇文章，题目叫《When AI builds itself》。文章说，Claude 现在能写超过 80% 的合并代码，工程师的人均产出涨了 8 倍。然后他们画了一条时间线：从“人写代码”到“AI 辅助写代码”再到“AI 自主写代码”，箭头指向一个终点——AI 能够完全自主地设计和训练自己的后继者。

他们管这叫“递归自我改进”。

文章还说，如果这一天真的来了，人类可能会失去对 AI 的控制。所以呼吁建立一个全球可验证的暂停机制——在 AI 开始自我发展之前，先踩一脚刹车。

这是一个很严肃的警告。但它建立在一个尚未被检验的假设之上：模型会变得足够强大，以至于能够实现自我进化。

这个假设很吓人。但它对吗？

要回答这个问题，我们得先聊聊一个更基础的问题：今天 AI 行业里那些被广泛接受的“真理”，到底有多少是经得起推敲的？

当信仰替代了问题

大模型领域有一种很奇怪的气氛。很多从业者相信一些从未被真正验证过的命题——“压缩即智慧”、“涌现是自然而然的”、“更大就是更好”——然后用这些命题指导整个行业的发展方向。

这些命题听起来很漂亮，但仔细看，它们更像是信仰，而不是结论。

“压缩即智慧”是个很好的例子。

这句话来自一场广为流传的演讲。核心逻辑是这样的：我有一个程序 f(大模型)，能预测每个字符出现的概率，然后用算术编码把结果传输出去，总信息量最小。

听起来很深刻。但本质上，这只是算术编码的定义——概率预测得越准，压缩率就越高。这本来就是数学上显然的事情，不需要用大模型来证明。

它没有解释大模型为什么有效，也没有解释为什么更大的模型效果更好。它只说明了一件事：谁性能好，谁就是更好的大模型。

这就像说“跑得快的人跑得快”——正确，但不提供任何信息。

更关键的问题是：为什么某种编码方式会让模型在特定领域表现出色？为什么在语言编码上 LLM 已经接近甚至超越人类，而在多模态编码上却远不及人类的理解能力？“压缩即智慧”对这些问题保持沉默。

但这不妨碍它成为一种信仰。从业者们相信，只要模型更大，就能有更高的压缩率，“涌现”智能就是自然而然的结果。不需要解释——因为“压缩就是智慧”。

类似的现象还有很多。

论文标题一窝蜂地使用“xx is all you need”——Transformer 是“Attention is All You Need”，GPT 是“GPTs are All You Need”，各种变体层出不穷。大家心照不宣地使用这个句式，仿佛用了这个标题论文就自动获得了某种权威背书。

Google DeepMind 的 CEO Demis Hassabis 在 60 Minutes 节目上说，借助 AlphaFold 这样的 AI，“终结所有疾病”可能在十年内实现。药物化学家 Derek Lowe 听后说，这话让他“无语到想翻白眼”。他在药物开发领域工作了几十年，知道这个预测有多么不现实。但 Hassabis 是诺贝尔奖得主，他的话被当成权威预测，媒体广泛报道，公众不加批判地接受。

Geoffrey Hinton 在 2016 年说过一句著名的话：“人们现在应该停止培养放射科医生了。”幸好放射科的专家们没听他的。但他的言论确实影响了医学生对职业前景的判断。后来他修正了这个说法——但那时伤害已经造成了。

还有人一本正经地说：“我们发现 AI 在撒谎，而且我们相当确定它知道自己说的是假的。”这种说法把 LLM 当成一个有知识、有意图、会欺骗的主体——一个会说谎的人。但它不是。

所有这些案例有一个共同点：说话的人都有极高的权威，说的话都符合行业的主流叙事，但都没有被事实充分检验。 行业里有一套自洽的话语体系，大家在这个体系里讨论、争辩、预测，用权威身份发布宏大判断，用拟人化语言描述技术能力——但很少有人停下来问：我们走的方向对吗？

这种“体系内的自洽”有一个有趣的特点：它不需要外部验证，因为体系内部的互相认可就是最好的验证。你做“xx is all you need”，我也做；你说“压缩即智慧”，我也信；你说“AI 会撒谎”，我也跟着讨论怎么防止 AI 撒谎。大家互相背书、互相引用、互相引用，形成了一种“集体正确”的感觉。

正是在这种氛围里，Anthropic 的“递归自我改进”假设才显得那么理所当然。

把 LLM 带到中世纪

现在让我们做一个小小的思想实验。

假设我们把今天最先进的大语言模型——全套技术，包括 Transformer 架构、训练算法、推理框架——带到中世纪。不是带去模型的权重，而是带去制造模型的全部知识。假设中世纪的工匠完全理解我们的图纸，能按原样搭建出一模一样的机器。

然后呢？

这台机器能做什么？它能流利地说出中世纪的语言，能续写骑士传说，能模仿经院哲学的辩论格式。但它不可能知道牛顿力学，因为那个编码还没有被发明出来。它不可能理解相对论，因为描述时空的数学符号还不存在。它不可能讨论量子力学，因为连“量子”这个概念都还没有进入人类的知识体系。

它拥有模型的所有能力——预测下一个 token 的能力。但它没有知识。

知识在哪里？在编码里。在牛顿发明的微积分符号里，在爱因斯坦写的场方程里，在普朗克提出的能量量子化假设里。这些编码是人在与世界的碰撞中创造出来的。没有这些编码，模型就不可能知道这些内容。

这个思想实验揭示了一个被广泛误解的事实：模型的能力和知识是两回事。 模型提供的是预测能力，知识是编码的内容。模型可以学会利用已有的编码，但它自己不会创造新的编码。

那么，新的编码从哪里来？它们如何从无到有，又如何从有到优？

编码是怎么进化的

编码不是一成不变的。它在我们看不见的地方不断进化，进化的方式遵循着生物学里的三条基本规则：自然选择、基因漂变、基因重组。

自然选择。 经常被使用的编码会被保留下来。当成语在交流中被反复使用，它就成了语言中不可分割的一部分。当某个数学符号被广泛采纳，它就固定下来，成为通用的工具。用不上、用不好的编码，慢慢就消失了。
基因漂变。 编码在小范围内发生变异，以适应新的场景。“每下愈况”在长期使用中逐渐变成了“每况愈下”，顺序反了但意思没变。不同地区的方言、不同编程语言的语法差异，本质上都是编码漂变的结果。
基因重组。 已存在的两个编码产生关联、互相组合，形成新的高效编码。这是编码进化最重要的方式。成语加成语可以形成新的成语。数学符号组合在一起可以定义全新的概念。编程语言里的包管理，本质上就是“函数调用”和“模块系统”两个编码重组的产物。

数学的发展史就是一个典型的案例。从数到数字，从进位制到分数，从微积分到集合论——每一次数学的重大突破，背后都是编码的进化。今天一个人可以比古代最聪明的学者更理解数理，不是因为现代人的智商更高，而是因为数学编码体系的积累和进化。牛顿发明微积分，不是因为他突然灵感迸发、坐在书房里冥思苦想出来的——而是因为他需要解决真实的物理问题：行星的运动、物体的加速、曲线的切线。现有的数学工具不够用了，他被迫发明新的编码来描述新的现象。

但编码不是在真空中被创造出来的。这是理解编码进化最关键的一点：编码是人在交流和使用中逐渐抽象出来的。 牛顿发明微积分之后，这个编码体系被其他科学家使用、验证、传播、争论，才真正成为一套可靠的数学工具。爱因斯坦的场方程也是如此，量子力学的概念也是如此。每一个新编码的诞生，都源于人与世界的碰撞，都依赖于人在交流中对这个编码的使用和确认。

一个编码被创造出来，如果没有人使用它，它就只是无意义的符号。编码的意义来自于被反复使用——来自于它帮助人们理解世界、控制世界、预测世界的能力。

没有人，编码就不会进化。

编码能告诉我们什么

不只是说，还要去做

大语言模型的能力边界由编码决定。但模型的能力不是终点。当 LLM 在语言编码上的预测能力接近甚至超越人类时，一个自然的问题就冒出来了：既然模型已经能如此准确地理解和生成语言，为什么不让它不只是说，而是去做？

这就是 Agent 的逻辑起点。

Agent 是 LLM 能力的自然延伸。当模型能够理解复杂指令、推理任务步骤、预测行动后果时，把它嵌入一个能感知环境、执行操作的循环里，就形成了一个 Agent。从客服机器人自动处理投诉，到编程助手自主调试代码，再到制造系统自主优化流程——Agent 的形式五花八门，但本质是一样的：让 AI 从“增强认知”走向“增强行动”。

这不是一个需要拍脑袋做的技术选择，而是一个发展的必然方向。只要 LLM 的预测能力足够强，把它用到行动上就是水到渠成的事。问题只在于：行动需要什么？

卡在“怎么做”上

行动需要编码。但不是描述世界的编码，而是描述“如何行动”的编码。

一个 Agent 要完成一件任务，必须知道：在什么条件下采取什么行动？行动会产生什么后果？后果如何反馈到下一步决策？这是一套完全不同的编码——行为编码。

现实世界里存在大量高效的行为编码。一条成熟的工业流水线，每个工位、每个动作、每个检测点都被精确编码。一个经验丰富的外科医生，他的每个手术步骤、每个应急处理方案，都是高度编码化的行为模式。这些编码是数十年甚至上百年实践积累的产物，信息密度极高。

但问题在于：这些编码要么是低信息密度的——写成冗长的操作手册，充满例外处理和兜底条款，模型无法高效利用；要么是根本没有被数字化编码的——存在于专家的头脑里、肌肉的记忆里，只可意会不可言传。

这才是 Agent 今天面临的真正瓶颈。不是模型不够聪明，无法理解“帮我订一张机票”这样的指令——而是我们手上没有一套高信息密度、可被模型高效解析和执行的行为编码，来描述“如何订机票”这个任务的每一步细节。

现有的 Agent 框架其实都在绕开这个问题。它们让模型自己规划步骤、自己调用工具、自己处理异常。这看起来很智能，但实际上是在用模型的通用预测能力去弥补专用编码的缺失。结果是：简单任务尚能应付，复杂任务漏洞百出——因为模型的预测能力再强，也替代不了精确的行为编码。

Skill 从哪里来

问题已经越来越清楚，解决方案也在自发形成。

今天各家大模型公司都在推的 Skills——无论是叫 Skills、Plugins 还是 Tools——本质上都是对“行为编码”的一次系统性收集和封装。每一个 Skill 就是一段被编码化的工作流程：遇到什么情况、采取什么行动、预期什么结果。从“搜索网页并总结”到“读取数据库并生成报表”，从“调用 API 发送邮件”到“分析代码并修复 bug”——每个 Skill 都是一个行为编码的载体。

Skills 的出现，标志着行业开始触及问题的核心：关键不是让模型更聪明，而是让行为编码更丰富。

更有意思的是，Skills 的发展天然就符合编码进化的逻辑：

用户调用一个 Skill 完成任务——自然选择，好用的被频繁使用，不好用的被慢慢淘汰
用户修改 Skill 来适应自己的场景——基因漂变，编码在小范围内变异
开发者组合多个现有 Skills 成一个更复杂的——基因重组，已有编码关联形成新的编码

Skills 不是终点，而是起点。它是行为编码的原始积累，是编码进化的人工起点。目前这些编码还比较初级、比较碎片化，进化机制也还不完善。但方向是对的——开始系统地收集、封装、共享行为编码，而不是等着模型自己“涌现”出这些能力。

人和 AI，一起进化

如果把视野拉长一点，能看到一幅更宏大的图景。

随着 Skills 持续进化，大量的、基础性的 Skills 会慢慢沉淀为标准化的“基础编码”——就像语言里的基本词汇、数学里的基础符号。这些编码会成为人与 AI 共享的基础设施。

人的角色也会随之变化。当基础编码足够丰富时，人类的核心价值不再是编写每一行具体的行为指令，而是在更高层次上组合和创造新的编码——设计新的 Skill 来解决前所未有的问题，定义新的编码范式来描述更复杂的任务。人成为编码的创造者和架构师。

AI 的角色也在变化。当人类创造出新的编码，AI 能够极快地学习、理解并运用这套日益丰富的编码体系。模型的预测能力与丰富的行为编码结合，将人的创造迅速转化为实际行动力。

这会形成一个正循环：人创造新编码 → AI 快速掌握并应用 → 应用结果和反馈启发人创造下一阶段的编码。 人与 AI 在一个共享的编码空间里协同进化。人负责创造和架构，AI 负责执行和反馈。编码在这个循环中不断积累、不断进化，整个系统的能力边界不断扩展。

这不是科幻小说。这是正在发生的事情。当 Skills 平台汇聚越来越多的行为编码，当越来越多的开发者参与 Skill 的创造和组合，当 AI 模型越来越擅长利用这些编码——这个正循环就会加速转动。

Agent 发展的瓶颈，说到底是一个编码瓶颈。突破点不在于等待模型涌现某种神秘的能力，而在于主动构建和丰富可进化的“行为编码”体系。

这预示着 AI 发展的一个新阶段：从“模型竞赛”转向“编码生态构建”，从“人使用工具”转向“人与 AI 在共享编码空间里一起创造”。

“递归自我改进”的前提

现在我们可以回到 Anthropic 的假设了。

他们说 Claude 写了 80% 的代码，工程师产出提升了 8 倍，AI 可能实现“递归自我改进”。但这里有一个关键的混淆：写代码和创造编码，是两件完全不同的事。

Claude 写的代码，是在已有的编码空间里做预测和重组——用人类发明的编程语言，基于人类创造的库和框架，在人类定义的问题空间里工作。它可以把事情做得很快、很好，但它不会发明新的编程语言，不会定义新的数学符号，不会创造新的描述世界的方式。

模型可以在已有的编码空间里优化到极致，但这个空间是有边界的。边界的大小取决于编码的质量，不取决于模型的规模。要突破边界，需要新的编码——而新的编码来自人与世界的碰撞。没有人，编码就不会进化。

所以，“递归自我改进”在理论上是一条死胡同。Anthropic 的工程师用 Claude 提升的产出，本质上是在已有编码空间里的加速，而不是自我改进。

这就像给一个图书馆配了一个极其高效的检索员——他能更快地找到你需要的书，能帮你把相关的书摆在一起，甚至能根据已有的书的内容写出一本新书。但他不会发明图书馆里没有的知识。

这不是说 Anthropic 的声明没有价值。8 倍的效率提升是实实在在的。但“递归自我改进”的故事，掩盖了一个更关键的问题：编码的进化需要人参与其中。

每一次 AI 的跨越式进步——从语言模型到多模态，从对话到推理，从工具使用到 Agent——都在拓宽人与 AI 交互的边界。但真正决定这条边界能走多远的，不是参数规模，不是计算资源，而是我们能不能持续创造出高质量的编码来描述我们想做的事情。

下一次真正的突破不会来自更大的模型。它可能来自某个从业者终于停下来，认认真真地问自己一个问题：

这个世界需要什么样的新编码？

当信仰替代了问题#

把 LLM 带到中世纪#

编码是怎么进化的#

编码能告诉我们什么#

不只是说，还要去做#

卡在“怎么做”上#

Skill 从哪里来#

人和 AI，一起进化#

“递归自我改进”的前提#