2026 年 6 月,Anthropic 发了一篇文章,题目叫《When AI builds itself》。文章说,Claude 现在能写超过 80% 的合并代码,工程师的人均产出涨了 8 倍。然后他们画了一条时间线:从“人写代码”到“AI 辅助写代码”再到“AI 自主写代码”,箭头指向一个终点——AI 能够完全自主地设计和训练自己的后继者。
他们管这叫“递归自我改进”。
文章还说,如果这一天真的来了,人类可能会失去对 AI 的控制。所以呼吁建立一个全球可验证的暂停机制——在 AI 开始自我发展之前,先踩一脚刹车。
这是一个很严肃的警告。但它建立在一个尚未被检验的假设之上:模型会变得足够强大,以至于能够实现自我进化。
这个假设很吓人。但它对吗?
要回答这个问题,我们得先聊聊一个更基础的问题:今天 AI 行业里那些被广泛接受的“真理”,到底有多少是经得起推敲的?
当信仰替代了问题
大模型领域有一种很奇怪的气氛。很多从业者相信一些从未被真正验证过的命题——“压缩即智慧”、“涌现是自然而然的”、“更大就是更好”——然后用这些命题指导整个行业的发展方向。
这些命题听起来很漂亮,但仔细看,它们更像是信仰,而不是结论。
“压缩即智慧”是个很好的例子。
这句话来自一场广为流传的演讲。核心逻辑是这样的:我有一个程序 f(大模型),能预测每个字符出现的概率,然后用算术编码把结果传输出去,总信息量最小。
听起来很深刻。但本质上,这只是算术编码的定义——概率预测得越准,压缩率就越高。这本来就是数学上显然的事情,不需要用大模型来证明。
它没有解释大模型为什么有效,也没有解释为什么更大的模型效果更好。它只说明了一件事:谁性能好,谁就是更好的大模型。
这就像说“跑得快的人跑得快”——正确,但不提供任何信息。
更关键的问题是:为什么某种编码方式会让模型在特定领域表现出色?为什么在语言编码上 LLM 已经接近甚至超越人类,而在多模态编码上却远不及人类的理解能力?“压缩即智慧”对这些问题保持沉默。
但这不妨碍它成为一种信仰。从业者们相信,只要模型更大,就能有更高的压缩率,“涌现”智能就是自然而然的结果。不需要解释——因为“压缩就是智慧”。
类似的现象还有很多。
论文标题一窝蜂地使用“xx is all you need”——Transformer 是“Attention is All You Need”,GPT 是“GPTs are All You Need”,各种变体层出不穷。大家心照不宣地使用这个句式,仿佛用了这个标题论文就自动获得了某种权威背书。
Google DeepMind 的 CEO Demis Hassabis 在 60 Minutes 节目上说,借助 AlphaFold 这样的 AI,“终结所有疾病”可能在十年内实现。药物化学家 Derek Lowe 听后说,这话让他“无语到想翻白眼”。他在药物开发领域工作了几十年,知道这个预测有多么不现实。但 Hassabis 是诺贝尔奖得主,他的话被当成权威预测,媒体广泛报道,公众不加批判地接受。
Geoffrey Hinton 在 2016 年说过一句著名的话:“人们现在应该停止培养放射科医生了。”幸好放射科的专家们没听他的。但他的言论确实影响了医学生对职业前景的判断。后来他修正了这个说法——但那时伤害已经造成了。
还有人一本正经地说:“我们发现 AI 在撒谎,而且我们相当确定它知道自己说的是假的。”这种说法把 LLM 当成一个有知识、有意图、会欺骗的主体——一个会说谎的人。但它不是。
所有这些案例有一个共同点:说话的人都有极高的权威,说的话都符合行业的主流叙事,但都没有被事实充分检验。 行业里有一套自洽的话语体系,大家在这个体系里讨论、争辩、预测,用权威身份发布宏大判断,用拟人化语言描述技术能力——但很少有人停下来问:我们走的方向对吗?
这种“体系内的自洽”有一个有趣的特点:它不需要外部验证,因为体系内部的互相认可就是最好的验证。你做“xx is all you need”,我也做;你说“压缩即智慧”,我也信;你说“AI 会撒谎”,我也跟着讨论怎么防止 AI 撒谎。大家互相背书、互相引用、互相引用,形成了一种“集体正确”的感觉。
正是在这种氛围里,Anthropic 的“递归自我改进”假设才显得那么理所当然。
把 LLM 带到中世纪
现在让我们做一个小小的思想实验。
假设我们把今天最先进的大语言模型——全套技术,包括 Transformer 架构、训练算法、推理框架——带到中世纪。不是带去模型的权重,而是带去制造模型的全部知识。假设中世纪的工匠完全理解我们的图纸,能按原样搭建出一模一样的机器。
然后呢?
这台机器能做什么?它能流利地说出中世纪的语言,能续写骑士传说,能模仿经院哲学的辩论格式。但它不可能知道牛顿力学,因为那个编码还没有被发明出来。它不可能理解相对论,因为描述时空的数学符号还不存在。它不可能讨论量子力学,因为连“量子”这个概念都还没有进入人类的知识体系。
它拥有模型的所有能力——预测下一个 token 的能力。但它没有知识。
知识在哪里?在编码里。在牛顿发明的微积分符号里,在爱因斯坦写的场方程里,在普朗克提出的能量量子化假设里。这些编码是人在与世界的碰撞中创造出来的。没有这些编码,模型就不可能知道这些内容。
这个思想实验揭示了一个被广泛误解的事实:模型的能力和知识是两回事。 模型提供的是预测能力,知识是编码的内容。模型可以学会利用已有的编码,但它自己不会创造新的编码。
那么,新的编码从哪里来?它们如何从无到有,又如何从有到优?
编码是怎么进化的
编码不是一成不变的。它在我们看不见的地方不断进化,进化的方式遵循着生物学里的三条基本规则:自然选择、基因漂变、基因重组。
- 自然选择。 经常被使用的编码会被保留下来。当成语在交流中被反复使用,它就成了语言中不可分割的一部分。当某个数学符号被广泛采纳,它就固定下来,成为通用的工具。用不上、用不好的编码,慢慢就消失了。
- 基因漂变。 编码在小范围内发生变异,以适应新的场景。“每下愈况”在长期使用中逐渐变成了“每况愈下”,顺序反了但意思没变。不同地区的方言、不同编程语言的语法差异,本质上都是编码漂变的结果。
- 基因重组。 已存在的两个编码产生关联、互相组合,形成新的高效编码。这是编码进化最重要的方式。成语加成语可以形成新的成语。数学符号组合在一起可以定义全新的概念。编程语言里的包管理,本质上就是“函数调用”和“模块系统”两个编码重组的产物。
数学的发展史就是一个典型的案例。从数到数字,从进位制到分数,从微积分到集合论——每一次数学的重大突破,背后都是编码的进化。今天一个人可以比古代最聪明的学者更理解数理,不是因为现代人的智商更高,而是因为数学编码体系的积累和进化。牛顿发明微积分,不是因为他突然灵感迸发、坐在书房里冥思苦想出来的——而是因为他需要解决真实的物理问题:行星的运动、物体的加速、曲线的切线。现有的数学工具不够用了,他被迫发明新的编码来描述新的现象。
但编码不是在真空中被创造出来的。这是理解编码进化最关键的一点:编码是人在交流和使用中逐渐抽象出来的。 牛顿发明微积分之后,这个编码体系被其他科学家使用、验证、传播、争论,才真正成为一套可靠的数学工具。爱因斯坦的场方程也是如此,量子力学的概念也是如此。每一个新编码的诞生,都源于人与世界的碰撞,都依赖于人在交流中对这个编码的使用和确认。
一个编码被创造出来,如果没有人使用它,它就只是无意义的符号。编码的意义来自于被反复使用——来自于它帮助人们理解世界、控制世界、预测世界的能力。
没有人,编码就不会进化。
编码能告诉我们什么
不只是说,还要去做
大语言模型的能力边界由编码决定。但模型的能力不是终点。当 LLM 在语言编码上的预测能力接近甚至超越人类时,一个自然的问题就冒出来了:既然模型已经能如此准确地理解和生成语言,为什么不让它不只是说,而是去做?
这就是 Agent 的逻辑起点。
Agent 是 LLM 能力的自然延伸。当模型能够理解复杂指令、推理任务步骤、预测行动后果时,把它嵌入一个能感知环境、执行操作的循环里,就形成了一个 Agent。从客服机器人自动处理投诉,到编程助手自主调试代码,再到制造系统自主优化流程——Agent 的形式五花八门,但本质是一样的:让 AI 从“增强认知”走向“增强行动”。
这不是一个需要拍脑袋做的技术选择,而是一个发展的必然方向。只要 LLM 的预测能力足够强,把它用到行动上就是水到渠成的事。问题只在于:行动需要什么?
卡在“怎么做”上
行动需要编码。但不是描述世界的编码,而是描述“如何行动”的编码。
一个 Agent 要完成一件任务,必须知道:在什么条件下采取什么行动?行动会产生什么后果?后果如何反馈到下一步决策?这是一套完全不同的编码——行为编码。
现实世界里存在大量高效的行为编码。一条成熟的工业流水线,每个工位、每个动作、每个检测点都被精确编码。一个经验丰富的外科医生,他的每个手术步骤、每个应急处理方案,都是高度编码化的行为模式。这些编码是数十年甚至上百年实践积累的产物,信息密度极高。
但问题在于:这些编码要么是低信息密度的——写成冗长的操作手册,充满例外处理和兜底条款,模型无法高效利用;要么是根本没有被数字化编码的——存在于专家的头脑里、肌肉的记忆里,只可意会不可言传。
这才是 Agent 今天面临的真正瓶颈。不是模型不够聪明,无法理解“帮我订一张机票”这样的指令——而是我们手上没有一套高信息密度、可被模型高效解析和执行的行为编码,来描述“如何订机票”这个任务的每一步细节。
现有的 Agent 框架其实都在绕开这个问题。它们让模型自己规划步骤、自己调用工具、自己处理异常。这看起来很智能,但实际上是在用模型的通用预测能力去弥补专用编码的缺失。结果是:简单任务尚能应付,复杂任务漏洞百出——因为模型的预测能力再强,也替代不了精确的行为编码。
Skill 从哪里来
问题已经越来越清楚,解决方案也在自发形成。
今天各家大模型公司都在推的 Skills——无论是叫 Skills、Plugins 还是 Tools——本质上都是对“行为编码”的一次系统性收集和封装。每一个 Skill 就是一段被编码化的工作流程:遇到什么情况、采取什么行动、预期什么结果。从“搜索网页并总结”到“读取数据库并生成报表”,从“调用 API 发送邮件”到“分析代码并修复 bug”——每个 Skill 都是一个行为编码的载体。
Skills 的出现,标志着行业开始触及问题的核心:关键不是让模型更聪明,而是让行为编码更丰富。
更有意思的是,Skills 的发展天然就符合编码进化的逻辑:
- 用户调用一个 Skill 完成任务——自然选择,好用的被频繁使用,不好用的被慢慢淘汰
- 用户修改 Skill 来适应自己的场景——基因漂变,编码在小范围内变异
- 开发者组合多个现有 Skills 成一个更复杂的——基因重组,已有编码关联形成新的编码
Skills 不是终点,而是起点。它是行为编码的原始积累,是编码进化的人工起点。目前这些编码还比较初级、比较碎片化,进化机制也还不完善。但方向是对的——开始系统地收集、封装、共享行为编码,而不是等着模型自己“涌现”出这些能力。
人和 AI,一起进化
如果把视野拉长一点,能看到一幅更宏大的图景。
随着 Skills 持续进化,大量的、基础性的 Skills 会慢慢沉淀为标准化的“基础编码”——就像语言里的基本词汇、数学里的基础符号。这些编码会成为人与 AI 共享的基础设施。
人的角色也会随之变化。当基础编码足够丰富时,人类的核心价值不再是编写每一行具体的行为指令,而是在更高层次上组合和创造新的编码——设计新的 Skill 来解决前所未有的问题,定义新的编码范式来描述更复杂的任务。人成为编码的创造者和架构师。
AI 的角色也在变化。当人类创造出新的编码,AI 能够极快地学习、理解并运用这套日益丰富的编码体系。模型的预测能力与丰富的行为编码结合,将人的创造迅速转化为实际行动力。
这会形成一个正循环:人创造新编码 → AI 快速掌握并应用 → 应用结果和反馈启发人创造下一阶段的编码。 人与 AI 在一个共享的编码空间里协同进化。人负责创造和架构,AI 负责执行和反馈。编码在这个循环中不断积累、不断进化,整个系统的能力边界不断扩展。
这不是科幻小说。这是正在发生的事情。当 Skills 平台汇聚越来越多的行为编码,当越来越多的开发者参与 Skill 的创造和组合,当 AI 模型越来越擅长利用这些编码——这个正循环就会加速转动。
Agent 发展的瓶颈,说到底是一个编码瓶颈。突破点不在于等待模型涌现某种神秘的能力,而在于主动构建和丰富可进化的“行为编码”体系。
这预示着 AI 发展的一个新阶段:从“模型竞赛”转向“编码生态构建”,从“人使用工具”转向“人与 AI 在共享编码空间里一起创造”。
“递归自我改进”的前提
现在我们可以回到 Anthropic 的假设了。
他们说 Claude 写了 80% 的代码,工程师产出提升了 8 倍,AI 可能实现“递归自我改进”。但这里有一个关键的混淆:写代码和创造编码,是两件完全不同的事。
Claude 写的代码,是在已有的编码空间里做预测和重组——用人类发明的编程语言,基于人类创造的库和框架,在人类定义的问题空间里工作。它可以把事情做得很快、很好,但它不会发明新的编程语言,不会定义新的数学符号,不会创造新的描述世界的方式。
模型可以在已有的编码空间里优化到极致,但这个空间是有边界的。边界的大小取决于编码的质量,不取决于模型的规模。要突破边界,需要新的编码——而新的编码来自人与世界的碰撞。没有人,编码就不会进化。
所以,“递归自我改进”在理论上是一条死胡同。Anthropic 的工程师用 Claude 提升的产出,本质上是在已有编码空间里的加速,而不是自我改进。
这就像给一个图书馆配了一个极其高效的检索员——他能更快地找到你需要的书,能帮你把相关的书摆在一起,甚至能根据已有的书的内容写出一本新书。但他不会发明图书馆里没有的知识。
这不是说 Anthropic 的声明没有价值。8 倍的效率提升是实实在在的。但“递归自我改进”的故事,掩盖了一个更关键的问题:编码的进化需要人参与其中。
每一次 AI 的跨越式进步——从语言模型到多模态,从对话到推理,从工具使用到 Agent——都在拓宽人与 AI 交互的边界。但真正决定这条边界能走多远的,不是参数规模,不是计算资源,而是我们能不能持续创造出高质量的编码来描述我们想做的事情。
下一次真正的突破不会来自更大的模型。它可能来自某个从业者终于停下来,认认真真地问自己一个问题:
这个世界需要什么样的新编码?