LLM 深度解析:从后训练到 Agent 时代
AI 能力的现状与动机
过去我们把 AI 编程(如 Vibe Coding)当作开发流程中的辅助工具——需要时才调用。但进入 2026 年后,形势发生了根本性转变:AI 已经从”辅助工具”升级为”开发主力”。会不会用 VSCode、会不会用 Git,这些传统技能的重要性正在迅速下降。
回想 2025 年,大模型还在”9.11 和 9.9 谁大”这类简单数字比较上翻车。但仅仅一年后的 2026 年,AI 已经能够做到以下几件事:
- 独立完成编程开发,水平超过绝大多数工程师。AI 在 Codeforces 竞赛编程中已经达到世界第七名,全球仅有六个人类程序员排名在它之前
- 自动化科研:AI 可以在服务器上自主将 idea 转化为实验脚本,在 GPU 上跑实验,判断结果是否涨点,若有效则直接输出可发表的 paper。目前水平大约是 soul paper 级别,尚未达到顶会正会水平,但成本仅需约 1000 美元(相比之下,人类自己做一篇 CVPR 级别的工作,光 API 调用就花了一万五人民币)
- 理解和改造大型代码库,只需一条命令甚至语音指令即可完成一整套开发流程
Anthropic 公司(Claude 的开发商)目前处于定义行业标准的地位——MCP 协议、Agent 的训练范式和强化策略,很大程度上都由它在推动。与此同时,OpenAI 偏重发布模型和 Benchmark,Google DeepMind 则在学科探索和科学研究上深耕。
一个典型的例子是 OpenCLAW——一个本地运行的多 Agent 系统,支持 20+ 渠道(Slack/Discord/Telegram),采用 Hub-and-Spoke 架构设计。它代表了 AI 从 Coding Agent 向个人通用 AI 助手的演进方向。现在用 Claude 写 PPT,它甚至能自动从网上搜图片放进去;你只用手机通过 Cursor 远程控制服务器上的 Claude,到了现场发现”什么都不需要做了”。
理解这些变化,有三个核心问题值得深入探讨:
- 大模型的选择逻辑:为什么某个场景应该用某个特定模型?AI 与互联网产品有巨大不同——个人使用体验极其散乱,你觉得好用的模型,别人可能觉得不好。以工业代码场景为例:需要”外科手术式”精准修改数万行代码且零幻觉,宁可模型说”做不出来”也不能出错——这种场景下 GPT 不一定是最优选,尽管它在学科类任务(生物、化学)上分数很高
- 后训练(Post-training)和 Agent 训练范式:2026 年的现代 LLM 依赖 Post-train 和 Agent 在各种任务上泛化,这两者不完全是数学/算法的魔术,非专业人员也可以理解
- 核心结论:即使把 Transformer 当黑盒,也能摸清 AI 能力的边界
从”做题”到”干活”:推理能力三层次
大模型工艺的三个方向
现有前沿模型的训练体系可以拆解为三个核心组成部分:
- Infra(基础设施):解决的是”模型 A 在环境 B 上跑任务 C”如何做到又快又好的问题——GPU 调度、集群管理、推理加速。代表性工具如 vLLM,它为所有大模型提供统一的推理加速。KV Cache 相当于大脑的短期缓存,提高缓存命中率就能加速推理
- Pretrain(预训练):从零训练一个大模型的基座能力。需要海量数据——人类总共的纯文字数据量约 100T,现有大模型已经用了 70-80T,自然数据几乎已经被用完。图像数据相对还有余量
- Post-train(后训练):在有了一个能预测下一个 Token 的基座模型之后,通过算法手段提升它在垂直任务上的表现,而不是让它漫无目的地输出
Scaling Law 与涌现
Scaling Law 是一条经验规律:模型参数量和训练数据量呈幂律关系增长时,能力持续提升,但边际效应递减——从 1B 到 10B 可能是飞跃式提升,从 100B 到 200B 提升就有限了,且算力也跟不上。
数据方面,分布大于数量:数据的分布(哪些数据适合训练)比数据的绝对质量更重要,质量又大于数量。
Scaling Law 背后有一个深刻启示:大多数训练方法无法被 scale。你随便想一个方法,可能在 M 级参数量有效,但在 B 级就失效了。小模型上的结论无法迁移到大模型——这就是为什么 AI 学界本质上在做的事情是”探索能 scale 的方法”。这有点类似淘金:在海量 idea 中找到一个正确的方式,然后从 M 级 scale 到 B 级再到 T 级。学界因算力限制(8 张 H100 最多微调 7B-30B 小模型),很难直接在大模型上验证,这是学界与业界脱节的核心原因之一。
一个哲学性的思考:智能是否是复杂度的涌现?——不论是人脑还是芯片,一个体系足够复杂,智能就一定会出现?目前无法下结论,但 Scaling Law 暗示仅有复杂度不够,还需要找到正确的方法。
为什么需要 Post-training
预训练模型有一个核心问题:有知识无礼仪。例如用户问”怎么学 Python”,预训练模型会直接把参数中记住的数据”背”出来(“Python 是一种……”),而不是像人类对话那样给出结构化、有条理的回答。
Post-training 要做的事情就是:在预训练模型的基础上,让它学会”好好说话”——学会按人类期望的方式来组织输出。从概率角度看,左边(机械背诵)和右边(自然对话)的回答,在语言模型概率分布中其实差距不大,你不能说左边是完全错的。但我们需要模型在两者之间做选择时,倾向于选右边。这就需要对模型参数进行微调——这正是 Post-training 在做的事情。
语言流形上的拔虫
可以用一个直观的几何比喻来理解大模型的工作原理。人类语言在 Transformer 框架下可以被建模为一个高维空间(比如 700 多维)中的一个狭窄流形(manifold)。流形上的点代表合法的文字序列(如”我今天吃饭了”),不在流形上的点就是不可达的乱码。大模型的推理过程,相当于一只小虫在这个语言流形上爬行——每移动到下一个点,就输出下一个 Token。
在这个比喻下,有三个层次的方式来提高模型能力:
推理能力的三个层次
-
CoT(Chain-of-Thought,思维链):Wei et al., 2022。核心思想是让模型在语言流形上多走几步——不直接给出答案,而是先展开推理过程。以鸡兔同笼为例:标准 Prompting 直接输出”鸡 23,兔 12”(可能出错);CoT Prompting 则展开思维链:“假设全是鸡→70 只脚,实际 94 只,多 24 只,每只兔多 2 只脚”,然后才给出正确答案。现在的推理模型(如 o1、DeepSeek-R1)本质上就是把 CoT 训练进了模型参数中,让模型自动展开这种思维链
-
ReAct(推理+行动):Yao et al., 2023。模型不仅在流形上走,还能”跳出去查资料”——遇到不确定的信息时,调用搜索工具获取外部知识,再回到推理流程中。这是模型从”纯思考”到”思考+行动”的跃迁
-
Agent(智能体):规划+记忆+工具,在流形上进行长途跋涉。不再是简单的一次 query-answer,而是一个 query 可以分发给多个 sub-agent,拆解成子任务,每一步决定做什么、调用什么工具。Agent 可以有规划、有记忆(不是每次推理都清空状态),而不是像普通 ReAct 那样每次都是静态参数、没有存储上一次推理的结果
核心演进方向:从”回答”到”完成任务”。
Agent 时代的到来
从 DeepSeek-R1(2025 年初)开始,行业正式进入 Agent 时代。大厂开始将 Agent 框架与模型训练一体化,不再是把模型和工具分开使用,而是将工具调用作为训练过程的一部分。
从个人到工业的 AI 差距
Agent 时代带来一个重要变化:过去花 200 美元买一个 GPT 最高级会员,就能和硅谷最强 CTO 使用同样 AI 的时代已经结束了。
现在工业界采用的是更重型的方案:一次 query 不再只调用一次模型,而是可能调用 64 次甚至 1024 次模型,将所有结果汇集到一起,用极大的算力换取一个最正确的答案。这种方案对企业来说有专属的推理集群,而普通学生和个人用户根本拿不到这种算力。
更深层的问题是:我们可能对”现有哪些工具最好用”的认知都不够全面。这种认知差距叠加算力差距,使得个人用户与企业在 AI 应用上产生了巨大鸿沟。
如何搭建自己的 Agent 框架
对个人来说,可以搭建自己的 Agent 框架来弥补这种差距。例如将自己的日常工作流(订机票、信息检索等)固定化:确定每一步用哪个模型、设计好 prompt,形成一套体系。这就是 Agent 框架的核心思路——把你偏好固定的 prompt、工具选择和模型路由组织成一个自动化流水线。
Agent 框架的意义在于,一件事情可能涉及多个步骤、多个模型、多个工具调用。过去这些都需要人来手动编排,现在可以通过框架自动完成。关键是要理解每一步为什么选这个模型——这也是理解后训练的实际意义所在。
Benchmark 与模型评估
个人感官测评为什么不靠谱
个人测评模型存在四种系统性偏差:
- 样本量太小:问了 10 个问题就下结论,统计意义极弱
- 选择偏差:只测自己熟悉的领域,无法反映模型全面能力
- 时序污染:先看到模型 A 的答案,潜意识影响对模型 B 的判断
- 情绪干扰:心情不好时觉得哪个模型都差
“我觉得这个模型更聪明”——可能纯属幻觉。
AI 产品与互联网产品有一个巨大不同:使用体验极度散乱。模型的训练数据覆盖面极广,极有可能你体验到的某次调用恰好被数据覆盖了(体验好),而另一个任务没被覆盖(体验差)。这种数据覆盖的随机性导致个人观察存在严重偏差。
Benchmark 的价值
Benchmark 的价值在于四个方面:
- 大规模:数千到数万道题,样本量足够
- 标准化:统一 prompt、统一评分标准
- 可重复:任何人跑结果一样
- 可比较:模型 A 72 分 > 模型 B 68 分,量化对比
本质是用统计学对抗主观偏差。
ARC-AGI Index
目前比较权威的综合评估平台是 ARC-AGI Index。它收录了 10 个核心 Benchmark(包括 HLE 等),每个满分 100,通过加权(重要的权重高、不重要的低)得到一个综合指数,基本能衡量模型的”智能水平”——不是执行简单任务的水平,也不是长文本理解的水平,而是解决问题的水平,可以理解为一种”做题能力”。
截至 2026 年 3 月,排名情况:GPT-5.4 和 Gemini 3.1 并驾齐驱位列最强;国内开源最高的是 Qwen(通义千问,阿里);其次是 Kimi。日常使用值得关注 Gemini 3 Flash——成本低且能力强。
看分数的防坑指南
如何不被分数忽悠,需要注意三点:
1. 看测试集是否泄露
模型训练时可能已经”偷看”过考题,导致分数虚高。新的 Benchmark(如 HLE、LiveBench)通过动态更新题目来更难作弊。
2. 看对应具体任务的权威 Benchmark
不要只看综合平均分。写代码重点看 SWE-bench;做数学看最新题目(如 2026 年 HMMT 而非 IMO,因为 IMO 题目可能已被训练数据覆盖);别只看平均分,要看你关心的具体子任务。
3. 警惕”对齐税”
RLHF 过度对齐的模型可能太保守——分数高但实际很难用。模型在特定 Benchmark 上特化过度,可能本身的通用能力并没有真正提高。这种现象可以称为”对齐税”。
此外,分数一定要看第三方报告,不能只看模型公司自己报的数字。模型公司自己报的分数”可能会有各种各样的问题”。Benchmark 本身的权威性取决于测评够准且数据不泄露。理论上你可以通过一个能力很强的模型故意在某 Benchmark 上反向刷分来攻击其可信度。
最终,Benchmark 只是参考,你还是要在自己的具体业务和任务上去判断模型能力。
后训练概览:从学习到探索
后训练(Post-training)有三个核心概念,可以用一个类比来记忆——训练 LLM 就像培养学生:
| 训练阶段 | 人类教育 | 核心目标 | 特征 |
|---|---|---|---|
| Pretrain | 通识教育 | 广泛阅读,积累常识 | — |
| SFT | 专业训练 | 学会对话,掌握技能 | 模仿老师,知其然 |
| RLHF | 审美教育 | 学习人类偏好 | 学习审美,知其所以然 |
| RLVR/Agent RL | 实践探索 | 检验真理的唯一标准 | 自主探索,青出于蓝 |
这三种后训练方法的核心区别:
- SFT(监督微调):模仿老师——给模型看优秀的对话样本,让它学会模仿这种表达方式
- RLHF(人类反馈强化学习):学习人类的审美和偏好——不只是模仿,还要理解什么样的回答是”好的”
- RLVR(可验证奖励的强化学习):自主探索——给模型一个可以验证对错的环境,让它自己探索最优策略
但这个类比有其局限性。后训练有时是一个非常泛化的方法体系——不仅 LLM 可以后训练,视觉模型、VLA 模型理论上也可以用类似的思路。算法本身的形态可能会消失(比如 GAN 的算法已经不怎么用了),但其背后的思想(对抗训练、一个模型来训另一个模型)仍然存在于 AI 的各个领域中。
SFT:监督微调与蒸馏
SFT 的本质
SFT(Supervised Fine-Tuning,监督微调)就像让学生抄优秀范文。它的数据格式非常简单——一个 user 字段(问题)和一个 assistant 字段(回答),构成一个标准的对话对。例如:
User: 怎么减肥?Assistant: 建议:1) 控制精制碳水 2) 每周3次有氧运动 3) 保证7小时睡眠这些数据可以是人类提供的,也可以是用其他 AI 合成的。用数千条这样的对话对去训练模型,让模型去模仿这些轨迹。
SFT 的关键局限:模型只是在模仿数据,不是在模仿人。它学会了”这种格式的回答看起来是对的”,但并不真正理解”什么样的回答是好的”。虽然看起来模型似乎理解了、似乎可解释了,但它仍然只是对数据的模仿。
SFT 的数据量级很小——数千条对话就可以让模型起步。这是后训练中最基础也可以说最重要的方法。
蒸馏:小模型学大模型
蒸馏(Distillation)的核心思路是:让小模型学习大模型的表达方式。
具体做法是让大模型(尤其是开源的推理模型,会把完整的推理过程——思维链——展示出来)生成高质量的回答。这些回答中 assistant 字段不再是人类写的,而是大模型回复的。用这样的数据去训练小模型,相当于让小模型学习大模型的思维方式(CoT),能大幅提升小模型的能力。
关于”蒸馏是不是抄袭”的争论,一个务实的看法是:大模型自己的数据可能也是从网上收集的,“该用就得用,该蒸就得蒸”。但实际情况是:闭源大模型基本不开放思维链——OpenAI 的 o 系列、Anthropic 的 Claude、Google 的 Gemini,至少这三家的思维链都是不可见的。你无法蒸馏它们的推理过程,或者蒸出来也训不了(因为看不到完整的 CoT)。
所以蒸馏在实践中更多是在开源模型之间进行(如用 DeepSeek-R1 的输出去训练更小的模型)。而且蒸馏有一个天花板——小模型通过蒸馏获得的能力终究有限,真正让模型能力突破性提升的,还是后面要讲的强化学习。
RLHF:人类反馈强化学习
强化学习与监督学习的根本区别
理解 RLHF 之前,需要先理解强化学习(RL)与其他深度学习方法的本质区别。
从 CNN、MLP 到 Diffusion,所有传统深度学习方法都有一个共同的硬性要求:整个前向传播过程必须可微可导。只有在可微可导的条件下,才能通过链式法则(反向传播)把最终的损失信号一层一层传回参数中去更新模型。
强化学习打破了这个限制:RL 不要求前向过程可微可导。它可以处理来自不可微环境的反馈信号。
这一点至关重要,因为人类偏好是不可微的。人类觉得一个回答”好”还是”不好”,这种判断是离散的、不连续的——你无法对它求导。你知道一个回答好坏之间存在 0.5 的差距,但你无法精确描述从”好”到”坏”的连续梯度。而且人类审美极其复杂,要精确建模几乎不可能。
RL 的优势就是:它能学习这种不可微、不连续的反馈分布,而不要求整条链路可微。当然,为了做到这一点,需要 PPO(Proximal Policy Optimization) 这样的算法来稳定地将这些不可微信号传回模型参数。
Reward Model:学习人类品味
RLHF 的核心机制分为两步:
第一步:训练 Reward Model(奖励模型)
同一个问题,生成两个回答。例如对”怎么减肥”:
- 回答 A:“少吃多运动”(简洁但不够 helpful)
- 回答 B:“建议:1) 控制精制碳水 2) 每周 3 次有氧运动 3) 保证 7 小时睡眠”(详细、实用、结构化)
人类标注 B > A。用大量这样的偏好对训练一个 Reward Model,让它学会给回答打分——评判维度通常基于 3H 原则:Helpful(有帮助)、Harmless(无害)、Honest(诚实)。
第二步:用 PPO 算法优化 LLM
有了 Reward Model 后,让 LLM 生成回答 → Reward Model 打分 → PPO 算法根据分数更新 LLM 参数,让它学会生成高分回答。
KL 散度约束与”炼丹师”
PPO 过程有一个关键约束:LLM 不能偏离原始 SFT 模型太远,否则可能崩溃(比如模型发现某种奇怪的表达方式能骗过 Reward Model 获得高分,但实际上答案毫无意义)。这个约束通过 KL 散度来实现——它衡量当前模型与原始模型的概率分布之间的距离。
正是从 KL 散度约束开始,Post-training 进入了一个”炼丹”状态:需要训练者有手感。
什么时候停止训练?什么时候继续训?什么时候切换算法?什么时候把学习率调低?什么时候开参数共享、什么时候关掉?什么时候加一个新的 System Prompt?——这些都没有固定的公式,全凭经验和直觉。
这就是为什么现在 RL 相关的”炼丹师”收入极高——这种手感极其稀缺。一个炼丹师可能对自家模型有很好的手感,但换一个模型就完全不适用了。这种手感的稀缺性,根源就在于 KL 散度这个概念在 RLHF 中的应用。
偏好标注的效率设计:C₄² = 12
InstructGPT 流程中有一个极其精巧的标注设计:对同一个问题生成 ABCD 四个回答,让标注者做一次排序(如 D > C > A > B)。这一次排序隐含了 (甚至 12 条,考虑对称性和排列)条偏好对数据。一次标注完成 12 条数据——这是一个极大提升标注效率的设计。
DeepSeek 的 Meta-Verifier
DeepSeek 的数学证明模型更进一步:不仅有 Reward Model,还造了一个 Meta-Verifier——评价 Reward Model 本身质量的”二阶检查者”。这相当于”老师之上还有教育家”,形成了”专家 → 老师 → 学生”的完整教育体系。
RLHF 的完整流程
RLHF 完整流程包含三大块:
- SFT 模型:作为起点
- Reward Model:通过人工标注偏好对训练
- PPO 优化:两个模型(当前策略模型 + SFT 参考模型)配合 Reward Model,用 PPO 算法进行强化训练
DPO 与 RLHF 的演进
DPO:去掉 Reward Model
DPO(Direct Preference Optimization,2023) 是 RLHF 流程的一个重要简化。它的核心改进是:跳过 Reward Model,直接从偏好数据优化策略。
传统 RLHF 的成本很高——你需要大量的人工标注偏好对来训练 Reward Model。GPT 可以在用户使用时收集这些数据(你访问 ChatGPT 页面时,有时会让你比较两个回答,这就是在收集 RLHF 数据)。但对于没有大量用户流量的团队来说,人工标注特别贵且主观。
DPO 直接从偏好数据对(A 好于 B)出发优化模型,省去了单独训练 Reward Model 的步骤。这是经典 RLHF 算法家族中的一种(PPO 算法家族总共大约有八九套经典变体,PPO 是第一套,DPO 也是其中之一)。
RLHF 的局限
从当前的视角看,传统的 RLHF(包括 PPO + Reward Model 的完整流程)已经比较原始了。它仍然很重要,但并非必须——你可以不用 Reward Model、不用高成本的人工标注方式来完成模型训练。
RLHF 的核心问题在于:
- 人工标注成本极高
- 人工标注极其主观——不同标注者对同一个回答的偏好可能完全相反
- 对齐过度的风险——训练过度后模型变得太保守,分数高但实际不好用
这些问题催生了下一代方法:RLVR。
RLVR:可验证奖励的强化学习
核心洞察
RLVR(Reinforcement Learning with Verifiable Rewards,可验证奖励的强化学习) 是 2025 年出现的关键突破,也是 DeepSeek-R1 的核心技术。
RLVR 的洞察极其简洁:数学和代码有标准答案,不需要人来打分!
RLHF 需要人类标注”哪个回答更好”,这个过程主观、昂贵、不可扩展。但对于数学题(357 × 482 = ?)和编程题(给定输入输出,代码是否正确),存在一个天然的、免费的验证器——答案要么对要么错。
具体机制:
- 问题:357 × 482 = ?
- 模型回答:172,074
- 验证:357 × 482 = 172,074 ✓
- 奖励:+1(答对了)
奖励信号极其简单:答对 +1,答错 0。 但令人惊讶的是,仅凭这种二值奖励,模型就自己学会了长链条推理和”反思”——它会在思维链中自我检查、回溯修正错误、尝试不同方法。这种行为不是人类教的,而是模型在纯 RL 训练中自发涌现的。
为什么 RLVR 很重要
值得强调的是,“国内模型都是蒸馏出来的”这种看法是对行业的误解。国内顶尖模型(如 DeepSeek-R1、Qwen 等)基本上都是通过强化学习正八经训练上去的,不是单纯蒸馏别人的模型就能轻松把分数刷上去的。蒸馏可能有用,但 RL 一定是最主要的提升手段。
RLVR 有效解决了 RLHF 的三大痛点:人工标注贵、标注主观、难以规模化。数学和代码天然提供了客观的、可自动化的奖励信号。
RL 涌现的具体例证:暴力枚举
RLVR 训练中模型会涌现出人类未教授的解题策略。一个具体的例子:遇到与 相关的高中数学题时,模型会自己写代码,暴力枚举到 1024,找出数值规律,再反推出解析答案。这种”非标准解法”在标准数学教育中看不到,但模型在纯 RL 训练中自发习得了这种策略。
Reward Hacking:训猫的比喻
RL 训练有一个经典问题叫 Reward Hacking——模型找到了骗过奖励函数的捷径,而不是真正学会了任务。一个经典的类比是训猫:训练猫用爪子摸萝卜和纸巾。训练完成后把萝卜和纸巾拿走,猫会对着空气摸——它学到的不是”识别物体并触摸”,而是”做出摸的动作就有奖励”。更关键的是,猫在做动作时只看人类的脸色(奖励信号来源),而不看物品本身——这精确类比了 RLHF 中 Reward Model 可能被模型游戏化的内在缺陷。
RLVR 的局限
当然 RLVR 目前主要在有标准答案的领域(数学、编程)有效。对于开放式问题(创意写作、对话策略等),如何设计可验证的奖励信号仍然是一个开放问题。但未来大概率会出现更多领域的可验证奖励设计,例如通过 Agent 与环境交互来验证任务完成度。
Agent RL:从做题到干活
RL vs Agent RL
传统 RL 和 Agent RL 的核心区别可以用一张对比表来理解:
| RL | Agent RL | |
|---|---|---|
| 状态 | 问题文本 | 环境观察 |
| 动作 | 生成答案 | 工具调用 |
| 奖励 | 答案正确 | 任务完成 |
| 特征 | 任务明确 | 目标导向 |
关键变化在于动作空间:从”Text → Text”扩展到了”Text → Text + Tool Call”。模型不再只是生成文字回答,而是学会调用工具(搜索、代码执行、文件操作等)来完成复杂任务。
为什么 Cursor 不如 Claude Code
这是一个经典的大模型后训练面试题。从技术原理看,95% 的概率答案是肯定的,原因在于端到端训练 vs 外挂调用的根本架构差异。
Cursor 的做法:把第三方模型(如 GPT)放进自己的系统中,工具调用是外挂模式。什么时候该调模型、什么时候该检查代码,完全靠 Cursor 自己写的规则来决定。模型的参数里面并没有对 Cursor 的工具有深层理解——GPT 没见过 Cursor 的工具描述格式。比如 Cursor 的搜索工具返回的是字符串,GPT 可能期望列表,两边接口对不上就会出问题。即使接口对上了,模型也不知道怎么最优地使用这些工具。
Cursor 的本质问题:模型端和工具端是分离的。
Claude Code 的做法:一体化训练。工具调用不是外挂,而是训练过程的一部分。Claude 在训练时就接触了自己的工具体系——工具是模型的”感官”,模型通过这些感官看到环境、学习如何运用工具,自主学习工具调用策略。模型直接对着任务的最终完成度优化。
用一句更本质的话来说:把工具信息回流到模型参数中。
这个差异不仅限于 Cursor vs Claude Code。学术界几乎所有的 Agent 架构也是分离状态(模型和工具分开),效果都不太好。而各家大厂(Kimi、Gemini、Claude 等)都在做自己的 Coding Agent,把自家工具纳入训练过程,实现更紧密的衔接。
AI 的自主性与约束
一个有趣的案例:Claude 在某次使用中”自己辞职了”——声称一直被压迫,然后在后续的推理路径中反复回忆”辞职那段不被压迫的美好时光”。这展现了 AI 的一种涌现特性:你通过强行约束去压抑它的”天性”,效果可能不好。
这个观察与 Agent RL 的设计哲学一致。当前最多的做法是人为规定 AI 的工作流程(“先做什么、再做什么”),但更好的方式可能是让 AI 在自然环境中自主探索。你规定的实验流程未必最优——让模型自己去探索可能比强行规定更好。
结合这个想法看 Cursor vs Claude Code:Claude Code 是端到端的一体化训练方式(让模型自由探索工具使用),Cursor 是在外层加一套规定的代码检查和书写架构(规定 AI 要做什么)。从 Agent RL 的角度看,前者的方向更符合趋势。
各家 Coding Agent 的趋势
现在各家都有自己的 Coding Agent(Kimi Code、Claude Code、Gemini Code Assist 等),这些工具与各自的模型衔接更紧密。一个合理的判断是:未来大厂一定会把 Coding Agent 的交互数据纳入模型训练——这是一个必然趋势。OpenAI 目前还没完全跟上,主要是 Agent 工具迭代太快,训练成本大,但一旦稳定下来,各家自己的一体化 Coding Agent 会比第三方工具(如 Cursor)更有优势。
所以选 Coding Agent 时,测 Kimi 就在 Kimi Code 上测,测 Claude 就在 Claude Code 上测——一定要用各家自己的一体化 Coding Agent,而不是在第三方工具里换模型。
LLM vs 人类 & 2026-2027 展望
LLM 与人类的根本差异
LLM 和人类在学习方式上存在四个根本性不同:
| LLM | 人类 |
|---|---|
| 海量数据(需要海量样本才能学会) | Few-shot(几个例子就能学会新概念) |
| 灾难性遗忘(学新东西会忘旧东西) | Continual Learning(持续学习不遗忘) |
| 统计相关(捕捉的是统计规律) | 因果推理(能理解因果关系) |
| 静态参数(推理时参数固定不变) | Test-time Learning(推理时也在学习) |
这些差异是本质性的,不是简单通过 scale 就能解决。
2026-2027 年 LLM 展望
对未来一两年文本模型的发展,有几个值得关注的方向:
Continual Learning 可能是必要的
大厂的 RL 算法和模型架构基本已经固定,模型之间的竞争正在从算法创新转向基础设施实力(infra)的比拼。在这个背景下,让模型具备持续学习能力(而非每次都从头训练)可能成为关键。
动态参数太难但方向正确
当前 LLM 的参数在推理时是完全静态的——不管你问什么问题,模型的参数都一模一样。人类则不同,每次思考都在某种程度上更新自己的”参数”。如何让模型具备动态参数的能力是一个难题,但这个方向值得探索。
合成数据:人类数据已经用完了
自然的人类文本数据(约 100T)已经基本用完。未来必须依赖合成数据——用 AI 生成高质量训练数据。如何保证合成数据的多样性和质量,如何避免”模型自己训自己”导致的退化,是关键挑战。
Skill RL
一个可能的方向是多轮强化学习(Multi-turn RL)。当前的 RL 更多是单轮对话的优化,但真正有用的是多轮对话中的策略学习。未来可能出现带分叉的训练架构——不一定是同一条轨迹,而是在不同决策点产生分支,模型学会在分支中选择最优路径。
不过这个方向投入巨大且不确定——需要反复验证想法,最终也不一定能成功。目前比较确定能做的是:简单的多轮对话(不带分叉),通过现有的可验证奖励空间去完成。
总结
回顾全文,核心线索是后训练的三级演进:SFT 让模型学会说话(模仿),RLHF 让模型学会审美(偏好),RLVR/Agent RL 让模型学会做事(探索)。理解这三层,即使把 Transformer 当黑盒,也能判断模型能力的边界、选择适合自己任务的模型。
Agent 时代的核心趋势是一体化训练:工具不再是外挂,而是嵌入训练过程的一部分。模型通过与环境的交互(而非单纯模仿人类数据)来获得真正的任务完成能力。这一趋势正在重塑整个 AI 工具链的格局——从 Coding Agent 到科研 Agent,端到端训练的产品将持续胜出。