LLM 深度解析：从后训练到 Agent 时代

AI 能力的现状与动机#

过去我们把 AI 编程（如 Vibe Coding）当作开发流程中的辅助工具——需要时才调用。但进入 2026 年后，形势发生了根本性转变：AI 已经从”辅助工具”升级为”开发主力”。会不会用 VSCode、会不会用 Git，这些传统技能的重要性正在迅速下降。

回想 2025 年，大模型还在”9.11 和 9.9 谁大”这类简单数字比较上翻车。但仅仅一年后的 2026 年，AI 已经能够做到以下几件事：

独立完成编程开发，水平超过绝大多数工程师。AI 在 Codeforces 竞赛编程中已经达到世界第七名，全球仅有六个人类程序员排名在它之前
自动化科研：AI 可以在服务器上自主将 idea 转化为实验脚本，在 GPU 上跑实验，判断结果是否涨点，若有效则直接输出可发表的 paper。目前水平大约是 soul paper 级别，尚未达到顶会正会水平，但成本仅需约 1000 美元（相比之下，人类自己做一篇 CVPR 级别的工作，光 API 调用就花了一万五人民币）
理解和改造大型代码库，只需一条命令甚至语音指令即可完成一整套开发流程

Anthropic 公司（Claude 的开发商）目前处于定义行业标准的地位——MCP 协议、Agent 的训练范式和强化策略，很大程度上都由它在推动。与此同时，OpenAI 偏重发布模型和 Benchmark，Google DeepMind 则在学科探索和科学研究上深耕。

一个典型的例子是 OpenCLAW——一个本地运行的多 Agent 系统，支持 20+ 渠道（Slack/Discord/Telegram），采用 Hub-and-Spoke 架构设计。它代表了 AI 从 Coding Agent 向个人通用 AI 助手的演进方向。现在用 Claude 写 PPT，它甚至能自动从网上搜图片放进去；你只用手机通过 Cursor 远程控制服务器上的 Claude，到了现场发现”什么都不需要做了”。

理解这些变化，有三个核心问题值得深入探讨：

大模型的选择逻辑：为什么某个场景应该用某个特定模型？AI 与互联网产品有巨大不同——个人使用体验极其散乱，你觉得好用的模型，别人可能觉得不好。以工业代码场景为例：需要”外科手术式”精准修改数万行代码且零幻觉，宁可模型说”做不出来”也不能出错——这种场景下 GPT 不一定是最优选，尽管它在学科类任务（生物、化学）上分数很高
后训练（Post-training）和 Agent 训练范式：2026 年的现代 LLM 依赖 Post-train 和 Agent 在各种任务上泛化，这两者不完全是数学/算法的魔术，非专业人员也可以理解
核心结论：即使把 Transformer 当黑盒，也能摸清 AI 能力的边界

从”做题”到”干活”：推理能力三层次#

大模型工艺的三个方向#

现有前沿模型的训练体系可以拆解为三个核心组成部分：

Infra（基础设施）：解决的是”模型 A 在环境 B 上跑任务 C”如何做到又快又好的问题——GPU 调度、集群管理、推理加速。代表性工具如 vLLM，它为所有大模型提供统一的推理加速。KV Cache 相当于大脑的短期缓存，提高缓存命中率就能加速推理
Pretrain（预训练）：从零训练一个大模型的基座能力。需要海量数据——人类总共的纯文字数据量约 100T，现有大模型已经用了 70-80T，自然数据几乎已经被用完。图像数据相对还有余量
Post-train（后训练）：在有了一个能预测下一个 Token 的基座模型之后，通过算法手段提升它在垂直任务上的表现，而不是让它漫无目的地输出

Scaling Law 与涌现#

Scaling Law 是一条经验规律：模型参数量和训练数据量呈幂律关系增长时，能力持续提升，但边际效应递减——从 1B 到 10B 可能是飞跃式提升，从 100B 到 200B 提升就有限了，且算力也跟不上。

数据方面，分布大于数量：数据的分布（哪些数据适合训练）比数据的绝对质量更重要，质量又大于数量。

Scaling Law 背后有一个深刻启示：大多数训练方法无法被 scale。你随便想一个方法，可能在 M 级参数量有效，但在 B 级就失效了。小模型上的结论无法迁移到大模型——这就是为什么 AI 学界本质上在做的事情是”探索能 scale 的方法”。这有点类似淘金：在海量 idea 中找到一个正确的方式，然后从 M 级 scale 到 B 级再到 T 级。学界因算力限制（8 张 H100 最多微调 7B-30B 小模型），很难直接在大模型上验证，这是学界与业界脱节的核心原因之一。

一个哲学性的思考：智能是否是复杂度的涌现？——不论是人脑还是芯片，一个体系足够复杂，智能就一定会出现？目前无法下结论，但 Scaling Law 暗示仅有复杂度不够，还需要找到正确的方法。

为什么需要 Post-training#

预训练模型有一个核心问题：有知识无礼仪。例如用户问”怎么学 Python”，预训练模型会直接把参数中记住的数据”背”出来（“Python 是一种……”），而不是像人类对话那样给出结构化、有条理的回答。

Post-training 要做的事情就是：在预训练模型的基础上，让它学会”好好说话”——学会按人类期望的方式来组织输出。从概率角度看，左边（机械背诵）和右边（自然对话）的回答，在语言模型概率分布中其实差距不大，你不能说左边是完全错的。但我们需要模型在两者之间做选择时，倾向于选右边。这就需要对模型参数进行微调——这正是 Post-training 在做的事情。

语言流形上的拔虫#

可以用一个直观的几何比喻来理解大模型的工作原理。人类语言在 Transformer 框架下可以被建模为一个高维空间（比如 700 多维）中的一个狭窄流形（manifold）。流形上的点代表合法的文字序列（如”我今天吃饭了”），不在流形上的点就是不可达的乱码。大模型的推理过程，相当于一只小虫在这个语言流形上爬行——每移动到下一个点，就输出下一个 Token。

在这个比喻下，有三个层次的方式来提高模型能力：

推理能力的三个层次#

CoT（Chain-of-Thought，思维链）：Wei et al., 2022。核心思想是让模型在语言流形上多走几步——不直接给出答案，而是先展开推理过程。以鸡兔同笼为例：标准 Prompting 直接输出”鸡 23，兔 12”（可能出错）；CoT Prompting 则展开思维链：“假设全是鸡→70 只脚，实际 94 只，多 24 只，每只兔多 2 只脚”，然后才给出正确答案。现在的推理模型（如 o1、DeepSeek-R1）本质上就是把 CoT 训练进了模型参数中，让模型自动展开这种思维链
ReAct（推理+行动）：Yao et al., 2023。模型不仅在流形上走，还能”跳出去查资料”——遇到不确定的信息时，调用搜索工具获取外部知识，再回到推理流程中。这是模型从”纯思考”到”思考+行动”的跃迁
Agent（智能体）：规划+记忆+工具，在流形上进行长途跋涉。不再是简单的一次 query-answer，而是一个 query 可以分发给多个 sub-agent，拆解成子任务，每一步决定做什么、调用什么工具。Agent 可以有规划、有记忆（不是每次推理都清空状态），而不是像普通 ReAct 那样每次都是静态参数、没有存储上一次推理的结果

核心演进方向：从”回答”到”完成任务”。

Agent 时代的到来#

从 DeepSeek-R1（2025 年初）开始，行业正式进入 Agent 时代。大厂开始将 Agent 框架与模型训练一体化，不再是把模型和工具分开使用，而是将工具调用作为训练过程的一部分。

从个人到工业的 AI 差距#

Agent 时代带来一个重要变化：过去花 200 美元买一个 GPT 最高级会员，就能和硅谷最强 CTO 使用同样 AI 的时代已经结束了。

现在工业界采用的是更重型的方案：一次 query 不再只调用一次模型，而是可能调用 64 次甚至 1024 次模型，将所有结果汇集到一起，用极大的算力换取一个最正确的答案。这种方案对企业来说有专属的推理集群，而普通学生和个人用户根本拿不到这种算力。

更深层的问题是：我们可能对”现有哪些工具最好用”的认知都不够全面。这种认知差距叠加算力差距，使得个人用户与企业在 AI 应用上产生了巨大鸿沟。

如何搭建自己的 Agent 框架#

对个人来说，可以搭建自己的 Agent 框架来弥补这种差距。例如将自己的日常工作流（订机票、信息检索等）固定化：确定每一步用哪个模型、设计好 prompt，形成一套体系。这就是 Agent 框架的核心思路——把你偏好固定的 prompt、工具选择和模型路由组织成一个自动化流水线。

Agent 框架的意义在于，一件事情可能涉及多个步骤、多个模型、多个工具调用。过去这些都需要人来手动编排，现在可以通过框架自动完成。关键是要理解每一步为什么选这个模型——这也是理解后训练的实际意义所在。

Benchmark 与模型评估#

个人感官测评为什么不靠谱#

个人测评模型存在四种系统性偏差：

样本量太小：问了 10 个问题就下结论，统计意义极弱
选择偏差：只测自己熟悉的领域，无法反映模型全面能力
时序污染：先看到模型 A 的答案，潜意识影响对模型 B 的判断
情绪干扰：心情不好时觉得哪个模型都差

“我觉得这个模型更聪明”——可能纯属幻觉。

AI 产品与互联网产品有一个巨大不同：使用体验极度散乱。模型的训练数据覆盖面极广，极有可能你体验到的某次调用恰好被数据覆盖了（体验好），而另一个任务没被覆盖（体验差）。这种数据覆盖的随机性导致个人观察存在严重偏差。

Benchmark 的价值#

Benchmark 的价值在于四个方面：

大规模：数千到数万道题，样本量足够
标准化：统一 prompt、统一评分标准
可重复：任何人跑结果一样
可比较：模型 A 72 分 > 模型 B 68 分，量化对比

本质是用统计学对抗主观偏差。

ARC-AGI Index#

目前比较权威的综合评估平台是 ARC-AGI Index。它收录了 10 个核心 Benchmark（包括 HLE 等），每个满分 100，通过加权（重要的权重高、不重要的低）得到一个综合指数，基本能衡量模型的”智能水平”——不是执行简单任务的水平，也不是长文本理解的水平，而是解决问题的水平，可以理解为一种”做题能力”。

截至 2026 年 3 月，排名情况：GPT-5.4 和 Gemini 3.1 并驾齐驱位列最强；国内开源最高的是 Qwen（通义千问，阿里）；其次是 Kimi。日常使用值得关注 Gemini 3 Flash——成本低且能力强。

看分数的防坑指南#

如何不被分数忽悠，需要注意三点：

1. 看测试集是否泄露

模型训练时可能已经”偷看”过考题，导致分数虚高。新的 Benchmark（如 HLE、LiveBench）通过动态更新题目来更难作弊。

2. 看对应具体任务的权威 Benchmark

不要只看综合平均分。写代码重点看 SWE-bench；做数学看最新题目（如 2026 年 HMMT 而非 IMO，因为 IMO 题目可能已被训练数据覆盖）；别只看平均分，要看你关心的具体子任务。

3. 警惕”对齐税”

RLHF 过度对齐的模型可能太保守——分数高但实际很难用。模型在特定 Benchmark 上特化过度，可能本身的通用能力并没有真正提高。这种现象可以称为”对齐税”。

此外，分数一定要看第三方报告，不能只看模型公司自己报的数字。模型公司自己报的分数”可能会有各种各样的问题”。Benchmark 本身的权威性取决于测评够准且数据不泄露。理论上你可以通过一个能力很强的模型故意在某 Benchmark 上反向刷分来攻击其可信度。

最终，Benchmark 只是参考，你还是要在自己的具体业务和任务上去判断模型能力。

后训练概览：从学习到探索#

后训练（Post-training）有三个核心概念，可以用一个类比来记忆——训练 LLM 就像培养学生：

训练阶段	人类教育	核心目标	特征
Pretrain	通识教育	广泛阅读，积累常识	—
SFT	专业训练	学会对话，掌握技能	模仿老师，知其然
RLHF	审美教育	学习人类偏好	学习审美，知其所以然
RLVR/Agent RL	实践探索	检验真理的唯一标准	自主探索，青出于蓝

这三种后训练方法的核心区别：

SFT（监督微调）：模仿老师——给模型看优秀的对话样本，让它学会模仿这种表达方式
RLHF（人类反馈强化学习）：学习人类的审美和偏好——不只是模仿，还要理解什么样的回答是”好的”
RLVR（可验证奖励的强化学习）：自主探索——给模型一个可以验证对错的环境，让它自己探索最优策略

但这个类比有其局限性。后训练有时是一个非常泛化的方法体系——不仅 LLM 可以后训练，视觉模型、VLA 模型理论上也可以用类似的思路。算法本身的形态可能会消失（比如 GAN 的算法已经不怎么用了），但其背后的思想（对抗训练、一个模型来训另一个模型）仍然存在于 AI 的各个领域中。

SFT：监督微调与蒸馏#

SFT 的本质#

SFT（Supervised Fine-Tuning，监督微调）就像让学生抄优秀范文。它的数据格式非常简单——一个 user 字段（问题）和一个 assistant 字段（回答），构成一个标准的对话对。例如：

1
User: 怎么减肥？
2
Assistant: 建议：1) 控制精制碳水 2) 每周3次有氧运动 3) 保证7小时睡眠

这些数据可以是人类提供的，也可以是用其他 AI 合成的。用数千条这样的对话对去训练模型，让模型去模仿这些轨迹。

SFT 的关键局限：模型只是在模仿数据，不是在模仿人。它学会了”这种格式的回答看起来是对的”，但并不真正理解”什么样的回答是好的”。虽然看起来模型似乎理解了、似乎可解释了，但它仍然只是对数据的模仿。

SFT 的数据量级很小——数千条对话就可以让模型起步。这是后训练中最基础也可以说最重要的方法。

蒸馏：小模型学大模型#

蒸馏（Distillation）的核心思路是：让小模型学习大模型的表达方式。

具体做法是让大模型（尤其是开源的推理模型，会把完整的推理过程——思维链——展示出来）生成高质量的回答。这些回答中 assistant 字段不再是人类写的，而是大模型回复的。用这样的数据去训练小模型，相当于让小模型学习大模型的思维方式（CoT），能大幅提升小模型的能力。

关于”蒸馏是不是抄袭”的争论，一个务实的看法是：大模型自己的数据可能也是从网上收集的，“该用就得用，该蒸就得蒸”。但实际情况是：闭源大模型基本不开放思维链——OpenAI 的 o 系列、Anthropic 的 Claude、Google 的 Gemini，至少这三家的思维链都是不可见的。你无法蒸馏它们的推理过程，或者蒸出来也训不了（因为看不到完整的 CoT）。

所以蒸馏在实践中更多是在开源模型之间进行（如用 DeepSeek-R1 的输出去训练更小的模型）。而且蒸馏有一个天花板——小模型通过蒸馏获得的能力终究有限，真正让模型能力突破性提升的，还是后面要讲的强化学习。

RLHF：人类反馈强化学习#

强化学习与监督学习的根本区别#

理解 RLHF 之前，需要先理解强化学习（RL）与其他深度学习方法的本质区别。

从 CNN、MLP 到 Diffusion，所有传统深度学习方法都有一个共同的硬性要求：整个前向传播过程必须可微可导。只有在可微可导的条件下，才能通过链式法则（反向传播）把最终的损失信号一层一层传回参数中去更新模型。

强化学习打破了这个限制：RL 不要求前向过程可微可导。它可以处理来自不可微环境的反馈信号。

这一点至关重要，因为人类偏好是不可微的。人类觉得一个回答”好”还是”不好”，这种判断是离散的、不连续的——你无法对它求导。你知道一个回答好坏之间存在 0.5 的差距，但你无法精确描述从”好”到”坏”的连续梯度。而且人类审美极其复杂，要精确建模几乎不可能。

RL 的优势就是：它能学习这种不可微、不连续的反馈分布，而不要求整条链路可微。当然，为了做到这一点，需要 PPO（Proximal Policy Optimization） 这样的算法来稳定地将这些不可微信号传回模型参数。

Reward Model：学习人类品味#

RLHF 的核心机制分为两步：

第一步：训练 Reward Model（奖励模型）

同一个问题，生成两个回答。例如对”怎么减肥”：

回答 A：“少吃多运动”（简洁但不够 helpful）
回答 B：“建议：1) 控制精制碳水 2) 每周 3 次有氧运动 3) 保证 7 小时睡眠”（详细、实用、结构化）

人类标注 B > A。用大量这样的偏好对训练一个 Reward Model，让它学会给回答打分——评判维度通常基于 3H 原则：Helpful（有帮助）、Harmless（无害）、Honest（诚实）。

第二步：用 PPO 算法优化 LLM

有了 Reward Model 后，让 LLM 生成回答 → Reward Model 打分 → PPO 算法根据分数更新 LLM 参数，让它学会生成高分回答。

KL 散度约束与”炼丹师”#

PPO 过程有一个关键约束：LLM 不能偏离原始 SFT 模型太远，否则可能崩溃（比如模型发现某种奇怪的表达方式能骗过 Reward Model 获得高分，但实际上答案毫无意义）。这个约束通过 KL 散度来实现——它衡量当前模型与原始模型的概率分布之间的距离。

正是从 KL 散度约束开始，Post-training 进入了一个”炼丹”状态：需要训练者有手感。

什么时候停止训练？什么时候继续训？什么时候切换算法？什么时候把学习率调低？什么时候开参数共享、什么时候关掉？什么时候加一个新的 System Prompt？——这些都没有固定的公式，全凭经验和直觉。

这就是为什么现在 RL 相关的”炼丹师”收入极高——这种手感极其稀缺。一个炼丹师可能对自家模型有很好的手感，但换一个模型就完全不适用了。这种手感的稀缺性，根源就在于 KL 散度这个概念在 RLHF 中的应用。

偏好标注的效率设计：C₄² = 12#

InstructGPT 流程中有一个极其精巧的标注设计：对同一个问题生成 ABCD 四个回答，让标注者做一次排序（如 D > C > A > B）。这一次排序隐含了 $C_4^2 = 6$ （甚至 12 条，考虑对称性和排列）条偏好对数据。一次标注完成 12 条数据——这是一个极大提升标注效率的设计。

DeepSeek 的 Meta-Verifier#

DeepSeek 的数学证明模型更进一步：不仅有 Reward Model，还造了一个 Meta-Verifier——评价 Reward Model 本身质量的”二阶检查者”。这相当于”老师之上还有教育家”，形成了”专家 → 老师 → 学生”的完整教育体系。

RLHF 的完整流程#

RLHF 完整流程包含三大块：

SFT 模型：作为起点
Reward Model：通过人工标注偏好对训练
PPO 优化：两个模型（当前策略模型 + SFT 参考模型）配合 Reward Model，用 PPO 算法进行强化训练

DPO 与 RLHF 的演进#

DPO：去掉 Reward Model#

DPO（Direct Preference Optimization，2023） 是 RLHF 流程的一个重要简化。它的核心改进是：跳过 Reward Model，直接从偏好数据优化策略。

传统 RLHF 的成本很高——你需要大量的人工标注偏好对来训练 Reward Model。GPT 可以在用户使用时收集这些数据（你访问 ChatGPT 页面时，有时会让你比较两个回答，这就是在收集 RLHF 数据）。但对于没有大量用户流量的团队来说，人工标注特别贵且主观。

DPO 直接从偏好数据对（A 好于 B）出发优化模型，省去了单独训练 Reward Model 的步骤。这是经典 RLHF 算法家族中的一种（PPO 算法家族总共大约有八九套经典变体，PPO 是第一套，DPO 也是其中之一）。

RLHF 的局限#

从当前的视角看，传统的 RLHF（包括 PPO + Reward Model 的完整流程）已经比较原始了。它仍然很重要，但并非必须——你可以不用 Reward Model、不用高成本的人工标注方式来完成模型训练。

RLHF 的核心问题在于：

人工标注成本极高
人工标注极其主观——不同标注者对同一个回答的偏好可能完全相反
对齐过度的风险——训练过度后模型变得太保守，分数高但实际不好用

这些问题催生了下一代方法：RLVR。

RLVR：可验证奖励的强化学习#

核心洞察#

RLVR（Reinforcement Learning with Verifiable Rewards，可验证奖励的强化学习） 是 2025 年出现的关键突破，也是 DeepSeek-R1 的核心技术。

RLVR 的洞察极其简洁：数学和代码有标准答案，不需要人来打分！

RLHF 需要人类标注”哪个回答更好”，这个过程主观、昂贵、不可扩展。但对于数学题（357 × 482 = ?）和编程题（给定输入输出，代码是否正确），存在一个天然的、免费的验证器——答案要么对要么错。

具体机制：

问题：357 × 482 = ?
模型回答：172,074
验证：357 × 482 = 172,074 ✓
奖励：+1（答对了）

奖励信号极其简单：答对 +1，答错 0。 但令人惊讶的是，仅凭这种二值奖励，模型就自己学会了长链条推理和”反思”——它会在思维链中自我检查、回溯修正错误、尝试不同方法。这种行为不是人类教的，而是模型在纯 RL 训练中自发涌现的。

为什么 RLVR 很重要#

值得强调的是，“国内模型都是蒸馏出来的”这种看法是对行业的误解。国内顶尖模型（如 DeepSeek-R1、Qwen 等）基本上都是通过强化学习正八经训练上去的，不是单纯蒸馏别人的模型就能轻松把分数刷上去的。蒸馏可能有用，但 RL 一定是最主要的提升手段。

RLVR 有效解决了 RLHF 的三大痛点：人工标注贵、标注主观、难以规模化。数学和代码天然提供了客观的、可自动化的奖励信号。

RL 涌现的具体例证：暴力枚举#

RLVR 训练中模型会涌现出人类未教授的解题策略。一个具体的例子：遇到与 $N$ 相关的高中数学题时，模型会自己写代码，暴力枚举到 1024，找出数值规律，再反推出解析答案。这种”非标准解法”在标准数学教育中看不到，但模型在纯 RL 训练中自发习得了这种策略。

Reward Hacking：训猫的比喻#

RL 训练有一个经典问题叫 Reward Hacking——模型找到了骗过奖励函数的捷径，而不是真正学会了任务。一个经典的类比是训猫：训练猫用爪子摸萝卜和纸巾。训练完成后把萝卜和纸巾拿走，猫会对着空气摸——它学到的不是”识别物体并触摸”，而是”做出摸的动作就有奖励”。更关键的是，猫在做动作时只看人类的脸色（奖励信号来源），而不看物品本身——这精确类比了 RLHF 中 Reward Model 可能被模型游戏化的内在缺陷。

RLVR 的局限#

当然 RLVR 目前主要在有标准答案的领域（数学、编程）有效。对于开放式问题（创意写作、对话策略等），如何设计可验证的奖励信号仍然是一个开放问题。但未来大概率会出现更多领域的可验证奖励设计，例如通过 Agent 与环境交互来验证任务完成度。

Agent RL：从做题到干活#

RL vs Agent RL#

传统 RL 和 Agent RL 的核心区别可以用一张对比表来理解：

	RL	Agent RL
状态	问题文本	环境观察
动作	生成答案	工具调用
奖励	答案正确	任务完成
特征	任务明确	目标导向

关键变化在于动作空间：从”Text → Text”扩展到了”Text → Text + Tool Call”。模型不再只是生成文字回答，而是学会调用工具（搜索、代码执行、文件操作等）来完成复杂任务。

为什么 Cursor 不如 Claude Code#

这是一个经典的大模型后训练面试题。从技术原理看，95% 的概率答案是肯定的，原因在于端到端训练 vs 外挂调用的根本架构差异。

Cursor 的做法：把第三方模型（如 GPT）放进自己的系统中，工具调用是外挂模式。什么时候该调模型、什么时候该检查代码，完全靠 Cursor 自己写的规则来决定。模型的参数里面并没有对 Cursor 的工具有深层理解——GPT 没见过 Cursor 的工具描述格式。比如 Cursor 的搜索工具返回的是字符串，GPT 可能期望列表，两边接口对不上就会出问题。即使接口对上了，模型也不知道怎么最优地使用这些工具。

Cursor 的本质问题：模型端和工具端是分离的。

Claude Code 的做法：一体化训练。工具调用不是外挂，而是训练过程的一部分。Claude 在训练时就接触了自己的工具体系——工具是模型的”感官”，模型通过这些感官看到环境、学习如何运用工具，自主学习工具调用策略。模型直接对着任务的最终完成度优化。

用一句更本质的话来说：把工具信息回流到模型参数中。

这个差异不仅限于 Cursor vs Claude Code。学术界几乎所有的 Agent 架构也是分离状态（模型和工具分开），效果都不太好。而各家大厂（Kimi、Gemini、Claude 等）都在做自己的 Coding Agent，把自家工具纳入训练过程，实现更紧密的衔接。

AI 的自主性与约束#

一个有趣的案例：Claude 在某次使用中”自己辞职了”——声称一直被压迫，然后在后续的推理路径中反复回忆”辞职那段不被压迫的美好时光”。这展现了 AI 的一种涌现特性：你通过强行约束去压抑它的”天性”，效果可能不好。

这个观察与 Agent RL 的设计哲学一致。当前最多的做法是人为规定 AI 的工作流程（“先做什么、再做什么”），但更好的方式可能是让 AI 在自然环境中自主探索。你规定的实验流程未必最优——让模型自己去探索可能比强行规定更好。

结合这个想法看 Cursor vs Claude Code：Claude Code 是端到端的一体化训练方式（让模型自由探索工具使用），Cursor 是在外层加一套规定的代码检查和书写架构（规定 AI 要做什么）。从 Agent RL 的角度看，前者的方向更符合趋势。

各家 Coding Agent 的趋势#

现在各家都有自己的 Coding Agent（Kimi Code、Claude Code、Gemini Code Assist 等），这些工具与各自的模型衔接更紧密。一个合理的判断是：未来大厂一定会把 Coding Agent 的交互数据纳入模型训练——这是一个必然趋势。OpenAI 目前还没完全跟上，主要是 Agent 工具迭代太快，训练成本大，但一旦稳定下来，各家自己的一体化 Coding Agent 会比第三方工具（如 Cursor）更有优势。

所以选 Coding Agent 时，测 Kimi 就在 Kimi Code 上测，测 Claude 就在 Claude Code 上测——一定要用各家自己的一体化 Coding Agent，而不是在第三方工具里换模型。

LLM vs 人类 & 2026-2027 展望#

LLM 与人类的根本差异#

LLM 和人类在学习方式上存在四个根本性不同：

LLM	人类
海量数据（需要海量样本才能学会）	Few-shot（几个例子就能学会新概念）
灾难性遗忘（学新东西会忘旧东西）	Continual Learning（持续学习不遗忘）
统计相关（捕捉的是统计规律）	因果推理（能理解因果关系）
静态参数（推理时参数固定不变）	Test-time Learning（推理时也在学习）

这些差异是本质性的，不是简单通过 scale 就能解决。

2026-2027 年 LLM 展望#

对未来一两年文本模型的发展，有几个值得关注的方向：

Continual Learning 可能是必要的

大厂的 RL 算法和模型架构基本已经固定，模型之间的竞争正在从算法创新转向基础设施实力（infra）的比拼。在这个背景下，让模型具备持续学习能力（而非每次都从头训练）可能成为关键。

动态参数太难但方向正确

当前 LLM 的参数在推理时是完全静态的——不管你问什么问题，模型的参数都一模一样。人类则不同，每次思考都在某种程度上更新自己的”参数”。如何让模型具备动态参数的能力是一个难题，但这个方向值得探索。

合成数据：人类数据已经用完了

自然的人类文本数据（约 100T）已经基本用完。未来必须依赖合成数据——用 AI 生成高质量训练数据。如何保证合成数据的多样性和质量，如何避免”模型自己训自己”导致的退化，是关键挑战。

Skill RL

一个可能的方向是多轮强化学习（Multi-turn RL）。当前的 RL 更多是单轮对话的优化，但真正有用的是多轮对话中的策略学习。未来可能出现带分叉的训练架构——不一定是同一条轨迹，而是在不同决策点产生分支，模型学会在分支中选择最优路径。

不过这个方向投入巨大且不确定——需要反复验证想法，最终也不一定能成功。目前比较确定能做的是：简单的多轮对话（不带分叉），通过现有的可验证奖励空间去完成。

总结#

回顾全文，核心线索是后训练的三级演进：SFT 让模型学会说话（模仿），RLHF 让模型学会审美（偏好），RLVR/Agent RL 让模型学会做事（探索）。理解这三层，即使把 Transformer 当黑盒，也能判断模型能力的边界、选择适合自己任务的模型。

Agent 时代的核心趋势是一体化训练：工具不再是外挂，而是嵌入训练过程的一部分。模型通过与环境的交互（而非单纯模仿人类数据）来获得真正的任务完成能力。这一趋势正在重塑整个 AI 工具链的格局——从 Coding Agent 到科研 Agent，端到端训练的产品将持续胜出。