强化学习算法梳理:从 PPO 到 GRPO 及之后
梳理 2024-2026 年推理 LLM 强化学习的主要进展,从 REINFORCE、PPO 讲起,到 GRPO 及 DAPO、CISPO、GSPO 等后续改进方法。
LLM 深度解析:从后训练到 Agent 时代
P-Lib 2026 年第一次讲座的视频学习笔记:从后训练(SFT / RLHF / RLVR / DPO)到 Agent 时代的演进,涵盖推理能力三层次、Benchmark 评估方法、Agent RL 训练范式以及 LLM 能力边界的判断。