善良的xwysyy

2026-05-25

梳理 2024-2026 年推理 LLM 强化学习的主要进展，从 REINFORCE、PPO 讲起，到 GRPO 及 DAPO、CISPO、GSPO 等后续改进方法。

2026-03-15

P-Lib 2026 年第一次讲座的视频学习笔记：从后训练（SFT / RLHF / RLVR / DPO）到 Agent 时代的演进，涵盖推理能力三层次、Benchmark 评估方法、Agent RL 训练范式以及 LLM 能力边界的判断。

2024-12-27

本文介绍如何通过配置SSH密钥和VSCode插件，实现从Windows系统远程连接Linux服务器进行开发。

2023-12-08

本文介绍Git LFS安装、代理配置及常用操作，包括连接远程仓库、提交代码、清除记录和版本回退等实用技巧。

2023-12-08

本文介绍LaTeX排版系统中的数学公式基础语法，包括上标、下标、积分、求和、字体设置及文本注释等常用符号的输入方法。

2023-12-08

文章介绍了Sublime Text的破解步骤，并详细列举了其丰富的快捷键分类与用法，涵盖选择、编辑、搜索及显示等操作。