自动化系团队在第39届神经信息处理系统会议上获最佳论文亚军奖-清华大学

清华新闻网12月12日电 12月6日，在美国圣地亚哥举行的第39届神经信息处理系统会议（Conference on Neural Information Processing Systems，NeurIPS）上，清华大学自动化系宋士吉教授、黄高副教授团队的论文“强化学习是否真的能激发大语言模型产生超越基础模型的推理能力？”（Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model?）获得最佳论文亚军奖（Best Paper Runner-Up Award）。

获奖合影（中间三位为自动化系获奖学生）

获奖证书

评审委员会对该论文的评价为：“本文针对大语言模型（LLM）研究中一个被广泛接受的基础性假设——带有可验证奖励的强化学习（RLVR）激发了大模型新的推理能力——给出了一种精妙且至关重要的否定性发现。研究表明，在不同的模型类型、任务和算法中，RLVR训练虽能提高正确输出的采样效率，却无法拓展基础模型已有的推理能力。强化学习缩小了探索范围，受奖励的轨迹得到强化，但更广泛的解决方案空间却缩小了。这表明RLVR是在基础分布范围内进行优化，而非超越基础分布。这是一项重要发现，有望激励人们研发全新的强化学习范式，使其能够应对广阔的动作空间，并真正拓展大语言模型的推理能力。”

论文两位共同第一作者分别为清华大学自动化系2021级博士生乐洋和2022级本科生陈之琪。

NeurIPS是人工智能领域的旗舰学术会议之一，其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。

论文链接：

https://arxiv.org/abs/2504.13837

供稿：自动化系

编辑：李华山

审核：郭玲

2025年12月12日 10:48:37