SPHERE 是一个自我进化框架,通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型(SLM)中的多步骤推理能力。它利用蒙特卡罗树搜索(MCTS)有效地探索推理轨迹,同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本,SPHERE 会修剪掉次优分支,每次展开时仅保留奖励最高(Smax)和奖励最低(Smin)的路径。这种选择性采样产生了高质量的偏好对,使模型能够学习到最优策略以及系统的失败模式。

修剪后的蒙特卡罗树搜索(Pruned MCTS)所有阶段的图示

阶段 1:推理轨迹的自我生成

SPHERE 的第一阶段通过使用基础小语言模型来探索各种解决问题的路径,从而构建结构化的推理轨迹。给定一个策略 π 和一个包含问答对的数据集 D,π 在较高温度下生成多步骤推理序列,以提高多样性。在每个时间步 t,模型生成 E 个不同的推理步骤:

为确保有效的探索,每次展开仅保留两个步骤:

  1. St_max:最有可能得出正确最终答案的步骤。
  2. St_min:最不可能得出正确最终答案但仍然合理的步骤。

这些步骤使用过程奖励模型(PRM,πprm)进行评分,该模型评估它们得出正确解决方案的可能性:

其中 R(St) 分配一个奖励分数。该过程会递归地继续,直到得出最终答案或达到预定义的深度限制,从而形成两条完整的推理轨迹:

  1. Sol_max:由 Smax 组成的步骤序列,形成最优的推理轨迹。
  2. Sol_min:由 Smin 组成的步骤序列,形成最弱但仍然结构化的推理轨迹。

过程奖励模型(PRM)πprm 用于分配介于 [0, 1] 之间的分数,其中 1 表示很有可能得出正确的最终答案,0 表示非常不可靠的推理步骤。对于初始步骤 s0,奖励直接分配为:R(s0) = πprm(s0)。对于后续步骤 st,我们纳入一个考虑所取得进展的优势奖励:

在某些情况下,由于以下原因,Smax 和 Smin 可能都不存在:

  1. 所有解决方案都不正确:模型未能生成任何无效的推理路径,从而无法识别有意义的 Smin。
  2. 所有解决方案都正确:生成的推理步骤仅展示了有效的解决问题方法,导致缺乏对比性的训练对。

为了解决这些差距,分别引入了第 2 阶段:自我纠正和第 3 阶段:多样性。

阶段 2:偏好数据生成的自我更正

在这个阶段,通过促使模型反思自己的推理、识别错误并重新生成改进的解决方案,来增强模型的自我纠正能力。自我纠正数据集是专门从 Sol_max 或 Sol_min 都导致最终答案不正确的情况构建的,这意味着模型最初未能产生有效的推理轨迹。为了生成用于自我纠正的偏好对,应用了与第一阶段相同的 MCTS 引导的探索方法。

阶段 3:增强偏好数据的多样性

为了引入更多的多样性,我们使用了一个较小的模型 πsmall,它与原始策略 π 具有相同的架构,但参数更少。这个较小的模型探索替代推理路径,更有可能生成不正确但合理的解决方案。

  1. 针对重叠的正确解决方案:我们识别出在之前阶段中 Sol_max 和 Sol_min 都得出正确最终答案的实例。
  2. 使用 πsmall 进行更广泛的探索:较小的模型 πsmall 的任务是为这些情况生成推理轨迹,使用扩展的探索预算 2E 来增加产生不同错误的概率。
  3. 通过 MCTS 引导选择进行过滤:应用相同的 MCTS 机制来提取最有希望和最不有希望的推理步骤,确保结构化错误的多样性。

实验设置

  • 生成策略(π):Qwen/Qwen2.5–7B-Instruct,负责生成多步推理轨迹。
  • 多样性增强模型(πsmall):Qwen/Qwen2.5–3B-Instruct,用于通过生成替代推理步骤和不正确的解决方案来增强多样性。
  • 过程奖励模型(PRM,πprm):Qwen/Qwen2.5-Math-PRM-7B,用于评估中间推理步骤的质量。

在推理轨迹生成过程中,基本策略 π 在 0.8 的采样温度下,每次提示生成 5 个推理步骤。πsmall 探索更大的 10 个推理步骤集,以引入更多的变化并增强数据集的多样性。使用修剪后的 MCTS 生成额外的数据集,用于在使用 SPHERE 生成的自身数据集上训练 phi-4 和 DeepSeek-R1-Distill-Qwen-7B。

使用了一个包含 20,000 个数学应用题的大型数据集,这些题目带有最终答案的真实标签,主要从 NuminaMath 和 MetaMath 中采样。

评价

与生成策略相同的模型

  • 在所有经过测试的大语言模型(LLM)和基准数据集上,SPHERE 持续提高了数学推理性能。
  • SPHERE 显著提升了 Qwen2.5–7B、phi-4 和 DeepSeek-R1-Qwen 7B 的性能,在诸如 Math 500、GSM8K、AIME 和 AMC 等任务上实现了大幅的准确性提升。
  • DeepSeek-R1-Qwen 7B,在某些情况下已经是一个超越 GPT-4o 的高性能模型,也从 SPHERE 中受益。

不同的模型作为生成策略

SPHERE 在单次通过率(Pass@1 accuracy)上的性能(以 Qwen2.5–7B 作为生成策略):

  • 即使使用已经专门用于数学推理的模型,如 Qwen2.5–7B-Math,SPHERE 也能显著提升性能,在 Math 500、GSM8K、AIME 和奥林匹克竞赛数据集上取得了改进。
  • SPHERE 大幅提高了像 Qwen2.5–1.5B 这样较小模型的推理能力,即使在架构容量有限的情况下也证明了其有效性,在 GSM8K、AMC 和 Math 500 上取得了显著的性能提升。
  • SPHERE 的适用性超越了 Qwen 模型,它成功地提高了 phi-4(一个 140 亿参数的指令调整模型)在 Math 500、GSM8K 和 AMC 上的性能,这突出了 SPHERE 在增强不同模型架构方面的多功能性。

相关论文

Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models