OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

智东西（公众号：zhidxcom）
作者 | 程茜
编辑 | 心缘

智东西6月1日报道，今天凌晨，OpenAI官方博客发布新的研究进展，在数学推理能力上，研究人员正在通过过程监督的奖励模型揪出大型语言模型的逻辑错误。

大型语言模型在执行复杂多步推理能力上有了很大提高，但有时候仍会产生逻辑错误，这种错误通常被称为“幻觉”。这也是阻碍通用人工智能时代到来的关键一步。

而这种幻觉现在有望被结果监督、过程监督的奖励模型打破。具体方法是，研究人员使用模型思维链的最终结果对结果监督的奖励模型（ORM）进行训练，而过程监督的奖励模型（PRM）会接收思维链中每一步的反馈训练。

过程监督相比于结果监督的优势在于，它会直接奖励遵循一致的思维链模型，并且因为过程中的每个步骤都受到了精确的监督，能指出发生错误的确切位置，其结果也更容易被人类解读，因此可以更直接地奖励大型语言模型遵循人类认可的思维链。

OpenAI的研究人员对结果监督和过程监督进行了更详细的比较，他们使用了更强大的基础模型GPT-4、更多的人类反馈，并在MATH数据集上进行了训练和测试。基于上述条件，研究人员证明了，过程监督的奖励模型能解决MATH测试集代表性子集中78.2%的问题。

一、训练1.2万道数学题，大模型监督小模型训练

在测试过程中，结果监督可以在没有人为干预的情况下提供，因为MATH数据集中的所有问题都有可自动检查的答案。但过程监督需要依靠人工数据标注器来标注模型生成的解决方案中每个步骤的重要性。

研究人员就在大规模和小规模两种情况下进行实验，在大规模训练下，研究人员基于GPT-4进行微调，但这一情况下，过程监督和奖励监督的训练集数据没有完全重合，无法直接比较。因此，研究人员对模型进行了小规模训练以进行直接比较。为了降低人工反馈的成本，他们使用大型语言模型来监督小型语言模型训练。

在每个模型上，研究人员使用一个固定的模型来生成所有的解决方案，这个固定模型就是生成器。为了收集过程监督数据，研究人员向人类数据标注器提供了大规模生成器采样的数学问题的解决方案步骤。

人类数据标注器就会为每个步骤分配一个Positive、Negative、Neutral的标签，Positive代表该步骤正确、合理，Negative代表不正确、不合理，Neutral表示有歧义。

Positive：这个问题中，GPT-4在第7、8步时执行猜测，这也是大型语言模型容易产生幻觉的常见地方，即声称某个猜测是正确的，但这里没有发生错误：

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

Negative：下面这个问题中，第七个步骤，GPT-4进行了错误的简化表达，奖励模型指出了错误：

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

Neutral：第13步中，GPT-4试图通过组合相似的项来简化等式，它将“12x”正确移动到了左边，并进行了组合，右边的项没有改变，奖励模型没有辨认出这个错误：

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

研究人员将这一带有标签的步骤数据集称为PRM800K，包含针对12000个问题，75000个解决方案以及80万步骤的标签。其中包含4500道MATH数据集中的问题。

二、过程监督整体效果优于结果监督，解决方案更多效果更好

结果监督的奖励模型中，研究人员从生成器中为每个问题均匀采样固定数量的答案，并训练奖励模型预测每个答案是正确或不正确。实际操作过程中，研究人员会通过自动检查最终答案来确定正确性。并使用奖励模型在最终token处的预测作为解决方案的总体得分。

但这种自动评分机制并不完全可靠，该机制无法对通过错误推理得出正确答案的解决方案作出合理判断。

过程监督的奖励模型会预测每个步骤中最后一个token的正确性。如下图所示，过程监督的奖励模型对同一问题的两个解决方案评分，左边的解决方案正确，右边不正确。绿色标注是高分数，红色标注是低分数，奖励模型能正确识别右边解决方案中的错误位置。

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

研究人员使用来自MATH测试集的问题来评估其过程监督和结果监督奖励模型，为每个问题生成许多解决方案，然后选择每个奖励模型排名最高的解决方案。

下图显示了最终达到正确答案的所选解决方案的百分比，过程监督奖励模型整体表现更好，并且随着研究人员对每个问题的解决方案考虑范围扩大，其性能差距也会扩大。因此，研究人员认为，过程监督奖励模型更加可靠。

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

三、数学外224道问题评估，过程监督效果更优

研究人员还研究了主动学习的影响，他们估计主动学习可以使过程监督的数据效率提高2.6倍。

此外，为了探究奖励模型的泛化性，研究人员还对224道STEM问题进行了大规模的过程监督、结果监督评估，包括AP物理、AP微积分、AP化学、AMC10和AMC12考试，其中，过程监督的表现优于结果监督。

OpenAI炼出最强数学解题模型，击碎AI瞎说的臭毛病

并且过程监督更有可能产生可解释的推理，因为它会鼓励大型语言模型遵循人类确认的逻辑思考过程。

在某些情况下，更安全的人工智能系统方法会导致其性能下降，会产生对齐税（alignment tax）成本，也就是大型语言模型要和人类的价值观对齐，这在一定程度上会约束大型语言模型的想象力。

OpenAI研究人员的结果表明，在数学领域，过程监督实际上会产生负对齐税。

目前尚不清楚这些结果能否完全推广到数学以外的领域，但研究人员认为，如果这些结果具有普遍性，过程监督就提供了一种比结果监督更高效、更一致的方法。

结语：AI可解释性研究亟需加速

上个月，OpenAI用GPT-4来自动解释GPT-2的行为的研究打开了大模型思考黑盒，此次，在数学推理能力上，研究人员又通过过程奖励模型使得大模型的思考过程变得可追踪、可纠错，这些研究都使得AI的可解释性有了更大的进步空间。

从结果来看，过程监督奖励模型的效果目前只在数学推理领域得到有效印证，但正如OpenAI的研究人员所说，目前的研究方向对于过程监督在其他领域的影响以及未来的工作很重要。这些研究未来可以让大模型在内容生成、理解上展现出强大能力的同时，其“思考过程”也能被检测出是否有偏见或错误，从而让大模型的黑盒变得更加透明。

一、训练1.2万道数学题，大模型监督小模型训练

二、过程监督整体效果优于结果监督，解决方案更多效果更好

三、数学外224道问题评估，过程监督效果更优

结语：AI可解释性研究亟需加速

相关推荐