Open AI 新论文用“过程监督”改进数学推理

2023-06-03 19:30:54 编辑：澹台风融来源：

导读在 Open AI新论文中指出：新训练出的一个模型，通过对每个正确推理步骤进行奖励（过程监督）来提高解决数学问题的水平，与之前的结果监督...

在 Open AI新论文中指出：新训练出的一个模型，通过对每个正确推理步骤进行奖励（过程监督）来提高解决数学问题的水平，与之前的结果监督有很大的区别。这种方式最大的一个好处是能够直接训练模型产生被人类认可的思维链。

过程监督可以为思维链中的每一步提供反馈，而且打造的机器人性能提升的也很明显。过程监督比结果监督有几个对齐优势，在生成的过程中，对每一步都可以做到精确化的监督，能够有效的奖励模型，遵循与人类一致的思维链。产生可以解释的推理，希望会更大。之前采用的结果监督模型在处理复杂问题的时候很容易出现错误判断或者产生幻觉，难以理解解决问题的整个过程。过程监督则会验证每一个思维过程，确保出现的结果都是正确的。