AI解答数学题,答案在过程中错了吗DeepMind通过新研究的改良谷歌思考链方法量子比特,
AI的数学题成绩又更新了!
众所周知,根据谷歌思维链(chain of thought)概念的提出,AI在解题时已经可以像人类一样生成解题步骤。
这次,来自DeepMind的科学家提出了解决问题的步骤和如何确保答案的双重正确率的切实问题。
为此,他们在GSM8K数据集上对基于过程和结果的监督方法进行了全面比较,并结合两者的优势训练了最优模型。
结果新模型的答错率由16.8%降至12.7%,答错步骤的错误率也由14.0%降至3.4%。
在介绍步骤+答案的双重保障新研究之前,必须提到今年1月论文中提出的思维链概念。
简而言之,思维链提示是一种特殊的上下文学习,它不同于标准提示,只是给出一个输入输出对的例子,思维链提示会添加一个推理的过程。
但这种方法存在一个问题,在某些情况下AI可以生成正确答案,但推理过程是错误的。
现在,DeepMind的研究者,不仅仅关注最终结果,也关注推论过程的正确性改善着。
为此,他们首次全面比较了自然语言处理任务中的过程和基于结果的方法。
具体包括以下不同的场景:。少样本提示、监督微调、专家反复强化学习、排序和强化学习奖励模式。
第二,GSM8K数据集具有推理步骤的离线监测和在线手动显示。
从结果来看,第一,过程和基于结果的方法与最终答案的错误率基本一致。这意味着,仅仅通过对结果的监督就可以实现较低的答错率。
第二,推理步骤的精度的提高需要过程监督或模仿它的奖励模型。虽然最终的答错率相似,但从下图可以看出,结果监督(19.8%)明显高于过程监督(11.4%)的推理错误率。
此外,研究人员结合两者的优势,训练出了监督学习与基于奖励模式的强化学习相结合的最佳模式。
新模型的答错率由以前的最佳水平16.8%下降到12.7%,此外,解答正确、推理过程错误的情况也由14.0%下降到3.4%。
如果模型能够避免30%的问题,那么最终答案的错误率甚至可以达到2.7%。
研究小组的本论文的研究小组来自DeepMind,共同一作品有3人的Jonathan Uesato,Nate Kushman,Ramana Kumar。
Nate Kushman将于12月3日在NeurIPS2022举办的第二届MATH-AI研讨会上报告本文。有兴趣的人不妨蹲下看看。~
论文链接:https://arxiv.org/pdf/2211.14275.pdf