AI解答数学题，答案在过程中错了吗DeepMind通过新研究的改良谷歌思考链方法量子比特，

2023-04-12 09:17:19 栏目 : 科技围观 : 0次

AI的数学题成绩又更新了！

众所周知，根据谷歌思维链（chain of thought）概念的提出，AI在解题时已经可以像人类一样生成解题步骤。

这次，来自DeepMind的科学家提出了解决问题的步骤和如何确保答案的双重正确率的切实问题。

为此，他们在GSM8K数据集上对基于过程和结果的监督方法进行了全面比较，并结合两者的优势训练了最优模型。

结果新模型的答错率由16.8%降至12.7%，答错步骤的错误率也由14.0%降至3.4%。

在介绍步骤+答案的双重保障新研究之前，必须提到今年1月论文中提出的思维链概念。

简而言之，思维链提示是一种特殊的上下文学习，它不同于标准提示，只是给出一个输入输出对的例子，思维链提示会添加一个推理的过程。

该方法在LaMDA-137B、GPT-3175B、PaLM-540B三种大型语言模型中得到验证：比较标准呈现，新方法在一系列算术推理等任务上的准确率有明显提高。

但这种方法存在一个问题，在某些情况下AI可以生成正确答案，但推理过程是错误的。

现在，DeepMind的研究者，不仅仅关注最终结果，也关注推论过程的正确性改善着。

为此，他们首次全面比较了自然语言处理任务中的过程和基于结果的方法。

具体包括以下不同的场景：。少样本提示、监督微调、专家反复强化学习、排序和强化学习奖励模式。

选择GSM8K数据集由小学数学应用题组成，答案均为整数解，便于准确性统计

第二，GSM8K数据集具有推理步骤的离线监测和在线手动显示。

从结果来看，第一，过程和基于结果的方法与最终答案的错误率基本一致。这意味着，仅仅通过对结果的监督就可以实现较低的答错率。

第二，推理步骤的精度的提高需要过程监督或模仿它的奖励模型。虽然最终的答错率相似，但从下图可以看出，结果监督（19.8%）明显高于过程监督（11.4%）的推理错误率。

此外，研究人员结合两者的优势，训练出了监督学习与基于奖励模式的强化学习相结合的最佳模式。

新模型的答错率由以前的最佳水平16.8%下降到12.7%，此外，解答正确、推理过程错误的情况也由14.0%下降到3.4%。

如果模型能够避免30%的问题，那么最终答案的错误率甚至可以达到2.7%。

研究小组的本论文的研究小组来自DeepMind，共同一作品有3人的Jonathan Uesato，Nate Kushman，Ramana Kumar。

Nate Kushman将于12月3日在NeurIPS2022举办的第二届MATH-AI研讨会上报告本文。有兴趣的人不妨蹲下看看。～

论文链接：https：//arxiv.org/pdf/2211.14275.pdf

展开剩余内容

分享到：

标签过程推理结果监督

上一篇：特斯拉；断网；被500名车主锁车外，最长5小时，故障波及全球，网友：有些东西不能通过网络-量子位，下一篇：长城汽车转换：不依赖高管钻探，不依赖业务采购的量子比特，

AI解答数学题，答案在过程中错了吗DeepMind通过新研究的改良谷歌思考链方法量子比特，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光网友直呼看不懂急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

AI解答数学题，答案在过程中错了吗DeepMind通过新研究的改良谷歌思考链方法量子比特，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光 网友直呼看不懂 急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备 没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

realme预热海报曝光网友直呼看不懂急需大侦探解密

减负必备没有这些AI功能都不好意叫智能手机