欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

AI解答数学题,答案在过程中错了吗DeepMind通过新研究的改良谷歌思考链方法量子比特,

2023-04-12 09:17:19 栏目 : 科技 围观 : 0次

AI的数学题成绩又更新了!

众所周知,根据谷歌思维链(chain of thought)概念的提出,AI在解题时已经可以像人类一样生成解题步骤。

这次,来自DeepMind的科学家提出了解决问题的步骤和如何确保答案的双重正确率的切实问题。

为此,他们在GSM8K数据集上对基于过程和结果的监督方法进行了全面比较,并结合两者的优势训练了最优模型。

结果新模型的答错率由16.8%降至12.7%,答错步骤的错误率也由14.0%降至3.4%。

在介绍步骤+答案的双重保障新研究之前,必须提到今年1月论文中提出的思维链概念。

简而言之,思维链提示是一种特殊的上下文学习,它不同于标准提示,只是给出一个输入输出对的例子,思维链提示会添加一个推理的过程。

该方法在LaMDA-137B、GPT-3175B、PaLM-540B三种大型语言模型中得到验证:比较标准呈现,新方法在一系列算术推理等任务上的准确率有明显提高。

但这种方法存在一个问题,在某些情况下AI可以生成正确答案,但推理过程是错误的。

现在,DeepMind的研究者,不仅仅关注最终结果,也关注推论过程的正确性改善着。

为此,他们首次全面比较了自然语言处理任务中的过程和基于结果的方法。

具体包括以下不同的场景:。少样本提示、监督微调、专家反复强化学习、排序和强化学习奖励模式。

选择GSM8K数据集由小学数学应用题组成,答案均为整数解,便于准确性统计

第二,GSM8K数据集具有推理步骤的离线监测和在线手动显示。

从结果来看,第一,过程和基于结果的方法与最终答案的错误率基本一致。这意味着,仅仅通过对结果的监督就可以实现较低的答错率。

第二,推理步骤的精度的提高需要过程监督或模仿它的奖励模型。虽然最终的答错率相似,但从下图可以看出,结果监督(19.8%)明显高于过程监督(11.4%)的推理错误率。

此外,研究人员结合两者的优势,训练出了监督学习与基于奖励模式的强化学习相结合的最佳模式。

新模型的答错率由以前的最佳水平16.8%下降到12.7%,此外,解答正确、推理过程错误的情况也由14.0%下降到3.4%。

如果模型能够避免30%的问题,那么最终答案的错误率甚至可以达到2.7%。

研究小组的本论文的研究小组来自DeepMind,共同一作品有3人的Jonathan Uesato,Nate Kushman,Ramana Kumar。

Nate Kushman将于12月3日在NeurIPS2022举办的第二届MATH-AI研讨会上报告本文。有兴趣的人不妨蹲下看看。~

论文链接:https://arxiv.org/pdf/2211.14275.pdf

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签