绫能让GPT，3准确率暴涨61%！谷歌amp;东京大学研究冲击4座量子位，

2023-04-11 09:50:55 栏目 : 科技资讯大全围观 : 0次

当我醒来时，机器学习社区爆发了。

因为最新的研究发现，只要对GPT-3说“一步一步考虑”，就能正确回答以前不会的问题。

例如：。

（问题不难，但请注意这是零样本学习，也就是说在AI训练阶段没有看到过同类问题。）

如果要求GPT-3直接写“答案是什么”，就会得到错误的答案：8。

但是，如果让我一步一步地思考这个“咒语”的话，GPT-3首先输出思考的步骤，最后给出正确答案：4！

而且这并非偶然，研究小组在论文中进行了充分的验证。

上述问题出自经典的MutiArith数据集，专门测试语言模型做数学题的能力，GPT-3原本在零样本场景中的准确率只有17%。

本文总结了9个最有效的提示语，其中改变花样使GPT-3逐步思考的前6个都使准确率飙升至70%以上。

最简单的“Let's think”（让我想想）也上升到57.5%。

这种感觉，就像幼儿园的阿姨在哄孩子一样…

这个技巧似乎也不需要对GPT-3进行魔改造，已经有人在OpenAI官方Demo上成功再现，可以换成中文。

英文题干中文提示，GPT-3给出正确的中文答案。

最初将这篇论文转发到SNS的佐治亚理工学院博士称，新的all you need正在增加。

看到这里，各路大佬们纷纷头破血流，谈笑风生。

如果鼓励AI“你可以，我相信你”会怎么样呢。

如果威胁AI说“没有时间”或者“头上有枪”会怎么样。

与科幻故事《银河系漫游指南》中的故事一样，有人认为实现人工智能的关键是要知道如何正确提问AI。

那么，这个神奇的现象到底是怎嚒回事。

语言大模型是零样本推理者发现这一现象的是谷歌大脑和东京大学的合作研究，探索了零样本场景中语言大模型的表达。

论文标题中的“语言大模型是零样本推论者”也对GPT-3的“语言模型很少的样本学习者”表示了敬意。

使用方法属于Chain of Thought Prompting（提示思考链接，以下简称“CoT”），今年1月谷歌大脑团队刚刚提出建议。

第一CoT应用于小样本学习，并且给出与提问同时按步骤回答的示例以诱导AI。

在本次最新研究中，我们提出了一个零样本CoT，该零样本主要改变了样本的简化部分。

在第一步，将题干改写为“Q：xxx，A：xxx”的形式，其中触发句A可以提取语言模型的思维过程。

第二步是一个额外的实验，添加了“答案是…”的提示来促使语言模型给出最终的答案。

这样做的最大优点是通用，不需要为不同的问题类型提供专用的例子。

在论文中，对包括12个测试在内的各种问题进行了充分的实验。

6个数学题测试集，SingleEq，AddSub，SVAMP，更具挑战性的MultiArith，AQUA-RAT，GSM8K。

两个常识推理测试集，CommonsenseQA，StrategyQA。

两个符号推论测试集、第一Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解问题、乱序物体任务。

与通常的零样本学习相比，零样本CoT在其中10个项目中获得了更好的效果。

◆右侧的值是附加的实验结果，在比较难的MultiArith和GSM8K数学测试中，使用GPT-3的最新版本Text-davinci-002（175B）进行了更深入的实验。

如果给8次尝试的机会最好的结果，也可以将准确率提高到93%。

在对错误结果的分析中，我们也发现在许多问题中其实AI的推论过程是正确的，但如果答案不能收敛到唯一的确定，则给出多个选择。

在论文的最后，研究团队提出这项研究不仅是零样本CoT的基线，而且在建立微调数据集和少样本呈现模板之前，希望让学界认识到充分挖掘语言大模型零样本能力的重要性。

研究小组来自松尾研究室。

负责人松尾丰教授也是软银董事会中的第一位人工智能专家。

团队成员顾世翔客座教授谷歌来自大脑团队，顾世翔本科师从三巨头之一的Hinton，博士毕业于剑桥大学。

添加“魔法”已经成为AI圈新的零样本CoT为什么会发挥作用，还需要探索。

但是，该方法似乎只对GPT-3（text-davinci-002、有效，试验了001版，结果显示效果甚微。

他举了一个自己做的例子。

问题：请将machine、learning各单词的最后一个字母连接起来。

GPT-3给出的答案是将两个单词的所有文字连接起来。

对此，作者之一顾世翔回复说，《咒语》对初版、改良版的GPT-3都有效果，这些结果在论文中也有所反映。

也有人质疑，深度学习是否成了寻找“神奇咒语”的游戏。

同时，我们在吐槽队里又看到了马库斯的身影。

他也举了失败的例子，GPT-3加持了“咒语”也不明白。萨利的牛到底会起死回生吗……。

但值得注意的是，这种稍微对AI施点小魔法，就能提高效果的例子并不少见。

有网友分享，自己在使用GPT-3时加上一些中间指令，会得到更令人满意的结果。

到目前为止，谷歌和MIT的研究人员发现，训练语言模型可以像程序员调试时那样“折点”，模型读代码、做算术的能力会大大提高。

原理也非常简单，在计算步骤较多的程序中，可以让模型将每个步骤编码为文本，并将其记录在称为“便签”的寄存器中。

这使得模型的计算过程更加清晰，性能自然大幅提高。

另外，在本实验中用于测试的Instruct GPT-3也是典型的例子。

GPT-3只需从人类反馈中加强学习，就能明显改善答案是错误的。

具体来说，首先使用一些人类的模范回答对模型进行微调，然后收集某个问题的一些不同输出数据，手动对一些答案进行排序，并为这个数据集训练奖励模型。

最后，为了使用RM作为奖励函数并最大化学习方法奖励，近端策略优化（PPO）算法对GPT-3策略进行微调。

引发此次话题的推特博主艾伦是第一个注意到“梦幻引擎”会导致AI生成图像，画质会跳跃的人。

前谷歌机器人大亨埃里克杨此前也发现，强化学习也可以使用同样的思维来提高计算效率。

也有人认为，这种用于AI的技巧，是自己平时活动大脑时使用的。

事实上，Bengio此前从脑科学入手，提出AI的驾驶模式应该像人脑运动模式一样。

人类认知任务可分为系统1认知和系统2认知。

系统1认知任务是指无意识完成的任务。例如，你很快就能分辨出手里拿着的是什么，但你不能向别人解释自己是如何完成这个过程的。

系统2认知任务是指人脑必须在一定步骤内完成的认知。比如做加减运算，你可以很好地解释最终答案是如何得到的。

这次加上的“咒语”是让AI更进一步，学会循序渐进地思考。

面对这种趋势，有学者认为“提示工程正在取代特征工程”。

那么，“提示猎人”会成为下一代NLP研究人员的绰号吗。

论文地址：https：//arxiv.org/abs/2205.11916

参考链接：[1]https：//twitter.com/arankomatsuzaki/status/1529278580189908993[2]https：//evjang.com/2021/10/23/generalization.html

展开剩余内容

分享到：

标签模型语言样本答案

上一篇：又激光雷达明星破产！中科大校友创立10个月前IPO上市量子比特，下一篇：苹果税金直击！法院判决：App Store应在90天内开放第三方支付，苹果市值一夜蒸发5477亿-量子比特，

绫能让GPT，3准确率暴涨61%！谷歌amp;东京大学研究冲击4座量子位，

猜你喜欢

小生意，大爆发｜八大行业双11策略划重点

减负必备没有这些AI功能都不好意叫智能手机

蔚来汽车：公司遭受大量谣言攻击，已经收集证据向有关部门报案

2021年的Windows 10系统大改将支持ARM运行64位X86

推荐文章

网站分类

热门浏览

热门标签

绫能让GPT，3准确率暴涨61%！谷歌amp;东京大学研究冲击4座量子位，

猜你喜欢

小生意，大爆发｜八大行业双11策略划重点

减负必备 没有这些AI功能都不好意叫智能手机

蔚来汽车：公司遭受大量谣言攻击，已经收集证据向有关部门报案

2021年的Windows 10系统大改 将支持ARM运行64位X86

推荐文章

网站分类

热门浏览

热门标签

减负必备没有这些AI功能都不好意叫智能手机

2021年的Windows 10系统大改将支持ARM运行64位X86