AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维

2022-12-06 10:07 来源:IT之家   阅读量:7638   

做AI数学题成绩又被刷新了!

AI解数学题,答案是对的过程却是错的?DeepMind新研究改进谷歌思维

众所周知,借助谷歌思维链的概念,AI已经能够像人类一样在做题时生成解题步骤。

这次来自DeepMind的科学家提出了一个实际问题:如何保证解题步骤和答案的双重准确性。

因此,他们在GSM8K数据集上综合比较了基于过程和基于结果的监测方法,并结合其优势训练出一个最优模型。

结果表明,新模型的错误率从16.8%降低到12.7%,求解步骤的错误率也从14.0%降低到3.4%。

步骤+回答双重保障

在介绍新的研究之前,不得不提Google在今年1月提出的思维链概念。

简单来说,思维链提示是一种特殊的情境学习与标准提示只给出输入输出对的例子不同,思维链提示会增加一个额外的推理过程

该方法已在LaMDA—137B,GPT—3 175B和PaLM—540B三个大型语言模型中得到验证与标准提示相比,新方法在一系列算术推理任务中的准确率有了明显提高

可是,这种方法的一个问题是,在某些情况下,AI可以生成正确的答案,但推理过程是错误的。

现在,来自DeepMind的研究人员对这一点进行了改进:他们不仅关注最终结果,还关注推理过程的准确性。

为此,他们首次对自然语言处理任务中基于过程和结果的方法进行了综合比较。

具体包括以下不同场景:小样本提示,有监督的微调,通过专家迭代的强化学习,重排序和强化学习的奖励模型。

之所以选择GSM8K数据集,是因为它由小学数学应用题组成,答案都是整数解,便于精确统计,

第二,GSM8K数据集有离线监督推理步骤和在线人工标注。

从结果来看,第一,基于过程的方法和基于结果的方法,最终答案的错误率几乎相同这也意味着,单靠结果监督,就足以做到答案的低错误率

其次,推理步骤准确性的提高需要过程监督或模仿其奖励模型虽然最终答案错误率差不多,但从下图可以看出,结果监督的推理错误率明显高于过程监督

此外,研究人员还结合了两者的优点,训练出了一个最优模型,即将监督学习和基于奖励模型的强化学习相结合。

新模型的错误回答率从之前最好的水平16.8%降低到12.7%,回答正确但推理过程错误的情况也从14.0%降低到3.4%。

当模型被允许回避30%的问题时,最终答案的错误率甚至可以达到2.7%。

研究团队

这篇论文的研究团队来自DeepMind,共有三位合著者:Jonathan Uesato,Nate Kushman和Ramana Kumar。

纸质链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
2023年,三翼鸟将整体布局3300+智慧生
作为智能家居赛道的先锋品牌,三翼鸟最近几天在深圳召开落地成果...更多>
加密货币交易所Bybit宣布再裁员30%
智财财经APP了解到,加密货币交易所Bybit联合创始人兼首...更多>
壮观!网友拍下神十四返回舱划过夜空似超级火流
据中国载人航天工程办公室消息,北京时间2022年12月4日2...更多>
发挥电化学储能保险作用为实现“双碳”目标贡献
发挥电化学储能保险的作用 最近几天发布的《电化学储能保...更多>
汉世新能源和国投等央企达成初步合作协议
在“十四五”规划中,明确为风电设定与碳中和国家战略相适应的发...更多>
民生证券维持中天科技推荐评级
民生证券7月18日发布研报称,维持中天科技推荐评级评级原因主...更多>
赵松来华夏人寿保险总经理任职资格获批
今日,银监会发布批复显示,核准赵松来华夏人寿保险股份有限公司...更多>
守护“钱塘味道”杭州钱塘品鉴会“烟火味”十足
"欢迎品尝我们的新饮料.""这是我们的绿色工作室,所以你可以...更多>
鑫海建元背景实力十分雄厚
2023年只剩下不到一个月的时间,随着各地防疫政策的松动,普...更多>
锦浪科技上半年盈利2.38亿同比翻番储能业务
长江商报消息长江商报记者汪静 靠逆变器起家的锦浪科技,...更多>