AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型

2023-06-07 15:43 来源:中国网   阅读量:8562   

随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。

2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?

综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT

近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”。

“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。

全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集。

“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:

由伯克利加州大学等高校构建的多任务考试评测集MMLU;

微软研究院推出的学科考试评测集AGIEval;

由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;

以及由复旦大学研究团队构建的高考题目评测集Gaokao;

实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下。

“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。

虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度,在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。

四个综合性考试评测数据集结果

MMLU是由伯克利加州大学联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。

细分科目结果如下表所示。

AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。

这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval 。

下列表格中,带GK的是中国高考科目。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。

它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。

测试结果可以通过leaderboard获得。

Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。

在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。

分项评测:阅读理解、推理能力表现出色

为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。

结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。

知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B。

阅读理解方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。

中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。

多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA。

数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B与LLaMA-65B(得分为50.9和10.9)。

编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分,明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。

此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
福建南平石油:开展基层管理人员安全环保业务技
为了提升南平石油县片区安全环保管理能力,赋能基层管理队伍建设...更多>
中铁物贸轨道分公司开展2023年“全员百日健
为积极引导职工开展全民健身运动,进一步增强身体素质,6月2日...更多>
中国工程院院士邬贺铨:5G用户数占移动总用户
,在2023年中国国际信息通信展览会期间举办的“第四届5G千...更多>
摩托罗拉motorazr40Ultra折叠屏
,6月1日联想举行了motorazr40系列折叠屏手机新品发...更多>
荣耀MagicV2折叠屏手机通过3C认证:支
感谢IT之家网友华南吴彦祖、雨雪载途、雷碧、肖战割割的线索投...更多>
好莱坞编剧罢工潮持续,计划今日利用WWDC2
,据外媒9To5Mac报道,美国编剧工会正试图利用媒体对苹果...更多>
学生办证有夜间专场上海5项出入境便民措施来了
上海公安出入境管理部门今天召开发布会,通报恢复出入境证件办理...更多>
松下计划三年内将特斯拉内华达工厂电池扩产10
感谢IT之家网友肖战割割、西窗旧事的线索投递! ,松下集团...更多>
中建科工:坚持“以学促干”以高质量主题教育引
主题教育开展以来,总部在深央企中建科工坚持以学促干,将理论学...更多>
世行上调今年全球和中国经济增长预期
世界银行6日发布最新一期《全球经济展望》报告,预计2023年...更多>