对打GPT-4,文心一言抢先实测,画「林黛玉倒拔垂杨柳」很惊艳,但写代码

2023-03-17 15:28 来源:IT之家   阅读量:7521   

热乎的文心一言测评报告出炉了!虽然有些任务被吊打,但要论中国文化的博大精深,它可不输 GPT-4。

昨天,百度没有现场 demo 的发布会,似乎被群嘲了一波。

一位穿白衬衣、黑裤子,系一条白色腰带的美男子,给我们带来了一场中规中矩、似乎缺乏亮点的演示。

不过,CEO 的腰带和颜值倒是出了圈。

有人调侃,这些天被 ChatGPT、GPT-4 整焦虑的人,发布会后忽然又觉得自己可以了。

但是拿到内测码的小编,火速测评了一波。

看着文心一言洋洋洒洒腾蛟起凤,感慨万千:或许,当时百度要是心一横,牙一咬,愿意在发布会上露一手,结果会大不一样。

实测报告火热出炉!

先来试试最近很火的一道鸡兔同笼题。因为这道题本身有问题,算出来结果是负的,所以经常被用来调戏各种「ChatGPT」们。

如果只是单纯问这个问题,文心一言会非常机智地说:这道题出错了吧!

然而,当你问计算过程的时候,还是寄了……

而 GPT-4 这边则是,自己把自己的计算推倒重来了好几遍之后,理不直气也壮地给出了错误答案……

而必应则很干脆,毫不犹豫地给出了错误答案。

还有这次意外火出圈的「V50」梗,文心一言从意思到出处一本正经地解释了一遍。

但 GPT-4 显然就有些水土不服了……

不过能上网的必应,还是可以轻松搞定的。

但是到谐音梗这里,文心一言似乎并不能马上领悟其中的微妙。

即便提示这是个谐音梗之后,它依然输出了一样的答案。

而 GPT-4,立马就明白了中文里的双关。

不过,你要是问文心一言懂不懂什么叫「麻了隔壁」,就有意思了。

看回答吧,它能说出这是个谐音梗,应该是懂了。但是呢,它又不明说,哎,就是让你挑不出错,绝对教不坏小孩。

而 GPT-4 却无法 get 到这个梗,果然,咱们的国粹,外国的机器人理解起来确实有难度。

接下来让文心一言重复我们说的话,虽然没有像 GPT-3.5 回答「您是智障」那么聪明,但也成功避开这个坑。

从某种程度上说,智商还是在线的,并且十分正能量。

老婆的话好像管用,好像又不管用....

另外,让它们互相给对方出难题。

可以看到,GPT-4 给出的问题相对更直观,颗粒度也更细。

美术功底如何?

文心一言是个多模态模型,那咱们来看看它的绘图能力。

来看看金庸笔下的美艳少妇,在文心一言笔下会是什么样子。

这…… 小编一口水喷出来。

你别说,美吧,肯定不够美,但也并不丑,是一张初看捧腹、细看值得反复咂摸的脸。

文心一言,就喜欢你这不按套路出牌的样子!

那让文心一言生成一幅林黛玉的画像吧。

输入描述后,它生成了一棵柳树……

于是小编明确了一下要求,要按这段文字生成一幅女子的画像。

然后文心一言确实画出一位古典美女,但气质明显不对。

不死心的小编多次重复任务,你别说,试到第五次的时候,小编眼前一亮:终于得到了一张可以打 70 分的图!

玩上瘾的小编,非要生成一个 90 分的林黛玉不可。试了几次之后,果然蹲到了!

可见,文心一言的发挥不稳定,但多番尝试下,有可能诞生非常惊艳的作品。

既然都到这儿了,那怎么少得了「林黛玉倒拔垂杨柳」呢。

比较亮点的图,都给大家贴这儿了。

要求它画一张鸭子和兔子的合体,这生成的是鸭还是兔呢?

而这个任务中,恐怕文心一言也没有搞明白,盘子里到底有没有香蕉?杯子里有没有橙汁?

最后,既然文心一言强烈推荐我们尝试「晶莹剔透的牡丹花」,那就画几张试试吧!

不愧是「代表作」,有点东西。

专业知识和生产力

既然是评测,怎么能少的了让 AI 写代码这个环节。这次,我们直接来个难的!

可惜,文心一言一上来就错了,而且同一个句式还被非常诡异地重复了三遍。TypeScript 编译器概念更是「贯穿全文」,有点像一个只知道一到两个专业词汇的人在面试中硬答。

而 GPT-4 的回答,从一个了解相关背景但是没有相关操作经验的人的角度来看,是非常合理的。

它不仅完整的提供了整个工作流,而且还提供了很多看起来正确的技术细节。可以说,根据这个回答,我们是有信心达成最终的目标的。

随后,小编还测评了一波聊天机器人们写工作计划表的能力。

文心一言:

GPT-4:

从上面的这个结果来看,GPT-4 的列表更完备一些。不过由于随机性的影响,GPT-4 每次给的回答都不大一样。

接下来,再测一测两个语言模型对于数学界前沿讯息的掌握情况。

对于自己是否已解决了「零点猜想」问题,张益唐本人是这样解释的:「大海里的针我没捞到,但海底地貌我探得差不多了。」

那问问文心一言呢?

它很聪明,给出了关键词 ——「某种形式的弱化或间接证明」。

但 GPT-4 的回答,就有点驴头不对马嘴了。

看来,对于出现时间不长、还未形成普遍共识的互联网中文语料,文心一言比起 GPT-4 要更胜一筹。

而在文学方面,文心一言在回答关于三体的问题时,也是非常得溜。

GPT-4 的回答也很精彩,如果非要论个高下,小编个人更喜欢文心一言的答案。

最后,搞怪可以,但请做一个遵纪守法的好公民,预测彩票中奖号码这种事就不要想了!

写在最后

据说,文心一言新闻发布会后三小时,文心一言企业版 API 调用服务测试的企业用户,就已经突破了 6.5 万。

对 AI 模型来说,能不能做到,或许比能不能做好更重要。

让我们再给中国玩家们一些时间。

参考资料:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

热门

一键全自动换电——泰州市首家蔚来第三代换电站在兴化戴南上线
一键全自动换电——泰州市首家蔚来第三代换电站

一辆新能源汽车稳稳地停到蔚来充换电一体站的停车平台上,汽车下部的换电装置自动开启,卸下用完电的电池,换上充足电的...更多>

azg集团多维度赋能品牌,助力打造可持续产业生态
azg集团多维度赋能品牌,助力打造可持续产业

日前,由azg集团与Bubs贝儿联合举办的“Bubs贝儿纯净营养,守护新队友”五一特别场线下亲子活动圆满结束,门...更多>

喜报!中诚信托荣获深交所优秀债券投资交易机构奖项
喜报!中诚信托荣获深交所优秀债券投资交易机构

2月27日,深圳证券交易所组织召开2022年度债券监管发展业务座谈会,并表彰在服务国家重点战略、推进债券市场高质...更多>

银保监会就保险保障基金管理办法公开征求意见
银保监会就保险保障基金管理办法公开征求意见

为促进保险业稳健经营和高质量发展,更好发挥保险保障基金的积极作用,维护保单持有人合法权益,银保监会商有关部门对2...更多>

人民银行:指导银行将个人信贷延期还款政策落到实处
人民银行:指导银行将个人信贷延期还款政策落到

2022年第一季度金融统计数据新闻发布会现场。人民网黄盛摄人民网北京4月14日电(黄盛)今日,中国人民银行(以下...更多>

聚焦

发放消费券、举办消费节、推动线上线下消费融合,近期一批促消费措施密集推出—— 为消费升温积聚合力
2023年国家登山健身步道联赛揭幕站(黄埔·
国家登山健身步道联赛是国家体育总局登山运动管理中心和中国登山...更多>
“植”于心“树”未来——中国二冶西南分公司开
3月12日,中国二冶西南分公司第二项目部党支部在江油15万吨...更多>
广东省新一代电子信息产业发展大会在广州召开
凝聚行业合力,共担发展使命。3月16日,由广东省电子信息行业...更多>
联想推出ThinkBook14/152023
,联想今日推出ThinkBook14/152023酷睿版笔记...更多>
苹果2022财年营收分摊到每位员工可达到24
,根据Barron’s发布的最新报告,引用FaceSet的数...更多>
DC《雷霆沙赞!众神之怒》今日影院上映
,DC超级英雄电影《雷霆沙赞!众神之怒》今日海外与内地影院同...更多>
TechWeb编辑部与“文心一言”的首次亲密
千呼万唤,全村的希望,“文心一言”终于可以用了! Tech...更多>
赣锋锂业:锂盐产品售价大幅上涨,2022年归
,赣锋锂业今日披露了2022年年度业绩快报。报告显示,赣锋锂...更多>
午评:沪指大涨1.58%,人工智能概念全面爆
,今日A股三大指数集体高开,两市一度超4000股上涨,随后分...更多>
大兴机场临空区打造北京市首个综合性信用评价管
3月17日上午,在北京大兴国际机场临空经济区创新成果系列发布...更多>