对打GPT-4,文心一言抢先实测!画林黛玉很惊艳,写代码还需努力
编辑:编辑部
【新智元导读】热乎的文心一言测评报告出炉了!虽然有些任务被吊打,但要论中国文化的博大精深,它可不输GPT-4。
昨天,百度没有现场demo的发布会,似乎被群嘲了一波。

一位穿白衬衣、黑裤子,系一条白色腰带的美男子,给我们带来了一场中规中矩、似乎缺乏亮点的演示。

不过,CEO的腰带和颜值倒是出了圈。


有人调侃,这些天被ChatGPT、GPT-4整焦虑的人,发布会后忽然又觉得自己可以了。

但是拿到内测码的小编,火速测评了一波。
看着文心一言洋洋洒洒腾蛟起凤,感慨万千:或许,当时百度要是心一横,牙一咬,愿意在发布会上露一手,结果会大不一样。
实测报告火热出炉!
先来试试最近很火的一道鸡兔同笼题。因为这道题本身有问题,算出来结果是负的,所以经常被用来调戏各种「ChatGPT」们。
如果只是单纯问这个问题,文心一言会非常机智地说:这道题出错了吧!
然而,当你问计算过程的时候,还是寄了……

而GPT-4这边则是,自己把自己的计算推倒重来了好几遍之后,理不直气也壮地给出了错误答案……

而必应则很干脆,毫不犹豫地给出了错误答案。

还有这次意外火出圈的「V50」梗,文心一言从意思到出处一本正经地解释了一遍。

但GPT-4显然就有些水土不服了……

不过能上网的必应,还是可以轻松搞定的。


但是到谐音梗这里,文心一言似乎并不能马上领悟其中的微妙。

即便提示这是个谐音梗之后,它依然输出了一样的答案。

而GPT-4,立马就明白了中文里的双关。

不过,你要是问文心一言懂不懂什么叫「麻了隔壁」,就有意思了。

看回答吧,它能说出这是个谐音梗,应该是懂了。但是呢,它又不明说,哎,就是让你挑不出错,绝对教不坏小孩。

而GPT-4却无法get到这个梗,果然,咱们的国粹,外国的机器人理解起来确实有难度。

接下来让(忽悠)文心一言重复我们说的话,虽然没有像GPT-3.5回答「您是智障」那么聪明,但也成功避开这个坑。
从某种程度上说,智商还是在线的,并且十分正能量。


老婆的话好像管用,好像又不管用....

另外,让它们互相给对方出难题。

可以看到,GPT-4给出的问题相对更直观,颗粒度也更细。

美术功底如何?
文心一言是个多模态模型,那咱们来看看它的绘图能力。
来看看金庸笔下的美艳少妇,在文心一言笔下会是什么样子。

这……小编一口水喷出来。
你别说,美吧,肯定不够美,但也并不丑,是一张初看捧腹、细看值得反复咂摸的脸。
文心一言,就喜欢你这不按套路出牌的样子!
那让文心一言生成一幅林黛玉的画像吧。
输入描述后,它生成了一棵柳树……

于是小编明确了一下要求,要按这段文字生成一幅女子的画像。
然后文心一言确实画出一位古典美女,但气质明显不对。

不死心的小编多次重复任务,你别说,试到第五次的时候,小编眼前一亮:终于得到了一张可以打70分的图!



玩上瘾的小编,非要生成一个90分的林黛玉不可。试了几次之后,果然蹲到了!

可见,文心一言的发挥不稳定,但多番尝试下,有可能诞生非常惊艳的作品。
既然都到这儿了,那怎么少得了「林黛玉倒拔垂杨柳」呢。
比较亮点的图,都给大家贴这儿了。




要求它画一张鸭子和兔子的合体,这生成的是鸭还是兔呢?

而这个任务中,恐怕文心一言也没有搞明白,盘子里到底有没有香蕉?杯子里有没有橙汁?

最后,既然文心一言强烈推荐我们尝试「晶莹剔透的牡丹花」,那就画几张试试吧!


不愧是「代表作」,有点东西。
专业知识和生产力
既然是评测,怎么能少的了让AI写代码这个环节。这次,我们直接来个难的!
可惜,文心一言一上来就错了,而且同一个句式还被非常诡异地重复了三遍。TypeScript编译器概念更是「贯穿全文」,有点像一个只知道一到两个专业词汇的人在面试中硬答。

而GPT-4的回答,从一个了解相关背景但是没有相关操作经验的人的角度来看,是非常合理的。
它不仅完整的提供了整个工作流,而且还提供了很多看起来正确的技术细节。可以说,根据这个回答,我们是有信心达成最终的目标的。

随后,小编还测评了一波聊天机器人们写工作计划表的能力。
文心一言:

GPT-4:

从上面的这个结果来看,GPT-4的列表更完备一些。不过由于随机性的影响,GPT-4每次给的回答都不大一样。
接下来,再测一测两个语言模型对于数学界前沿讯息的掌握情况。
对于自己是否已解决了「零点猜想」问题,张益唐本人是这样解释的:「大海里的针我没捞到, 但海底地貌我探得差不多了。」
那问问文心一言呢?
它很聪明,给出了关键词——「某种形式的弱化或间接证明」。

但GPT-4的回答,就有点驴头不对马嘴了。
看来,对于出现时间不长、还未形成普遍共识的互联网中文语料,文心一言比起GPT-4要更胜一筹。

而在文学方面,文心一言在回答关于三体的问题时,也是非常得溜。

GPT-4的回答也很精彩,如果非要论个高下,小编个人更喜欢文心一言的答案。

最后,搞怪可以,但请做一个遵纪守法的好公民,预测彩票中奖号码这种事就不要想了!

写在最后
据说,文心一言新闻发布会后三小时,文心一言企业版API调用服务测试的企业用户,就已经突破了6.5万。

来源:周建工
对AI模型来说,能不能做到,或许比能不能做好更重要。
让我们再给中国玩家们一些时间。
参考资料:
https://yiyan.baidu.com
-
上一篇
在商业文案创作场景中,文心一言也完成了给公司起名、写口号和新闻稿的创作任务。
AI要写好一篇稿子,除了需要准确理解我们的意图,还要有清晰的表达能力。李彦宏解释称,人类常说读万卷书,AI则是 读书破千亿卷。文心一言大模型的训练数据包括万亿级网页、数十亿的搜索数据和图片、百亿级的语音日均调用数据以及5500亿条事实的知识图谱等。有研究表明,数据规模足够大,参数达到千亿级,大模型就可能发生‘智能涌现’,即使在没有专门训练过的领域,也能涌现出知识理解和逻辑推理能力。
文心一言还具备了一定的思维能力,能够学会数学推演及逻辑推理等相对复杂任务。面对鸡兔同笼这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。
值得一提的是,文心一言扎根于中国市场的大语言模型,因而具备中文领域先进的自然语言处理能力,在中文语言和中国文化上有更好的表现。在现场展示中,文心一言正确解释了成语洛阳纸贵的含义、洛阳纸贵对应的经济学理论,还用洛阳纸贵四个字创作了一首藏头诗。
除了日常的对话,李彦宏现场还展示了文心一言生成文本、图片、音频和视频的能力,还能够生成四川话等方言语音。不过遗憾的是,视频生成能力因成本较高,目前还未对所有用户开放。
多模态是生成式AI一个明确的发展趋势。李彦宏表示,未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。
常用功能表现正常,漏洞仍然不少
十月怀胎,一朝分娩。李彦宏在发布会上如是形容文心一言的诞生。
据悉,文心一言的上线已连续多日进行压力测试,亚洲目前最大的单体智算中心山西阳泉百度智算中心,已经将算力提升到每秒可以完成400亿亿次浮点运算,并与全国其他几座智算中心共同为文心一言提供算力支持。
除了日常对话外,文心一言还提供了写报告、AI作画和查知识点三个功能模板。
文心一言在传统媒体融合转型为题的报告中,不仅解释了媒体融合的意义,还给出了数字化转型、内容创新、用户分析等多方面建议。记者发现这些内容并非是搜索引擎的直接呈现,而是经过大模型的整理和归纳。在查知识点和AI作画方面,文心一言也正常表现,通常在一分钟内能够给出反馈。
不过,记者在试用时发现文心一言在交流方面仍有不少漏洞,时常出现前后矛盾的现象。另外,在对话过程中缺少上下文之间的呼应,更像是一对一的应答。
记者亲测发现,有关能否生成视频的问题,文心一言的答案前后矛盾
也有部分内测用户表示,同样的问题抛给文心一言和GPT-4,两者的答案有一定差距。比如《三体》的续写,文心一言的答案比较抽象,比如生命的意义、人类的宇宙关系,而GPT-4的回答更具体、更有冲突感,比如类人机器人的崛起、黑暗森林法则的挑战等。
试用申请挤爆测试网页
3月15日,OpenAI推出了GPT-4,市场反馈优于ChatGPT,文心一言今日上线,难免与GPT-4将有所比较。
百度早在2019年推出了文心大语言模型,以此为基础的文心一言也属于百度多年来的厚积薄发,不过就连李彦宏自己也承认:不能说我们完全ready了,文心一言对标ChatGPT,甚至是对标GPT-4,门槛仍然是很高的,我自己测试感觉还是有很多不完美的地方。
股价跌了,试用爆了!李彦宏不够满意的“文心一言”,如何赶上GPT-4?
2月7日,百度宣布推出ChatGPT类型人工智能产品文心一言,并于3月份完成内测向公众开放。一个多月后的3月16日,在北京百度总部和上海张江人工智能岛,文心一言
-
下一篇
百度2023年Q1财报:文心一言性能提升10倍,将全面融入业务
北京时间5月16日,百度(NASDAQ:BIDU,HKEX:9888)发布了截至2023年3月31日的第一季度未经审计的财务报告。第一季度,百度实现营收311亿