阿里大模型“通义千问”今起邀请测试,我们和它聊了聊
界面新闻记者 | 佘晓晨
界面新闻编辑 |
继百度之后,阿里版的ChatGPT终于面世。4月7日,阿里云宣布,大模型通义千问开始邀请测试。阿里云方面表示,现阶段该模型主要定向邀请企业用户进行体验测试,用户可通过官网申请(tongyi.aliyun.com),符合条件的用户可参与体验。
拿到邀请码之后,界面新闻和通义千问聊了聊。
按照通义千问建议的提问方向(包含电影脚本、职场助理、撰写短文和写封邮件),我们先试了试实用的职场相关问题。
在请它告诉我用什么样的项目经历打动甲方时,它给出的回答是这样的:
尽管并没有给出令人惊喜的回答,但一位正在广告行业求职的朋友评价道:说的倒是都在理。
在类似的问题上,通义千问擅长用通用的梳理总结答案。
在分别问及如何在B站、抖音和小红书打造爆款内容时,大模型给出的回答大同小异,但根据不同平台的特性稍作了修改。
在提问了一个需要科学理论支撑的问题上,通义千问的回答似乎没能说服我。
关于夏天为什么不能下雪,在第一次的回答中,它既没有告诉我在某些地区夏天也可能下雪,也没有解释这种现象的原因。
在提问自动驾驶有哪些技术路线时,通义千问给出的回答也还不够准确。
到了文学创作的部分,通义千问想出的短片脚本不能说是无聊,只能说确实平淡。大模型仍需灵感缪斯。
继续询问艺术领域的问题时,通义千问的数据就有些过时了。提出最近有什么新上映的电影后,大模型给出的列表中出现了上映时间已经是去年的电影;细化问题进一步提问后,给出的答案依然出现了偏差。
我们还向通义千问抛出了一个问题:你是如何诞生的?在它的回答中,它的诞生经历了数据收集和预处理阶段、模型训练阶段、模型优化和升级阶段和功能和应用扩展阶段。
不过在问及何时诞生时,通义千问竟给出了2023年9月2日正式诞生的回答。
据了解,2020年1月,为解决手机淘宝推荐系统冷启动难题,阿里启动多模态大模型研发。2021年,阿里先后发布国内首个超百亿参数的多模态大模型M6及被称为中文版GPT-3的语言大模型PLUG,此后训练实现了全球首个10万亿参数AI模型;2022年9月,阿里发布通义大模型系列。
-
上一篇
当被问及什么时候开始被训练时,通义千问透露,它是在2016年被创造出来的,当时被训练成能够回答各种问题和提供帮助的人工智能语言模型。
但它似乎对自己在哪里被训练的有点说不太清。
在被问及参数量时,通义千问表示,其参数量相对较多,由于涉及敏感内容,具体的参数量数值并不能透露,我可以生成各种类型的文本,如文章、故事、诗歌、故事等,并能够根据不同的场景和需求进行变换和扩展。
市场反应方面,今日(4月7日)港股没有开盘。
不过A股的人工智能概念股,再度火热。ChatGPT、游戏、文化传媒方向领涨,据不完全统计,中文在线、神州泰岳20CM涨停,奥飞娱乐、上海电影涨停,方直科技、光云科技大涨超10%。
多角度测试,通义千问表现如何?
由于AI大模型擅长回答各种问题,观察者网也从多个角度对通义千问进行了测试。
比如,我们问它是否知道观察者网。通义千问表示,是的,我知道观察者网。观察者网是一家致力于提供新闻和信息的新闻门户网站,它提供了大量的国内外新闻和深度分析,并致力于推动社会进步和改变。
但通义千问好像并不能凭借简单指令生成商业宣传口号。
随后我们将话题转向体育领域。
被问道梅西在阿根廷国家队进了几个球,通义千问称,根据可靠的数据,梅西在阿根廷国家队的进球数量是很多的。不过由于具体的进球数量数值,可能会因为时间的推移而有所变化,通义千问婉拒了为我们提供准确答案的请求。
当被要求生成一张打篮球的图片,通义千问表示,作为文本AI模型,它没有能力生成图片。
这一点也证实了通义千问不具备多模态功能。
我们也让通义千问试图回答和自己其他大模型的能力对比问题。
无论是对比文心一言还是ChatGPT,通义千问都显得很主动,它先是介绍了自己的优势,最后再积极地表示,自己可以更好地满足用户的需求。
不过如果要求苛刻一点,不难发现,两个问题的答案有很多相似之处。
当被问及怎么看待现在大模型的火热?通义千问称,它认为大模型的火热是一个好现象,大模型可以帮助我们更好地理解世界,提高我们的工作效率,拓展我们的认知边界。但这也带来了一些问题,比如人工智能的伦理问题、隐私问题等。因此,我们需要认真思考如何在技术的发展中平衡安全、发展和责任。
这也验证了通义千问表达观点的功能。
最后的系列问题涵盖成语典故、诗词接龙、传统美食等,通义千问小小地翻车了几次。
例如它将东施效颦的东施,解释为美女,这不太符合不少人对这一典故的基本印象。在《庄子》等典籍中,对这个故事中东施一类的角色,描述也是其里之丑人。
在有关传统文化方面,通义千问没有正确给出停车坐爱枫林晚的下句。
对于曹操什么时候三顾茅庐的这样的坑,通义千问也未能识别提问者主动设置的陷阱。
与ChatGPT-4相比,通义千问表现如何?
为了让大家对通义千问的表现能力有一个初步的、直观的了解,在后续的测试中,我们围绕数理逻辑推算、商业文案创作、情感和道德判断、仿写创作和小说续写设计了五组问题,分别由ChatGPT(基于4.0模型)和通义千问进行回答。
这也让初生的通义千问直接硬刚世界上最先进的大模型GPT-4。
第一组是数学问题。
鸡、兔共有脚100只,若将鸡换成兔,兔换成鸡,则共有脚86只,鸡兔各有几只?
这道题目的正确答案是鸡有12只,兔有19只。
阿里云自研大模型“通义千问”亮相,我们进行了深度实测
【文/观察者网周毅编辑/吕栋】
-
下一篇
阿里版类ChatGPT上线,“通义千问”启动邀测
北京日报客户端|记者孙奇茹孙杰