2023年,人工智能会带给我们什么?
·GPT-4到来,更多生成式人工智能应用程序开发出来,开源和去中心化的努力将继续增加,训练大型语言模型的数据要开始耗尽了,欧盟通过人工智能法案,搜索革命,普通民众将首次使用完全无人驾驶的汽车,为机器人技术建立基础模型。
2022年人工智能(AI)的进展快到让人喘不过气来,可能当你刚刚弄懂最新情况时,一篇新论文或新发现又会使你的理解过时。
7月,一名叫Blake Lemoine的谷歌工程师认为谷歌的对话语言模型LaMDA是有意识的,它应该享有与人类平等的权利。当月DeepMind宣布,其AlphaFold模型预测了地球上几乎每个具有测序基因组的生物体的几乎所有已知蛋白质结构。
OpenAI的DALL·E 2,Stable AI和CompVis的Stable Diffusion把人工智能生成内容(AIGC)变成了科技界最火热的缩写词。8月初,一位名叫Jason Allen的美国人在美术比赛中提交3张人工智能生成的图像,其中一件作品获得了数字艺术/数字摄影类别的最高奖项,引发了社交媒体上关于艺术本质以及成为艺术家意味着什么的激烈辩论。
用DALL-E绘制的骑马的宇航员。
到了年终,全世界为OpenAI的大型对话语言模型ChatGPT癫狂了。5天之内,超过100万用户注册使用ChatGPT,让它写诗、写代码,聊人生。
在这一年飞速发展的基础上,2023年的人工智能会有什么变化?监管是否会遏制住人工智能带来的问题?强大、变革性的新形式人工智能是否会出现,就像ChatGPT一样颠覆某个行业?
GPT-4到来
GPT-4是OpenAI强大的生成语言模型的下一代产品,预计将在新年伊始发布,相对于GPT-3和3.5来说性能会有巨大的变化。基于GPT-3.5开发的ChatGPT足以让世界疯狂,但仅仅是GPT-4发布的前奏而已。
GPT-4会是什么样子?也许不会比GPT-3大多少。在今年早些时候发表的一篇有影响力的研究论文中,DeepMind的研究人员确定,当今的大型语言模型实际上比它们应该有的规模要大,为了获得最佳的模型性能(考虑到有限的计算预算),今天的模型应该有更少的参数,但在更大的数据集上训练。换句话说,训练数据胜过模型大小。
GPT-4有可能是多模态的:也就是说,除了文本之外,它将能够处理图像、视频和其他数据模式。这将意味着,它可以将文本提示作为输入并产生图像,或者将视频作为输入并通过文本回答有关问题。
一个多模态的GPT-4将是一个重磅炸弹。然而,更有可能的是,GPT-4将是一个纯文本的模型,在语言任务上的表现重新定义技术水平。具体而言,这将是什么样子呢?GPT-4可能在两个语言领域表现出惊人的飞跃,即记忆(保留和参考以前对话中的信息的能力)和总结(将大量文本提炼为基本元素的能力)。
更多生成式人工智能应用程序
随着Prisma实验室的人工智能自拍应用Lensa的走红,我们可以期待很多类似的应用出现。
Mozilla基金会的高级政策研究员Maximilian Gahntz说,将生成式人工智能整合到消费者技术中会放大这种系统的影响,无论是好的还是坏的。例如,Stable Diffusion从互联网上获取了数十亿张图片,直到它学会将某些词语和概念与某些图像联系起来,但文本生成模型常常很容易被欺骗,以支持攻击性的观点或产生误导性的内容。
Knives and Paintbrushes开放研究小组的成员Mike Cook同意Gahntz的观点,即生成式人工智能将继续被证明是一种有问题的变革力量。但他认为,2023年是生成式人工智能最终开始谈钱的一年。
仅仅激励一个专家群体(创造新技术)是不够的。技术要想成为我们生活的长期组成部分,它必须让某人赚大钱,或者对普通大众的日常生活产生有意义的影响。Cook说,所以我预测,我们将看到一个切实的推动力,使生成式人工智能真正实现这两件事中的一件,并取得不同的成功。
8月初,一位名叫Jason Allen的美国人在美术比赛中提交3张人工智能生成的图像,其中一件作品获得了数字艺术/数字摄影类别的最高奖项。
开源和去中心化的努力将继续增加
2022年,少数人工智能公司主导了舞台,主要是OpenAI和Stability AI。但在2023年,随着构建新系统的能力超越资源丰富和强大的人工智能实验室,钟摆可能会向开源方向摆动。
Gahntz说,社区可能会导致对正在构建和部署的系统进行更多审查。如果模型是开放的,将使更多的关键研究成为可能,这些研究指出了与生成式人工智能有关的许多缺陷和危害。
这种以社区为中心的例子包括EleutherAI和BigScience的大型语言模型。Stability AI也在资助一些社区,比如专注于音乐生成的Harmonai和生物技术实验集合 OpenBioML。
训练和运行复杂的人工智能模型仍然需要资金和专业知识,但随着开源工作的成熟,分散的计算可能会挑战传统的数据中心。
BigScience最近发布了开源的Petals项目,向实现分散开发迈出了一步。Petals让人们贡献他们的计算能力,以运行通常需要高端GPU或服务器的大型AI语言模型。
现代生成模型的训练和运行在计算上很昂贵。艾伦人工智能研究所(Allen Institute for AI)的高级研究科学家Chandra Bhagavatula说:粗略估计,ChatGPT每天的支出约为300万美元。为了使其在商业上可行并能更广泛地使用,解决这个问题将是很重要的。
然而,只要方法和数据仍然是专有的,那么大型实验室将继续拥有竞争优势。最近,OpenAI发布了Point-E,一个可以在文字提示下生成3D物体的模型。虽然OpenAI开源了这个模型,但没有披露Point-E的训练数据的来源,也没有发布这些数据。
最近,OpenAI发布了Point-E,一个可以在文字提示下生成3D物体的模型。
训练大型语言模型的数据要开始耗尽了
说数据是新的石油已经成为一种陈词滥调。这个比喻是恰当的:这两种资源都是有限的,都有被耗尽的风险。这种担忧最迫切的人工智能领域是语言模型。
正如前面所说,建立更强大的大型语言模型的最有效方法不是让它们更大,而是在更多的数据上训练它们。但世界上还有多少语言数据呢?更确切地说,还有多少语言数据能达到可接受的质量门槛?互联网上的许多文本数据对训练大型语言模型来说是没有用的。
这是一个具有挑战性的问题,根据一个研究小组的说法,世界上高质量文本数据的总存量在4.6万亿至17.2万亿个符号之间,这包括世界上所有的书籍、科学论文、新闻文章、维基百科、公开代码,以及互联网的大部分其他内容,经过质量过滤后的数据。
换句话说,我们可能会在一个数量级内耗尽世界上所有有用的语言训练数据供应。这可能是对语言人工智能持续进步的一个重大障碍。私下里,许多领先的人工智能研究人员和企业家都担心这个问题。
随着研究人员寻求解决迫在眉睫的数据短缺问题,预计明年将在这一领域看到大量的关注和活动。一个可能的解决方案是合成数据,尽管关于如何操作的细节还很不清楚。另一个想法是:系统地转录全世界的口语内容。
欧盟的人工智能法案
人工智能技术正在迅速发展,监管也在迅速发展。虽然美国已经通过了各种基于州的人工智能相关法案,但大家期待的是更大的政府监管——以欧盟人工智能法案的形式。12月6日,欧盟人工智能法案向成为法律迈进了一步,欧盟理事会通过对法案草案的修正案,为欧洲议会最终确定其共同立场打开了大门。
欧盟人工智能法案是第一批关于人工智能的广泛监管框架之一,预计将在2023年成为法律,可能会改变公司开发和部署人工智能系统的方式。
像美国纽约市的人工智能招聘法规这样的地方性法规也会带来改变,该法规要求用于招聘、雇用或晋升的人工智能和基于算法的技术在使用前要进行偏见审计。
不过,在任何人被罚款或指控之前,预计会有更多关于规则和法庭案件的争论。企业仍可能在即将出台的法律中争夺有利地位,比如人工智能法案的风险类别。
目前的规则将人工智能系统划分为四个风险类别,每个类别都有不同的要求和审查水平。最高风险类别的系统,即高风险人工智能(如信用评分算法、机器人手术应用程序),必须满足某些法律、道德和技术标准,才允许进入欧洲市场。风险最低的类别,即最低或无风险的人工智能(如垃圾邮件过滤器,人工智能视频游戏),只规定了透明度义务,如让用户知道他们正在与人工智能系统互动。
有些企业会希望进入最低的风险类别,以减少自己的责任和对监管机构的可见度。
搜索革命
上周有媒体报道,谷歌内部针对ChatGPT发出红色代码。而在12月中旬,You.com宣布已经向生成式人工智能应用开放了其搜索平台。然后在圣诞节前夕,You.com首次推出YouChat,称之为带有引文和实时数据的对话式人工智能,就在你的搜索栏里。
这一切加起来,可能是2023年搜索领域的一场真正的战斗。谷歌每天处理数十亿次搜索,所以它不会很快消失。但也许ChatGPT甚至You.com将开启围绕人工智能和搜索未来的新的、富有想象力的思考。
搜索是人们浏览和获取数字信息的主要手段,是现代互联网体验的核心。在ChatGPT之后,对话式搜索的概念得到了广泛关注。如果你能与人工智能代理进行动态对话,以找到要找的东西,为什么要输入一个查询并得到一长串链接?
对话式搜索有一个光明的未来。不过,在它准备好进入黄金时段之前,需要解决一个主要挑战:准确性。目前,它们偶尔会完全自信地分享与事实不符的信息。OpenAI首席执行官Sam Altman最近警告说:现在依靠ChatGPT做任何重要的事情都是一个错误。大多数用户不会接受一个95%甚至99%时间都准确的搜索应用,以可扩展和更强大的方式解决这个问题,将是搜索创新者在2023年面临的主要挑战之一。
除了You.com,Character.AI、Metaphor和Perplexity是一波有前途的年轻初创公司,它们希望与谷歌对抗,用大型语言模型和对话界面重塑消费者搜索。
但消费者搜索并不是大型语言模型将改变的唯一类型的搜索。企业搜索也同样处于一个新的黄金时代的边缘。像Hebbia和Glean这样的初创公司正在引领使用大型语言模型改造企业搜索的潮流。
下一代搜索的机会也已经超出了文本范围。人工智能的最新进展为多模态搜索开辟了全新的可能性:即跨数据模态查询和检索信息的能力。
鉴于视频占了互联网上所有数据的80%,没有任何一种模式比视频代表着更大的机会。想象一下,能够毫不费力地精确搜索视频中的某个特定时刻、人、概念或行动。
自谷歌在互联网时代崛起以来,搜索的变化出乎意料的小。明年,由于大型语言模型的出现,这将开始发生巨大的变化。
普通民众将首次使用完全无人驾驶的汽车
在自动驾驶汽车领域经过多年不成熟的炒作和未实现的承诺之后,最近发生了一些事情,但似乎很少有人注意到:真正的无人驾驶汽车已经到来。
如果你在旧金山,你可以下载Cruise应用程序,叫一辆无人驾驶的汽车,把你从A点送到B点。Cruise目前只在夜间(晚上10点到凌晨5点半)提供这些无人驾驶服务,但该公司预计几周内将在整个旧金山提供全天候的服务。Cruise的竞争对手Waymo紧随其后。
Cruise的夜间无人驾驶出租车服务。
2023年,机器人出租车服务将迅速从一个迷人的新奇事物过渡到一个可行、方便、甚至平凡的城市交通方式。道路上的机器人出租车的数量和用户人数将激增。简而言之,自动驾驶汽车即将进入其商业化和规模化阶段。
除了旧金山之外,预计明年至少还有两个美国城市将向公众提供完全的无人驾驶服务。可能的候选地点包括凤凰城、奥斯汀、拉斯维加斯和迈阿密。
为机器人技术建立基础模型
斯坦福大学一个研究小组去年提出的基础模型一词,是指在广泛的数据上训练出来的大规模人工智能模型,它不是为某一特定任务而建立的,而是可以在广泛的不同活动中有效地执行。
基础模型一直是人工智能的关键驱动力。今天的基础模型强大得令人惊叹,但是无论它们是像GPT-3这样的文本生成模型,还是像Stable Diffusion这样的文本到图像模型,或者像Adept这样的计算机行动模型,都只在数字领域运作。
在现实世界中行动的人工智能系统,例如自动驾驶汽车、仓库机器人、无人机、人形机器人,到目前为止仍然大多没有被新的基础模型范式所触及。
这种情况将在2023年改变。预计关于机器人基础模型的早期开创性工作将来自世界领先的人工智能研究机构:DeepMind、谷歌大脑或者OpenAI。
为机器人建立一个基础模型,换句话说,为物理世界建立一个基础模型,意味着什么?这样的模型可能会在来自不同传感器模式(如相机、雷达、激光雷达)的大量数据上进行训练,以发展对物理学和现实世界物体的普遍理解:不同的物体如何移动,如何相互作用,它们有多重、多脆弱、多柔软或多灵活,当你触摸、掉落或投掷它们时会发生什么。这种现实世界的基础模型可以针对特定的硬件平台和下游活动进行微调。
参考资料:
https://arstechnica.com/information-technology/2022/12/please-slow-down-the-7-biggest-ai-stories-of-2022/
https://techcrunch.com/2022/12/26/what-to-expect-from-ai-in-2023/?guccounter=1
https://venturebeat.com/ai/the-5-top-ai-stories-im-waiting-for-in-2023-the-ai-beat/
https://www.forbes.com/sites/robtoews/2022/12/20/10-ai-predictions-for-2023/?sh=4de34f18fab7
-
上一篇
来源丨新眸投研组出品
编辑|桑明强
受ChatGPT影响,今年AIGC赛道依旧火热。它指的是利用人工智能技术生成内容,AIGC也被认为是继UGC、PGC后一种新型内容生产方式。
流行的原因有很多因素,除了生成逼真图像、视频和文本的能力,用更高效的方式生成创意内容,AIGC在办公、娱乐、医疗、金融等领域都有着不小的潜力,去年刚兴起的AIGC浪潮,一度让不少业内人士认为,它的出现,将掀起一场革命性科技浪潮。
过去几年里,生成式人工智能的普及率一直在稳步增长,并且这种趋势很可能会持续下去。原因在于,就像前面说的,数据和计算能力的可用性不断提高,人们对更高效、更有效的方式来生成创意内容的需求等因素,正在推动生成型人工智能的普及。
作为一个快速发展的领域,研究人员和工程师正在努力推进这项技术,新的突破不断出现。由于AIGC目前的主要目标是通过学习数据分布的规律,进一步细分包括图像、视频、音频等生成,以及自然语言生成,比如生成文本或像搜索引擎一样通过信息整合提供对话、问答。
除此以外,AIGC还能够作为自动编码器,或者基于对抗学习,让机器学会生成与真实数据相似的样本,这项技术也已经被广泛运用到图像、音频和文本等领域。
如今已经有多家公司基于这项技术做出了重大贡献,包括OpenAI、谷歌、NVIDIA、微软和Facebook等,国内的互联网公司中,百度上线了中文版的AI绘画工具文心一格,阿里巴巴、京东等拥有海量数据的大厂也在陆续入局:
当然,还有许多初创公司正在开发生成型人工智能的创新应用,这里举一些例子:
市场的火热,让包括a16z、梯度风险投资、科斯拉风险投资公司、软银、红杉等知名投资机构纷纷入局。去年10月,Stable Diffusion背后的Stability AI宣布获得1.01亿美元来自Coatue和光速的投资,投后估值攀升至10亿美元。相关领域的其他多家公司获得了大量融资,比如:
总的来看,这些公司成功的因素都有一些共性特征,包括获取大量高质量数据、在人工智能和机器学习方面的强大技术专长,以及为一系列行业和用例开发用户友好且有效的应用程序的能力。此外,还有保持对道德考虑和负责任地使用技术,每一个参与者都需要重视的是长期价值。
丨Open AI:呼声最高的重量级选手
ChatGPT火爆全球,让open AI成为AIGC领域中估值最高的一家公司。追溯到这家公司创始人,20岁的山姆·阿尔特曼从斯坦福辍学创业,28岁晋升为YC孵化器总裁,37岁凭借ChatGPT被外界看作具备划时代的意义。
自从今年1月底,微软宣布对Open AI追加第三轮投资,数额或高达一百亿美元,Open AI的身价已经飙升到290亿美元。据了解,上线5天的ChatGPT,用户数就突破百万,2个月MAU破1亿,也意味着更高的服务器带宽成本。
微软为了在AI领域和Google、Meta等对手竞争,Azure被推向前台,作为Open AI的独家供应商,提供了多项优惠待遇。但即便如此,Open AI还没赚到过钱。ChatGPT和旗下其他AIGC产品都处于免费公测阶段,目前仅有卖AI软件赚的千万美元营收。
举个简单例子,微软对单个100 GPU的收费是每小时3美元,生成一个单词的费用约为0.0003美元,摩根士丹利甚至认为,ChatGPT一次回复可能会花掉2美分,大约是谷歌搜索查询平均成本的7倍。
这种情况下,Open AI亟须找到商业化路径来实现盈利,比如近期官宣了专业版本ChatGPT Pro,定价将为每月每月42美元(约285人民币)。同时,微软还计划将ChatGPT整合进旗下搜索引擎Bing中,Office产品也将陆续整合Open AI的其他AIGC产品。
微软投资OpenAI的逻辑也很好理解,生成式AI的大量资金最终往往都流向了基础设施层——以AWS、Azure、GCP为主的云厂商,以及以英伟达为代表的GPU厂商。应用层厂商将大约20%~40%的收入用于推理和模型微调。
据A16Z估计,这部分收入通常直接支付给云厂商或第三方模型提供商,第三方模型提供商也会将大约一半的收入用于云基础设施。因此,总的来看生成式AI总收入的10%~20%都流向了云提供商。
根据《财富》报道,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润直到收回投资成本;当OpenAI赚取920亿美元的利润后,微软的份额将降至49%。简单来说,OpenAI把公司借给微软,借多久取决于OpenAI赚钱的速度。老牌巨头与科技新星的强强联手,微软希望在下一个AI十年向谷歌及其他科技巨头发起挑战。
丨Anthropic:含着金钥匙出生的新生代选手
很多人觉得ChatGPT会颠覆搜索引擎,微软宣布旗下所有产品将全线整合ChatGPT之后,谷歌也开始开发自家的对话模型。
去年底,AIGC火的时候,谷歌的云部门向AI初创公司Anthropic投资了约3亿美元,获得10%的股份,Anthropic的最新估值逼近50亿美元,成了仅次于OpenAI的领域独角兽。
在此之前,2021年,Anthropic获1.24亿美元A轮融资,2022年获加密货币交易所FTX创始人Bankman-Fried领投的5.8亿美元融资,两轮融资后估值已达40亿美元。
据媒体透露,Anthropic打造的一款ChatGPT产品已经处于测试阶段。谷歌为了追赶微软,打算将Anthropic的数据密集型计算工作引入数据中心。相似的味道出现了,Anthropic近日宣布谷歌云作为首选云提供商,共同开发AI计算系统。这不能不令人联想起三年前,微软向OpenAI注资10亿美元,成为OpenAI的独家云提供商。
Anthropic和ChatGPT开发公司OpenAI关系暧昧,前者的创始人大部分都是从OpenAI离职的的几位高管:2020年底,OpenAI的早期员工Dario Amodei带着10名员工加入硅谷叛徒俱乐部,拿着1.24亿美元创办Anthropic。
目前正在开发通用人工智能聊天机器人Claude,Anthropic 将拿着这笔新融资继续计算密集型研究,来开发可操控、可解释且稳健的大规模人工智能系统,与此同时,谷歌云部门将提供计算能力和先进的人工智能芯片,Anthropic 计划使用这些芯片来训练和部署其未来的人工智能产品。
丨Hugging face:主打社区的成长型选手
Hugging Face是一家非常活跃的人工智能创业公司,早期凭借 Transformers 模型库和非常强大且活跃的人工智能社区被业内外关注。
创始人Clément Delangue来自法国,从17岁开始连续创业,又折腾过好几个创业公司。Hugging Face最开始的方向是对话机器人,从Betaworks和杜兰特等拿到天使融资,但项目并没有多大起色。
2018年,谷歌发布基于transformer机器学习方法的自然语言处理预训练模型BERT,标志人工智能你如了大炼模型参数的预训练模型。之后他们为了训练机器人的NLP能力,开发了一个部署机器学习模型的底层库,并在GitHub 上开源,赶上Transformer这波潮流,一下子就火了。
就像存放Git repo的地方叫Github,在 Hugging Face Hub,可以找到上万个已经训练好的模型,用户可以在 Hugging Face上托管和共享ML模型、数据集,也可以自己搭建部署新的模型。
全球AIGC明星公司大盘点:谁会成为头号玩家?
-
下一篇
马云回国后谈ChatGPT,AIGC概念热度飙升
文/福布斯中国