院士谈AI大模型:“不是喊口号那么容易”,目前数据量“不解渴”
南方财经全媒体见习马嘉璐 南沙报道
人工智能发展正在驶入快车道。面对ChatGPT,我们如何发展自己的人工智能大模型?5月22日,2023大湾区科学论坛人工智能分论坛——第四届广东人工智能发展论坛暨2023新一代人工智能院士论坛在广州南沙举办,以智创大引擎,赋能新未来为主题,邀请各领域院士、行业专家围绕大数据、大算力和大模型等内容进行深入探讨。
要想做大模型,不是说拍拍脑袋、喊个口号那么容易,需要有算力,是有几十亿、上百亿的投入才能做出点像样的东西。中国工程院院士、鹏城实验室主任高文表示,目前我国的人工智能大模型在算力、算法、数据方面不同程度地面临挑战,需要逐个击破。希望能够进一步发挥数据的价值,融合算力、算法,使大模型性能更加优化。
中国科学院院士、深圳大学校长毛军发认为,ChatGPT既不是洪水猛兽,也不是灵丹妙药,应抓住机遇,借助ChatGPT的热潮使更多的人工智能项目落地。
2023大湾区科学论坛人工智能分论坛现场,中国工程院院士、鹏城实验室主任高文致辞
既不是洪水猛兽,也不是灵丹妙药
的确是百年一遇的技术变革。IEEE Fellow、广东省人工智能与机器人学会常务理事王孝宇长期在产业界深耕,他表示,这次通用人工智能表现出通用能力的突破,不管是对其他领域的技术,还是对整个产业的商业化,都带来非常深刻的变革影响,
在人工智能行业已工作三十余年的ACM/IEEE Fellow、腾讯首席科学家张正友坦陈自己看到ChatGPT确实感到震惊。他认为,ChatGPT带来的虽然不是互联网时代,但可以说是iPhone时代。ChatGPT确实展现出当前人工智能研究已经取得‘质’的进步,但还没到毁灭人类的地步。
张正友以计算器举例:在计算器被发明出来时,有人认为不再使用算盘会让人类的脑力下降,但实际上这种情况并没有发生。他认为,同样的,拥抱ChatGPT也可以使人类的能力再次得到质的飞跃。不过,张正友也指出,ChatGPT并不完美,一本正经胡说八道的问题仍待解决,此外还面临着算力成本高、多个模型竞争与协作等问题。最重要的是,GPT算法是否就是通往通用人工智能的唯一路径,仍然值得探讨。
IEEE Fellow、国际欧亚科学院院士、新一代人工智能产业技术创新战略联盟联合秘书长李世鹏分析,GPT的大规模参数,使其基础模型在零样本学习的情况下就能很好地工作,经过少数样本的监督学习就能有惊人的性能。非监督学习使它具有了一些初步的抽象能力,并进一步具有了归纳能力,即可以将类似属性的数据聚集在一起,尽管它本身并不知道到底是什么属性。通过提示训练,ChatGPT将这些属性打上能够被人类理解的标签,使它能够更好地理解人类意图,这也使其与用户的交互更智能、更准确,进而为进一步自我增强采集了更多的数据。基于完备的基础模型、人类的提示训练和初现的归纳能力,ChatGPT就可以生成很合理的答案框架。
中国工程院外籍院士、香港中文大学(深圳)副校长罗智泉也认为,人类的智慧可以集中体现在记忆、关联、举一反三和计算四个方面,ChatGPT目前在记忆、计算能力方面已经可以超越人类,又显示出一定的举一反三能力。但关键的是,ChatGPT不具备人类的原始创新能力,也就是从0到1。利用它可以使各行各业的人们的工作更加简化。同时,罗智泉也提醒到,ChatGPT将对社会产生很大冲击,尤其是带来的失业问题,应该提前部署应对。
此前,包括特斯拉 CEO 联合创始人埃隆·马斯克在内的企业家和学者发布公开信,呼吁全球所有AI实验室要暂停训练比GPT-4更强的系统六个月。对此,香港大学副校长(学术发展)、地球科学系全球可持续发展讲席教授、国际欧亚科学院院士宫鹏认为,ChatGPT的出现离不开人工智能行业几十年的积累,有其存在的客观规律,它的发展进程并不是少数人就可以改变的。而且,目前人类对ChatGPT是知其然而不知其所以然,仍然需要进一步研究。
ChatGPT既不是洪水猛兽,也不是灵丹妙药,要一分为二地来看待。毛军发总结道,ChatGPT掀起了人工智能的又一次高潮,我们应该抓出机遇,借助ChatGPT的热潮使更多的人工智能项目落地。
2023大湾区科学论坛人工智能分论坛现场
对大模型来说 数据量仍然不解渴
要想做大模型,不是说拍拍脑袋、喊个口号那么容易,需要有算力,是有几十亿、上百亿的投入才能做出点像样的东西。高文表示,目前我国的大模型在算力、算法、数据三个基本要素方面不同程度地面临挑战,需要逐个击破。
山东大学信息科学与工程学院教授、华为昇腾计算业务CTO周斌详细介绍道,大模型的系统工程围绕着从基础硬件到算法、算力、开发工具、调试调优、部署等一系列非常复杂的应用开发系统,每一环节都存在着大量的工程和技术挑战。他表示,希望有高质量的数据、高性能的计算平台以及更好的框架设计,来支撑大规模的训练和调优、支撑大规模并发系统的优化。
鹏城实验室作为国家战略科技力量的重要组成部分,建设了具有E级AI算力的鹏城云脑重大科技基础设施。高文透露,在算力方面,鹏城实验室已投入大量资源建设鹏城云脑II,并将投入更多用于建设鹏城云脑III,面向全社会提供大模型训练的算力底座。
得益于开源生态,算法几乎是公开的知识。高文指出,下一个需要攻克的,就是数据量不足的问题。目前企业可以通过公开渠道相对容易地购买数据,但仍然不解渴。此次论坛发布的鹏城·星云系统和鹏城·星方数据集,就是聚焦天文和遥感两大学科的科研云平台,希望用数据让AI更加聪明,从而更好地满足国际大科学计划和工程的需求。高文还介绍,鹏城实验室也将实施增强大模型技术平台计划,数据持有方能够通过数据在有限范围共享的方式对大模型进行微调适配,换取大模型的使用权益;鹏城通过使用更广泛的数据获得更普适的大模型,形成互利共赢。
数据到底有多重要、难在哪儿?鹏城实验室云脑使能研究所所长张伟进行了详细解释:数据之于大模型就像石油之于汽车,汽车是无法直接使用原油的,原油经过一系列复杂的过程炼化成汽油后,才能给汽车使用。同样的,海量原始数据需要经过炼化构建成数据集,这样才能真正有效地提供给大模型训练。
在不同专业领域,数据体现出不同方面的复杂性。广州大学天体物理中心副主任王锋面对的数据量是太多。他参与的目前世界最大的500米口径球面射电望远镜(FAST),每天处理的数据量与全国互联网一天产生的数据量相当;正在参与建设的平方公里阵列射电望远镜,每天处理的数据量将可能与全球互联网一天产生的数据量相当。
中山大学中山眼科中心副院长、广东省近视防空专家指导委员会主任委员卓业鸿面对的数据量则是太少。卓业鸿说,病例数据存在共性,但更多是个性化的,难以用同一个标准去统一。一方面,是因为每个病人的情况都不尽相同,又会分散到不同科室;另一方面,每位医生的记录习惯也有所不同,更重要的是,不同医院不同检测设备的数据质量参差不齐。这就造成了在医疗领域能够实际用于大模型训练的数据并不多,需要进行特殊的炼化。
以前,这个炼化过程基本是依靠人工清洗、标注等来完成的,成本高且效率有限。张伟透露,鹏城实验室正在尝试构建一整套数据加工的能力,将数据和算力、算法真正融通,在多领域形成系统性的研究能力。
大湾区人工智能布局应顶天立地
作为全国高精尖企业和人才的聚集地,粤港澳大湾区高规格谋划了人工智能的产业和技术布局。数据显示,2022年广东省人工智能企业已超过1500家,人工智能核心产业规模突破1500亿元,带动相关产业产值近万亿元,位列全国第一梯队。
张伟认为,粤港澳大湾区具备人才优势,不仅聚集国内人才,也在逐渐吸引国际人才;大湾区还具有传统产业优势,可以为人工智能行业发展提供软硬件支持。在政策的大力扶持下,大湾区已经成为人工智能行业发展的沃土。
用一句老话来说,就是‘顶天立地’。毛军发提醒,粤港澳大湾区在人工智能领域虽然具备明显优势,但也要清醒地认识到,很难面面俱到。因此,一方面要顶天,抓紧推动数据、算力、算法基础设施的构建;另一方面要立地,选准一些重点应用场景进行落地。
布局人工智能大模型,下一步应该怎么做?毛军发建议进一步加强开放,提高数据、算力和算法的泛用性、多元服务,让更多的用户能够方便地使用。罗智泉认为,算法不能仅仅停留在微调的层面,还是应该做原创,要把复杂度、成本降下来,使各项性能得到综合优化。李世鹏则强调,要以基础研究的创新引领产业发展。
一个大模型很难解决所有问题。张正友认为,如果多个大模型之间可以实现良好的协作,将会发挥出巨大威力。IEEE/IET Fellow、鹏城实验室副主任石光明表示,在鹏城实验室提供的算力、算法支持下,如果能够进一步发挥数据的价值,我国的人工智能大模型将有望迈上新的台阶。
更多内容请下载21财经APP
-
上一篇
世界第一!华为推出全球最快AI训练集群Atlas900:算力相当于50万台PC
9月18日,华为全联接2019(HUAWEICONNECT)大会上,华为副董事长胡厚崑发布了Atlas900AI训练集群。
-
下一篇
当地时间6月14日,在法国斯特拉斯堡举行的欧洲议会全体会议上,议员参加了关于《人工智能法案》的投票会议。
当地时间6月14日,欧盟《人工智能法案(AI Act)》朝着成为法律的方向迈出重要一步:欧洲议会投票通过了该法案,禁止实时面部识别,并对ChatGPT等生成式人工智能工具提出了新的透明度要求。
《人工智能法案》现在将进入欧盟启动监管前的最后阶段。官员们将尝试就这一法律草案与欧盟行政部门和成员国达成妥协,他们之间目前仍存分歧。如果该法案要在欧盟明年的选举前生效,则必须在明年1月完成立法程序。
这一刻非常重要。Access Now布鲁塞尔办事处专注于人工智能的高级政策分析师丹尼尔·鲁弗(Daniel Leufer)告诉《时代》,欧盟所说的对人权构成不可接受的风险将被视为全世界的蓝图。
欧盟批准的法律版本提出,任何应用于就业、边境管制和教育等高风险用例的人工智能都必须遵守一系列安全要求,包括风险评估、确保透明度和提交日志记录。该法案不会自动将ChatGPT等通用AI视为高风险,但对基础模型或经过大量数据训练的强大AI系统施加了透明度和风险评估要求。例如,基础模型的供应商,包括OpenAI、谷歌和微软,将被要求声明是否使用受版权保护的材料来训练AI。但是,没有类似的规定要求声明是否在训练期间使用了个人数据。
这些规则如何运作?
欧盟《人工智能法案》于2021年被首次提出,将适用于任何使用人工智能系统的产品或服务。
该法案根据4个级别的风险对人工智能系统进行分类,从最小到不可接受。风险较高的应用程序,例如招聘和针对儿童的技术将面临更严格要求,包括更加透明和使用准确的数据。
欧盟的主要目标之一是防范任何人工智能对健康和安全构成威胁,并保护基本权利和价值观。
这意味着某些AI用途是绝对禁止的,例如根据人们的行为来判断他们的社会评分系统,以及利用弱势群体(包括儿童)或使用可能导致伤害的操纵潜意识的AI,比如鼓励危险行为的交互式对话工具。用于预测谁犯罪的预测性警务工具也将被禁止。
此外,用于就业和教育等类别的人工智能系统会影响一个人的生活进程,将面临严格要求,例如对用户保持透明,并采取措施评估和减少算法带来的偏见风险。
欧洲议会批准《人工智能法案》,要求披露生成式AI训练数据版权
·基础模型的供应商将被要求声明是否使用受版权保护的材料来训练AI。对于谷歌和微软等科技公司,若违反规定,罚款可能高达数十亿美元。