1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

中国工程院院士潘云鹤:ChatGPT有5点优势值得学习,AIGC一定不会只用于Chat

1987web2023-04-27人工智能AI298
每经记者:杨煜每经编辑:梁枭

每经记者:杨煜 每经编辑:梁枭

今日(4月8日),由中国人工智能学会主办的人工智能大模型技术高峰论坛主论坛在杭州萧山启幕。中国工程院院士、浙江大学教授、浙江大学原校长潘云鹤出席并演讲。

谈及当红辣子鸡ChatGPT,潘云鹤表示,ChatGPT的主要优势在于大数据、大知识、大模型、大用户的系统结合,以及有一个极佳的切入点,这五点非常需要我们学习。

但潘云鹤同时也指出,要看到GPT的深度和边界由数据与知识所限定;并且要关注ChatGPT背后的AIGC的研究与经济应用系统。AIGC一定不会只用于聊天、画画,而会转向更有价值的应用领域,建议及时布局。

不是每一个大模型都会很精彩 潘云鹤:ChatGPT有5点需要学习

ChatGPT的热度已不言自明:市场躁动,屡登热搜,媒体追逐……

ChatGPT缘何走红?潘云鹤认为,一方面,ChatGPT回答问题的水平之高出乎意料,而且在对话中很谦虚;另一方面,ChatGPT可能会动某些人的蛋糕,包括记者、编辑、作家等创作文字工作者,以及画家、篆刻家、作曲家、作词家等创造文化工作者。

此外,ChatGPT这么热还离不开精彩的企业运作与竞争。潘云鹤表示,OpenAI限时开放使用,造就了1亿人气;微软宣布用于Bing,并号称颠覆谷歌;谷歌宣布开发Bard,Meta推出LLaMA……

但很快,紧张与质疑的声音也纷至沓来,尤其是关于哪些职业将被ChatGPT替代的争论此起彼伏。对此,潘云鹤在接受《每日经济新闻》记者采访时表示,ChatGPT不是替代是助手,所以不要慌。比如,过去老板给你三个星期,要你写出一篇文章,但今后你用ChatGPT写,也许就只用给你三天了。

那么,见贤思齐,中外大模型的差距在哪里?

潘云鹤认为,ChatGPT有5点优势,我们非常需要学习。首先,博览群书,ChatGPT背后有巨大的语料库(45TB大数据)。我们经常讲中国也有很多大数据,中国的大数据由于各种原因很难聚集在一起,我们如果要把大模型做好,这是第一步。潘云鹤指出。

其次,出口成章。ChatGPT有快速的搜索与综合能力。第三,ChatGPT善于迭代提高,并且是在用户的使用反馈中学习,有1亿多大用户。第四,ChatGPT有大知识,按照共生则关联的原理,形成单词共生概率知识,实现了指定主题的语言自动合成。最后,ChatGPT有一个极佳的切入点,用自然语言交互,应用面极广。

潘云鹤直言,不是每一个大模型都会很精彩,要关注ChatGPT大数据、大知识、大模型、大用户的系统结合。

AIGC一定不会只用于Chat 潘云鹤:建议及时布局

另一方面,潘云鹤也指出,要看到GPT的局限和边界,即其由数据与知识所限定,由此也启示走向创新的新空间。ChatGPT这样的东西,我很赞成百度的李彦宏讲的,全国有一两家搞就行了,潘云鹤表示,我们要瞄准的是它没有到的那些地方。

潘云鹤认为,首先要瞄准的是跨媒体智能。人要完成创造与生成类的工作离不开跨媒体智能,即使如翻译类工作,将一首唐宋诗词翻译成外文,光靠文字语料没有情感与视觉知识的参与,也很难做得很好。跨媒体智能已经成为国内外一个非常重要的研究热点。

除了跨媒体智能以外,另一非常重要的方面是数据和知识共用。数据和知识共用可以解决人工智能效益不高、视野不广的问题。人在工作的时候不但使用数据,而且使用知识。数据是人的五官感知获得的,放在人的短期记忆中,而知识是放在人的长期记忆中。人在工作的时候,是短期记忆和长期记忆一起工作。所以这和跨媒体智能一样,是人工作的一个非常重要的智能行为。

此外,潘云鹤强调,还要关注ChatGPT背后的AIGC的研究与经济应用系统。

潘云鹤表示,AIGC一定不会只用于聊天、画画,而会转向更有价值的应用领域,建议及时布局。可能的应用领域包括:实体经济的AIGC,新产品、新流程、新药物的智能设计生成;文化艺术的AIGC,如广告、动漫、影视、绘画、音乐、儿童教育的智能内容生成;城乡发展的AIGC,如城市规划、美丽乡村、线上会议、生态推演等智能模拟生成。

封面图片来源:视频截图

每日经济新闻

导读同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。具体而言,RLHF阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对不同提示的理想回答数据微调LLM;第二步:LLM 为每个提示提供多个答案,然后由人工评估员对这些答案进行排名(该排名用于训练奖励模型);第三步:用近端策略优化(PPO)模型来优化LLM的奖励模型。此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。Natasha是Google Brain的高级研究科学家,OpenAI的不少工作引用了她所发表的与RLHF和对话模型相关的强化学习论文。在近期Robin Ranjit Singh Chauhan主持的TalkRL播客节目中,她从第三方视角,介绍了对RLHF及其奖励模型相关思路,以及对强化学习研究与AGI发展等方面的看法。Google Brain高级研究科学家Natasha在近期TalkRL播客节目里发表观点目前,她的研究重点是社交强化学习(Social Reinforcement Learning),开发结合来自社交学习和多智能体训练的见解的算法,以提高AI智能体的学习、泛化、协作以及人机交互能力。2024年1月,她将加入华盛顿大学计算机科学学院担任助理教授。(来源:https://www.talkrl.com/episodes/natasha-jaques-2)

(正文8279字,12-15分钟)

01RLHF相关研究与成本效益

Robin Chauhan:你很早就开始了人类反馈的强化学习(RLHF)以及对话模型这方面的类似研究,而且OpenAI发表的许多重要论文引用了你的研究成果。能否谈谈你的研究与OpenAI当前的研究和这些模型之间的联系?

Natasha Jaques:回到2016年,当时我正在思考如何利用预训练语言模型进行微调。具体来说,我关注的是LSTM模型,并尝试使用强化学习对其进行微调。那时,我关注的点不在语言本身,而是音乐生成和分子生成之类的方法,例如生成类似药物分子的方法。

在我看来,分子生成是一个很好的示例。我们可以基于已知分子数据集去训练一个监督模型,并生成新的分子,但是这些分子可能缺乏我们所需的特性,如易于合成药物。因此,我们还需要对分子的合成可及性(synthetic accessibility)进行评估。但仅依靠数据集训练是不够的,因为这样无法得到优化的分子。如果仅仅优化分子的合成可及性,也可能会生成一些无用的分子。

因此,我们需要对这两个方面进行评估和优化。对于这一问题,我们可以使用强化学习来优化药物相似性(drug likeness)或合成可及性,但由于数据存在缺陷,这种方法并不完美。

我们提出了一个解决方案:首先在数据集上进行预训练,然后再使用强化学习来优化某些奖励,同时最小化预训练策略与当前策略之间的KL散度。这种方法可以灵活地结合监督学习和强化学习,使用监督学习来获得数据集中的有用信息,同时使用强化学习来优化在数据分布空间内具有高回报的序列。可以看出,这与当前使用的RLHF方法密切相关。

在该技术中,我们首先在数据集上对大型语言模型进行预训练,然后通过人类反馈来优化模型,同时最小化优化模型与预训练先验模型之间的KL散度,这对于RLHF框架有重要意义。

同时,我也在研究从人类反馈中学习的RLHF方法。2019年前后,我们采用了同样的KL控制方法,即让对话模型尝试优化与人类交谈获得的信号,而非让人类评价对话的好坏,同时采用与OpenAI的RLHF算法不同的方式来实现偏好排序。

我们的目标是从与人类对话的隐含信号中学习,而非仅仅依靠人类的评价来进行优化。我们不需要人们额外提供反馈,而是通过分析文本的情感等隐含信号来为模型提供奖励信号。

例如,当对话中的人听起来普遍高兴时,我们就会将其视为正面奖励信号来训练模型。反之,当他们听起来沮丧或困惑时,可能是模型说了一些胡话,我们会将其视为负面奖励信号。因此,我们使用同样的技术来优化这些信号,以提高模型的表现。

Robin Chauhan:这听起来很像ChatGPT现在正在进行的工作。也许函数逼近器(function approximator)略有不同,或是获得反馈的方式有所不同,但从底层原理来看,它实际上基于RLHF。

Natasha Jaques:没错,不过也有一些关键区别。OpenAI采用了不同的方法来处理人类反馈,该方法与我们在2019年的论文中所使用的有所不同,区别在于他们训练了一个奖励模型。他们的方法是请一群人为两个输出评分,然后通过训练模型来逼近这些评分。实际上,早在OpenAI探索使用人类偏好进行深度强化学习研究时,就已经提出过这个想法。

相比之下,我在2019年的研究是关于离线强化学习(offline RL)。当时,我使用了特定输出的实际人类评分作为奖励样本进行训练,但缺乏一个通用的奖励模型。由于训练奖励模型的方法可以进行多次采样,实际上具有良好的可扩展性。

Robin Chauhan:OpenAI联合创始人和PPO算法发明者John Schulman致力于研究RLHF。他谈到ChatGPT的兄弟模型InstructGPT需要大量的人类反馈。此外,需要详细而冗长的评分说明来评估人类反馈,而获取这些人类反馈需要付出相当大的成本。这种成本会限制RLHF的应用吗?还是说成本并不重要,从回报来看完全值得?

Natasha Jaques:在InstructGPT之前,OpenAI就已经在摘要(summarization)方面进行了大量的研究。而在摘要研究中,能够有效运用RLHF的关键因素之一,是投入大量精力获取高质量的人类数据。

在OpenAI的一篇摘要研究论文中,他们采用了一种更好的评估者招募方法,研究人员与评估者共享Slack群组,并回答评估者的问题以确保评估者与研究人员保持一致。这样的投入显然是非常昂贵的。

值得一提的是,在InstructGPT可以看到一个现象:使用RLHF训练的13亿参数模型的表现要优于使用监督学习训练的1750亿参数模型。也就是说,只需使用RLHF,效果就可以赶超100倍大小的模型,而训练100倍大小的模型所需的计算成本相当昂贵。虽然OpenAI并未公开他们用于收集人类数据和训练巨型模型的具体花费金额,但不难发现,由于RLHF可以降低训练更大型号模型的成本,实际上可能更具成本效益。

Robin Chauhan:在我看来,他们通常使用基于on-policy的PPO(Proximal Policy Optimization)方法来处理数据集。这种方法无法重复使用数据,因为它们依赖于当前模型样本数据或非常接近模型的数据。如果对这些数据进行训练后,模型出现偏差,那么该数据集是否仍然有效?或者说该数据集是否可以用于训练其他模型?

Natasha Jaques:这些数据集并非是一次性的。奖励模型的训练过程实际类似于对文本摘要进行比较。这种比较的结果不仅仅取决于策略模型本身,更是一种较为客观普遍的结果,所以具有off-policy特性,可以重复的使用这些数据。