AI模型的训练数据用完了怎么办?研究团队提出三种应对措施

随着OpenAI推出ChatGPT以来,大型语言模型的开发已成为各大科技企业的兵家必争之地。
然而,根据Epoch调查团队的最新研究结果,用于训练大模型的高质量数据资源可能很快就会耗尽,到2026年之前通过增加训练数据量来改善大模型运行结果的趋势就会放缓。
众所周知,机器学习(ML)模型可以通过增加训练数据量来提高性能。然而简单地向模型提供更多数据并不总是最好的解决方案,在罕见事件或利基应用的情况下尤其如此。例如,如果我们想训练一个模型来检测一种罕见的疾病可能需要很多数据来工作。但是,随着时间的推移,我们会希望模型能力变得越来越强结果越来越精确,那就需要更多的数据进行训练。
Epoch调查团队对互联网上可用的数据(高质量数据包括维基百科等资源,低质量数据则包括来自社交媒体的数据)进行了调研分析,结果表明高质量数据很可能在2026年之前耗尽,低质量数据则可能在几十年后耗尽。
这表明,如果我们想阻止技术发展因为训练数据的减少而放缓的趋势,就需要开发出不完全依靠数据量来提升性能的机器学习模型。

扩展AI模型的局限性
扩展机器学习模型的最重大挑战之一是增加模型大小的收益递减,随着模型规模的不断增长,其性能提升变得微乎其微。这是因为模型变得越复杂,就越难优化,也就越容易过度拟合。此外,较大的模型需要更多的计算资源和时间来进行训练,这使得它们在实际应用中不太实用。
缩放模型的另一个重要限制是难以确保其鲁棒性和泛化性。鲁棒性是指模型在面对噪音或对抗性输入时仍能表现良好的能力。泛化性是指模型在训练期间未见过的数据上表现良好的能力。随着模型变得越来越复杂,它们变得更容易受到对抗性攻击,从而降低了它们的鲁棒性。此外,较大的模型会记住训练数据,而不是学习底层模式,从而导致泛化性较差。
可解释性和说明性对于理解模型如何进行预测至关重要。然而,随着模型变得越来越复杂,其内部工作方式变得越来越难以理解,从而使解释和说明其决策变得困难。这种缺乏透明度在医疗或金融等关键应用中可能带来很多问题,因为在这些领域决策过程必须是可解释和透明的。
构建机器学习模型的三种替代方法
克服这一问题的一个办法是重新考虑我们认为高质量和低质量的数据。根据南加州大学机器学习教授SwabhaSwayamdipta的说法,创建更多样化的训练数据集有助于克服这些局限性,同时又不会降低训练质量。此外,根据他的说法,在相同的数据上多次训练模型可以帮助降低成本和更有效地重用数据。
这些方法可以推迟问题的发生,但我们使用相同数据训练模型的次数越多,就越容易出现过度拟合。从长远来看,我们需要有效的策略来克服数据问题。
概率近似正确学习(JEPA)是YannLeCun提出的一种机器学习方法,它与传统方法的不同之处在于使用经验概率分布对数据进行建模和预测。
在传统方法中,模型的设计是为了将数学方程与数据进行拟合,通常基于对数据潜在分布的假设。然而,在JEPA中,该模型通过经验分布近似直接从数据中学习。这种方法包括把数据分成几个子集,然后估计每个子集的概率分布。然后,这些概率分布结合起来形成一个联合分布,用于做出预测。JEPA能够处理复杂的高维数据,并适应不断变化的数据模式。
另一种方法是使用数据增强技术,这些技术包括修改现有数据以创建新数据。这可以通过翻转、旋转、裁剪或向图像添加噪音来完成。数据增强技术可以减少过拟合,提高模型的性能。
最后,还可以使用迁移学习的方式。这包括使用预先训练好的模型并对其进行微调以适应新的任务。这可以节省时间和资源,因为模型已经从大型数据集中学到了有价值的特性。预先训练的模型可以使用少量数据进行微调,使其成为稀缺数据的良好解决方案。
目前来看,我们可以使用数据增强技术或迁移学习的方法来缓解数据量逐渐减少的问题,但这些方法并不能一劳永逸地解决问题。这就是为什么我们需要更多地考虑有哪些可以克服这一问题的更有效方式。
对于人类来说,仅仅通过观察少数几个例子就能学习到新的东西,或许有一天,我们会发明出能做到这一点的人工智能。
-
上一篇
IDC分析AI硬件支出在五年预测期内占比将超中国市场总规模的一半,AI硬件支出的背后是对极致算力的需求。
大模型的大体现在海量参数训练,海量参数意味着需要极致算力。大模型参数都是万亿级别,根据公开报道,GPT-3大模型参数量多达1750亿个,使用了3000亿单词,超过40T的数据进行训练。GPT-3训练所使用的算力系统,是由1万个V100 GPU组成的高性能集群,总算力消耗约3640PF/days,即假如每秒计算一千万亿次,需要计算3640天。
根据OpenAI公开发表的论文《Language Models are Few-Shot Learners》,模型越大参数越多,对算力的需求也更大。
图来源 OpenAI 2020年1月公开论文《Language Models are Few-Shot Learners》第9页
AI大模型爆发,算力服务成为云计算未来胜负手!
-
下一篇
AI作品生成模型共享中心
Civitai,是AI艺术作品生成社区唯一的模型共享中心,并且免费使用,开源,并不断改进,网站可以查看其他用户发布的ai训练生成模型和模型示例照片,对于普通用户可以当作查看作品的网站来使用,上面汇聚大量的ai艺术作品,非常赞。
不过如果需要查看所有艺术作品的话需要注册账号,这个超简单,可以用自己邮箱
一个免费的AI作品生成模型共享中心同时查看大神的AI图片作品,下载模型数据包