腾讯“混元”AI大模型首次亮相一举斩获跨模态检索榜单大满贯!
4月21日,腾讯对外正式宣布,腾讯混元AI大模型在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet 五大跨模态视频检索数据集榜单中先后取得第一名的成绩,实现了该领域的大满贯。
特别是在MSR-VTT榜单上,混元AI大模型将文字-视频检索精度提高到55%,领先第二名1.7%,位居行业第一。

图1:各模型方法在5个公开数据集上指标对比
据悉,这是腾讯首次对外披露混元AI大模型的研发进展,该模型包含但不限于:计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。混元AI大模型基于腾讯太极机器学习平台进行研发,借助GPU算力,实现快速的算法迭代和模型训练。
近年来,图文及视频内容在互联网内容中所占比例不断提高,如何更细粒度的理解视频内容,融合多个模态的特征信息,成为跨模态视频检索技术的重中之重,在AI领域有深入研究的科技公司纷纷开始在该领域布局和投入。
MSR-VTT、MSVD、 LSMDC、DiDeMo、ActivityNet是行业内最具权威性的五大跨模态视频检索数据集榜单,主办单位包括微软、加州大学伯克利、阿卜杜拉国王科技大学等,检索库涵盖了日常生活的诸多场景,已经成为科技企业和研究机构展现AI大模型技术实力的重要的竞技场之一。
经过多年研究,腾讯广告多媒体AI团队以层次化、细粒度、高精度为目标,提出了混元跨模态视频检索AI大模型(简称HunYuan_tvr)。与业界其他大模型相比,团队首创了层级化跨模态技术,可将视频和文本等跨模态数据分别做拆解,通过相似度分析,综合考量并提取视频和文本之间层次化的语义关联。

图2:HunYuan_tvr模型架构示意图
这种先分层、再关联、后检索的交互方法,一方面可捕捉多模态(文字、视频)内部的细粒度语义信息,另一方面也能有效地检索跨模态数据间的关联性,从而大大提升了检索的精确度。
精确度的大幅提升代表国内在多模态内容理解方面的技术研究取得了新突破,这意味着计算机将进一步贴近人类对视频内容的理解与认知能力。同时,混元AI大模型的优越性及泛化性得到了验证,将为AI学术研究和工业级应用带来更多长期价值。
目前,混元AI大模型已被广泛应用到广告创作、广告检索、广告推荐等腾讯业务场景中。一方面,该模型能够帮助广告创作者和腾讯平台方预测视频内容与消费者群体之间的兴趣关联,提升创作效率;另一方面,能够有效提升广告推荐的精准度,让内容搜索和匹配更加精确,有效优化用户体验。
-
上一篇
快速掌握AI模型应用、工业部署与训练......深度学习开发者峰会干货内容抢鲜看!
原标题:快速掌握AI模型应用、工业部署与训练......深度学习开发者峰会干货内容抢鲜看!
-
下一篇
1
AI大模型技术背景
人工智能(Artificial Intelligence,简称AI)大模型的技术背景发展历程可以追溯到上世纪50年代,到今天大致分为四个阶段。
---早期符号主义(Symbolic AI):20世纪50年代至70年代初,AI研究主要关注于通过逻辑和符号推理来模拟人类智能。这一时期的代表性成果包括逻辑推理和专家系统。
---连接主义(Connectionism):20世纪80年代至90年代,研究人员开始将注意力转向基于神经网络的模型。这些模型通过模拟神经元之间的连接和信号传递来实现学习和推理。著名的连接主义模型包括感知器和反向传播神经网络。
---统计学习(Statistical Learning):20世纪90年代末至21世纪初,随着计算能力的提升和大量数据的积累,统计学习方法逐渐兴起。这种方法基于统计模型和机器学习算法,通过从数据中学习模式和规律来实现AI任务。支持向量机(Support Vector Machines)和随机森林(Random Forests)是当时常用的算法。
---深度学习(Deep Learning):2010年代至今,深度学习在AI领域取得了重大突破。深度学习使用深层神经网络模型,通过多层次的非线性变换和大规模数据训练,实现了对复杂数据模式的学习和表征。卷积神经网络在图像识别中取得了巨大成功,而循环神经网络则在自然语言处理中得到了广泛应用。其中,Transformer模型的提出为自然语言处理任务引入了注意力机制,并为后来的大模型奠定了基础。
---AI大模型的崛起:近年来,AI大模型,特别是以GPT(Generative Pre-trained Transformer)系列为代表的预训练语言模型,成为了AI领域的热点。这些模型使用深度神经网络,在大规模语料库上进行预训练,然后在具体任务上进行微调。这种模型在自然语言处理、语音识别、图像处理等领域展现了强大的性能。GPT-3模型在2020年引起了广泛关注,并被认为是迄今为止最大的AI语言模型。此后,GPT-4和GPT-5等更大规模的模型也相继问世。
AI大模型的发展经历了从符号主义到连接主义、统计学习,再到深度学习的演化过程。通过不断提升模型规模、数据和计算能力的增强,AI大模型取得了在各种任务中超越人类的惊人表现,成为当前人工智能研究的重要方向之一。
国内基本情况
2
总体上来看,目前国内有几十家企业及科研院所涉足人工智能大模型训练,主要分为大型科技公司、科研院校和初创科技团队三类。从大模型的布局体系来看,百度、阿里、华为等大型科技公司从算力层、平台层、模型层、应用层进行了四位一体的全面布局,科研院校及初创科技公司主要以研发大模型算法及细分领域应用为主。从大模型参数量看,大型科技公司的参数量远大于科研院所,但基本都处于千亿及以上规模;从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向B端企业拓展服务,预计少数企业将在C端市场形成规模。总体来说,业界普遍认为国内大模型与GPT-3的水平相当,与GPT-4仍有较大差距。
图源:中移智库
具体来看,目前国内的几种大模型产品主要包括百度、阿里、腾讯、阿里、华为、字节等公司发布的产品。
---百度
AI大模型技术背景及国内基本情况