1987WEB视界-分享互联网热门产品和行业

您现在的位置是:首页 > 人工智能AI > 正文

人工智能AI

在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……

1987web2025-02-23人工智能AI54

2月22日开幕的2025全球开发者先锋大会(GDC),作为面向全球开发者的社区的社区,是科研及产业领域开发者无法抗拒的盛会。据主办方确认,现已火遍地球的DeepSeek,此次也以闭门会议方式低调参会。GDC无疑成为观察大模型最新战况及未来走向的绝佳窗口,为此记者与现身GDC的各模型厂商及专家聊了聊,为业界最关注的三大热议话题寻找答案。

第一,大模型撞墙了没?去年以来,外界始终存在对大模型技术和性能天花板的疑虑。但事实上,业内的普遍感受却是:大模型迭代速度超快。犹记一年前,OpenAI的视频生成模型Sora横空出世,致使上海大模型创业公司如阶跃星辰、MiniMax等压力山大,因为他们不断被追问,中国、上海何时才能有自己的Sora?一年后的今天,剧情反转。若查看最新排名,MiniMax旗下海螺AI目前全球月访问量排名第一,Sora只能排第三。

事实上,去年以来,大模型几乎每三个月就能引发行业一惊。如去年OpenAI发布的GPT-4o,已能感知和响应用户情绪,允许用户随时打断它。还有OpenAI的o系列模型,在慢思考和推理能力上表现强悍。未来,围绕算法创新、多模态融合等,大模型有望再有数倍量级的能力提升,性能跃升空间依旧巨大。

第二,中美大模型之间的技术差距还在持续扩大吗?这个春节,DeepSeek当惊世界殊,其烧脑改算法,选择混合专家模型(MoE)架构,通过动态冗余策略,将计算成本降至传统模型的十分之一。另外,DeepSeek在模型蒸馏、算力调度方面也很有自己的一套,让全球看到了中国的开源力量和创新打法。可以说,中美之间的模型竞争依旧激烈,但中国模型的技术实力已经让美国不敢小瞧了。

第三,大模型还能从过去的经验中找答案吗?短短两年,大模型研发框架敏捷迭代——一开始的底层架构是稠密模型加Transformer,但而今,Transformer几被弃用,且模型公司多选择稀疏激活、更为经济有效的MoE模式。与此同时,DeepSeek带头,不再迷信经验和专家,而是大量聘用年轻研究员并充分授权,要求就一条:研发人员必须对技术变革抱有极致热情。大模型技术的颠覆性变化,屡屡刷新业界认知。这也意味着,大厂或退回到与创业公司相同的起跑线,组建起成规模的高效研发团队,成为大模型制胜唯一路径。

原标题:在DeepSeek非来不可的开发者大会上,大模型三大关键,全讲清楚了……

来源:作者:解放日报 李晔