您现在的位置是：首页 > 人工智能AI > 正文

人工智能AI

在DeepSeek非来不可的开发者大会上，大模型三大关键，全讲清楚了……

1987web2025-02-23人工智能AI205

2月22日开幕的2025全球开发者先锋大会（GDC），作为面向全球开发者的社区的社区，是科研及产业领域开发者无法抗拒的盛会。据主办方确认，现已火遍地球的DeepSeek，此次也以闭门会议方式低调参会。GDC无疑成为观察大模型最新战况及未来走向的绝佳窗口，为此记者与现身GDC的各模型厂商及专家聊了聊，为业界最关注的三大热议话题寻找答案。

第一，大模型撞墙了没？去年以来，外界始终存在对大模型技术和性能天花板的疑虑。但事实上，业内的普遍感受却是：大模型迭代速度超快。犹记一年前，OpenAI的视频生成模型Sora横空出世，致使上海大模型创业公司如阶跃星辰、MiniMax等压力山大，因为他们不断被追问，中国、上海何时才能有自己的Sora？一年后的今天，剧情反转。若查看最新排名，MiniMax旗下海螺AI目前全球月访问量排名第一，Sora只能排第三。

事实上，去年以来，大模型几乎每三个月就能引发行业一惊。如去年OpenAI发布的GPT-4o，已能感知和响应用户情绪，允许用户随时打断它。还有OpenAI的o系列模型，在慢思考和推理能力上表现强悍。未来，围绕算法创新、多模态融合等，大模型有望再有数倍量级的能力提升，性能跃升空间依旧巨大。

第二，中美大模型之间的技术差距还在持续扩大吗？这个春节，DeepSeek当惊世界殊，其烧脑改算法，选择混合专家模型（MoE）架构，通过动态冗余策略，将计算成本降至传统模型的十分之一。另外，DeepSeek在模型蒸馏、算力调度方面也很有自己的一套，让全球看到了中国的开源力量和创新打法。可以说，中美之间的模型竞争依旧激烈，但中国模型的技术实力已经让美国不敢小瞧了。

第三，大模型还能从过去的经验中找答案吗？短短两年，大模型研发框架敏捷迭代——一开始的底层架构是稠密模型加Transformer，但而今，Transformer几被弃用，且模型公司多选择稀疏激活、更为经济有效的MoE模式。与此同时，DeepSeek带头，不再迷信经验和专家，而是大量聘用年轻研究员并充分授权，要求就一条：研发人员必须对技术变革抱有极致热情。大模型技术的颠覆性变化，屡屡刷新业界认知。这也意味着，大厂或退回到与创业公司相同的起跑线，组建起成规模的高效研发团队，成为大模型制胜唯一路径。

原标题：在DeepSeek非来不可的开发者大会上，大模型三大关键，全讲清楚了……

来源：作者：解放日报李晔

人工智能AI

在DeepSeek非来不可的开发者大会上，大模型三大关键，全讲清楚了……

DeepSeek这么好用，为什么手机厂商还要自研大模型？

破解DeepSeek大模型，揭秘内部运行参数

相关文章