AI大模型迭代放缓:商业与数据双重考验
通用大模型哪家强?当OpenAI新一代模型GPT-5迟迟未能面市时,Anthropic、xAI以及国内的深度求索(DeepSeek)、智源研究院、月之暗面等大模型厂商争相亮出了自家最新版本的大模型。其中,埃隆·马斯克旗下的xAI最新推出的Grok 4基于自建的20万张英伟达H100 GPU计算集群,号称“全球最强的AI”。近日与Grok 4在模型聚合平台OpenRouter上争夺“热门模型”桂冠的是月之暗面最新发布的Kimi K2开源模型。
从OpenRouter统计的近一年来的AI大模型市场份额来看,OpenAI、谷歌、Meta、Anthropic、DeepSeek、阿里云(Qwen千问)、Mistral AI等几家大模型“玩家”站稳前列位置。整体来看,大模型主版本的“代际”更迭速度和参数规模增长在明显放缓。
快思慢想研究院院长田丰指出,受算力和数据瓶颈制约,大模型原先“大力出奇迹”式的追求参数规模较为简单粗暴,但如今的发展已经变慢了,不过,大模型的架构创新却在加速,集中表现在通过多智能体协同等工程化的手段快速提高推理效率。
迭代放缓or加速
记者梳理统计了多个大模型的版本更新时间表,很容易看到OpenAI从发布基于GPT3.5的爆款产品ChatGPT,到发布GPT-4花费了约4个月,但OpenAI的GPT-5却一再“跳票”,直到现在仍未发布。Anthropic公司的Claude模型已于今年5月底更新至Claude 4。Meta的开源大模型Llama从第二代发展到第三代大约间隔了9个月,而根据Meta的最新预告,Llama 4计划在2025年年内推出。
国产大模型厂商阿里云分别于2023年4月、2023年10月和2024年5月分别推出了千问Qwen1.0、Qwen 2.0、Qwen 2.5模型,到今年1月底推出了Qwen 2.5-Max。主流大模型代际升级放缓的背后,实际是从过去追求规模转向聚焦推理能力的优化。
需要说明的是,在主流大模型厂商中,xAI的迭代节奏有所不同。该公司分别于2023年10月、2024年8月、2025年2月和2025年7月陆续更新了四代Grok大模型。Grok4的训练依托20万张H100集群,计算资源是前一代Grok3的两倍、Grok2的100倍。
从业界反馈来看,Grok4的一大技术亮点在于其Grok4 Heavy引入了“多智能协作机制”。深度科技研究院院长张孝荣指出,Grok是基于大算力推出的优化算法后的新版本大模型,在不少指标上获得了新突破,性能对标OpenAI的GPT-4.5编程优化版本。
两重考验:商业与数据
田丰认为,目前全球的大模型企业都面临两个考验——商业考验和数据考验,这决定了企业要有源源不断的现金流,才能购买GPU卡以提升算力,发展更好的研发团队,才能将基础大模型做到持续领先。
科技巨头围绕大模型的军备竞赛仍未休止。就在7月14日,Meta首席执行官马克·扎克伯格表示正在投资数百亿美元用于AI研发与运营,并宣布将在美国各地建成多个数据中心。收购数据公司Scale AI无疑是Meta欲突破数据瓶颈的重要举措。
事实上,xAI的Grok4与Meta兼顾商业化探索与技术性能提升的路径类似。马斯克认为,Grok4已在主要学科上超越博士水平。针对训练数据,马斯克提及“让AI接入现实世界才是真正的关键”。
在张孝荣看来,与国外大模型有所差异,国内的大模型竞争焦点已经从基础参数竞争转向了场景渗透力。据国家互联网信息办公室负责人介绍,目前国内已有433款大模型完成备案,上线提供服务。
其中,就在Grok4发布5天后,月之暗面发布了最新的Kimi K2开源大模型,官方称Kimi K2的预训练阶段“实现了万亿参数模型的稳定高效训练”。自DeepSeek凭借低成本+高性能引爆国产大模型热潮以来,曾被业界冠以“AI六小虎”的六家明星企业早已出现分化,零一万物、百川智能先后收缩业务,从to B级场景寻求商业突破。
田丰指出,国内的AI初创型企业目前面临着商业化的考验与生存难题,在有限的算力、资金条件下,他们需要尽快推出优秀的AI爆款产品,找到新的商业模式改变长期“砸钱”的状态,实现持续的现金流注入。
(文章来源:中国经营网)
声明:
- 风险提示:以上内容仅来自互联网,文中内容或观点仅作为原作者或者原网站的观点,不代表本站的任何立场,不构成与本站相关的任何投资建议。在作出任何投资决定前,投资者应根据自身情况考虑投资产品相关的风险因素,并于需要时咨询专业投资顾问意见。本站竭力但不能证实上述内容的真实性、准确性和原创性,对此本站不做任何保证和承诺。
- 本站认真尊重知识产权及您的合法权益,如发现本站内容或相关标识侵犯了您的权益,请您与我们联系删除。
推荐文章: