技术执行委员会技术执行委员会DeepSeek 给 Nvidia 和囤积其芯片的科技巨头们带来了新的问题

今年 1 月,中国人工智能公司 DeepSeek发布了最新模型 DeepSeek-R1,一夜成名,一度取代 OpenAI 的 ChatGPT,成为苹果应用商店下载次数最多的免费应用程序。在幕后,人工智能推动者(构建人工智能基础设施和应用程序的公司)感受到了市场动荡的压力。

但尽管Nvidia股价在一个交易日内下跌超过 15%,这是因为市场意识到人工智能模型开发可以在比预期更薄的利润率和更低质量的资源下完成,尽管如此,这些人工智能推动者仍在创建人工智能专用的半导体芯片,构建计算能力并开发基础模型可以用来运行的平台。

“一方面,DeepSeek 方法表明,你可以优化模型构建过程,从而大大降低计算能力需求。这对 Nvidia 产生了负面影响,”企业 AI 平台 Kolena 联合创始人兼首席执行官 Mohamed Elgendy 表示。“然而,显而易见的是,现在你会发现很多人在构建基础模型。基础模型不会只针对拥有数亿美元构建基础设施的前五大公司。”

2025 年迄今,Nvidia 股价已下跌近 9%,尽管这是在过去两年中股价上涨近 500% 之后的一次非凡上涨。这家芯片巨头将于周三收盘后公布业绩,其中包括DeepSeek 以及人工智能“超大规模企业”未来支出的潜在冲击——谷歌等公司、甲骨文,亚马逊和微软— 他们购买了多达一半的 Nvidia 人工智能芯片,预计将受到焦虑的华尔街分析师和投资者的关注。

Elgendy 的理由是,他相信 DeepSeek 模型的发布标志着该行业的转变,他认为该行业现在将走向更大的民主化,研究人员表示,这一领域的成果已经开始产生,更多的LLM 以低至 50 美元的价格进入市场。“DeepSeek 之前的日子与 DeepSeek 之后的日子不同,”他说。

“虽然许多研究人员专注于提高人工智能模型的计算和数据效率,但对强大基础设施的需求仍将至关重要,”基础世界模型公司 Integral AI 的首席执行官 Jad Tarifi 在其 2024 年出版的《超级智能的崛起》一书中写道,他曾领导谷歌的第一个生成式人工智能开发团队。Tarifi 继续说道,“即使模型精简,预期的现实世界部署也将确保对强大计算资源的需求不断增长。”

企业 AI 代理公司 Vectara 的首席执行官 Amr Awadallah 对此持有不同看法。“我认为这是 AI 模型构建者和为其提供服务的大型 AI 推动者利润率大幅压缩的开始,”他说。“整个行业的收入将继续增长,而且增长幅度很大,但这些大公司能够获取的利润将大幅下降,因此从这个角度来看,这将带来一些压力。”

微软最近报道称缩减其 AI 数据中心建设的规模因此吓坏了投资者,但微软对这些报道提出异议,称其致力于实现其所述的 800 亿美元支出,但补充说它可能会“在某些领域战略性地调整我们的基础设施”。

Awadallah 将这种转变比作闪存驱动器的历史,闪存驱动器需要经过大量设计才能正确制造,但现在已成为一种普通商品,利润却比以前低。DeepSeek 能够在低端硬件上训练其模型,而无需使用美国主要公司使用的高端硬件,从而有效地将市场商品化。

DeepSeek 本身在Intel上运行英特尔的 Xeon 和 Gaudi 处理器“正在帮助客户以更低的成本获得强大的性能”,英特尔发言人表示。英特尔的 Gaudi 还用于 Denvr Dataworks,该公司提供优先考虑性能和数据隐私的 AI 解决方案。  

英特尔发言人告诉 CNBC:“新的人工智能模型带来了令人兴奋的机遇,但也提出了重要的考虑因素。它们可以推动创新、提高效率并释放新的可能性,但扩大人工智能规模面临着成本、能源使用和负责任的部署等挑战。”英特尔表示,其产品和服务已将这些障碍考虑在内。

有潜力的不完美模型

尽管人们期望随着时间的推移会有所改善,但 DeepSeek 的准确性问题却不是什么秘密。根据 Vectara 的测试,DeepSeek-R1 模型产生幻觉的概率为 14.3%,而 OpenAI 的 GPT-4 的概率约为 2%(甚至高于 DeepSeek 自己的非推理前身 Deepseek-V3)。

Kolena 的 Elgendy 表示:“当我们测试 DeepSeek 与其他模型的对比时,我们注意到 DeepSeek 在大多数对抗性攻击或越狱类型的攻击中都失败了。”“这些都是几年前推出的 GPT-3 的早期失败。所有这些都已被所有大型提供商解决。”

尽管如此,Elgendy 认为 DeepSeek(或者至少它所代表的东西)是一种未经雕琢的钻石。“现在我们明白了,有一种新方法可以更有效地训练大型模型。而且这种方法很有效,”他说。

Awadallah 认为DeepSeek 声称只花费 600 万美元来训练模型是不准确的。“我们大多数人都一致认为,实际花费远不止这些,”他说。“也许生成模型的最终运行花费了 600 万美元,但通常你必须进行很多次运行才能让模型运行良好。我预计训练这个模型至少要花费 5000 万美元或更多。”尽管如此,这比 Google Gemini 的 1.49 亿美元要少得多,甚至在考虑员工工资之前也是如此,这实际上是价格的两倍。

最终,Elgendy 表示,更多此类以相对有限的预算和相对较少的计算能力构建的基础模型开始出现只是时间问题。“我们假设基础模型需要大量资源来构建。通过 DeepSeek,我们开始看到我们认为真正未来的东西。我认为这将使构建者的数量增加 10 倍,用户数量可能增加 100 倍,”他说。

具体来说,Elgendy 预计会有更多模型在特定领域运行,例如医疗保健、研究、制药、会计、金融等。“这里的基础设施将回到我们以前的人工智能机器学习时代,你会发现专业的人工智能公司正在构建专门的基础模型,它们都需要基础设施,”他说。“我相信测试和验证将是其中最重要的部分,因为到目前为止,许多其他组件已经商品化了。”

关于测试要素,Elgendy 表示:“这些提供商越多,竞争就越激烈。DeepSeek 一推出,每个人都开始测试它,然后就很清楚哪些地方还没有测试,哪些地方已经测试过了。”他表示,竞争将使事情得到控制,因为“市场现在就是警察。”

Nvidia 首席执行官黄仁勋在上周的一次预录采访中表示:“市场对 R1 的反应是‘天哪,人工智能完蛋了’,人工智能不再需要进行任何计算。事实恰恰相反。”

鉴于 DeepSeek 及其类似模型的巨大潜力,Awadallah 表示,英伟达等 AI 推动者之间的竞争将更加激烈,这些推动者构建了使这些模型成为可能的基础设施。“只有那些在利润受到打击的情况下仍能维持下去的公司,才能屹立不倒并蓬勃发展,”他说。