我们终于知道了震惊世界的 DeepSeek 人工智能突破背后的秘密

DeepSeek 在短短几个月内取得了惊人的成就，同时给美国股市带来了巨大冲击。这家人工智能公司发布了一款令人印象深刻的 ChatGPT 竞争对手产品DeepSeek AI，并在几周前迅速走红。没有其他人工智能公司能取得 DeepSeek 所取得的成就，甚至谷歌也没有。

最令人印象深刻的是，由于美国的制裁，DeepSeek 无法获得用于 AI 开发的最新 GPU。因此，他们想出了软件工具来训练 AI 以及 OpenAI 的推理模型，而成本却只是其中的一小部分。这一壮举使美国股市蒸发了 1 万亿美元，因为投资者担心硬件不会继续成为 AI 开发中最重要的东西。

虽然这些担忧可能有些夸大，但 DeepSeek 并未止步。该公司计划推出DeepSeek R2 推理模型的重大升级，并计划在 5 月前推出。中国仍被禁止使用最新芯片，因此 DeepSeek R2 的开发将依赖于 DeepSeek 可能走私的任何 GPU 库存，以及软件优化。

但 DeepSeek 在与 OpenAI 和其他西方 AI 公司竞争时可能擅长的不仅仅是软件或硬件。一份报告详细介绍了 DeepSeek 未经证实的 5 月前发布 R2 的计划，还揭示了 DeepSeek R1 突破的秘诀。显然，在 DeepSeek 工作的人很喜欢这里，这要归功于这里的公司文化和商业惯例，而这在中国大型科技公司中并不常见。

自 DeepSeek R1 发布以来，OpenAI 发布了新的推理模型，包括 o3-mini 和 o3-mini-high。OpenAI 还计划在未来几周发布 GPT-4.5，随后将发布更大规模的 GPT-5 升级。这或许解释了 DeepSeek 为何面临匆忙推出升级的压力。

据路透社报道，R2 预计将于 5 月前推出，比预期早了几周。新模型的编码能力应该比 R1 更好，据称还将引入对多语言推理的支持。

DeepSeek R2 应该继续利用 DeepSeek 已在其现有模型中采用的软件创新。混合专家 (MoE) 技术允许 DeepSeek 仅激活处理任务所需的 AI 模型部分。然后是多头潜在注意力 (MLA)，它允许 DeepSeek AI 一次处理提示的多个方面。

所有这些都是在没有最新硬件的情况下实现的，但 DeepSeek 的效率仍然远高于竞争对手。报告指出，分析师估计 DeepSeek 的价格可能比 ChatGPT 工具便宜 20 到 40 倍。这给 OpenAI 和谷歌带来了压力，迫使它们分别降低 ChatGPT 和 Gemini 的价格。

DeepSeek 将继续无法购买 AI 公司可以使用的 Nvidia 芯片。美国未来可能会对芯片禁令采取更严厉的措施，如果 DeepSeek R2 升级进一步加剧未来的禁令决定，我不会感到惊讶。

我在这里只是猜测，但这是基于路透社对 DeepSeek 公司文化的报道。看起来在那里工作的人实际上很喜欢参与这个项目，而这一切都归功于梁文峰对团队的管理方式。

40 岁的文峰是一位亿万富翁，他最早将人工智能应用于量化对冲基金 High-Flyer。在 ChatGPT 成为热门产品之前，High-Flyer 将 70% 的利润重新投资于人工智能研究。几年前，该公司购买了两个人工智能超级计算集群。其中包括 Fire-Flyer II，其中包含 10,000 块 Nvidia A100 芯片。

这些芯片于 2022 年在中国被禁止购买，DeepSeek 用它们来训练 DeepSeek AI 模型。有传言称，自那时以来，该公司可能又走私了数万个芯片，但这可能永远无法证实。

回到文峰，DeepSeek 创始人创建这家公司时是作为研究实验室，而不是盈利性 AI 公司。他采用了不同的管理方式，避免了其他科技公司传统的“996”工作文化。这指的是“每周工作六天，早上 9 点到晚上 9 点”。与此同时，DeepSeek 的研究人员每天工作 8 小时。

很想知道文峰在推动 DeepSeek R2 开发时是否保持了管理风格不变，尤其是考虑到报告声称该公司希望比计划更早推出 R2 型号。我不禁想知道每天工作 8 小时是否足以实现这一目标。

报告进一步透露，文峰招募了刚从学校毕业的年轻工程师，与他们并肩工作，并让他们负责 DeepSeek 研究项目。这些工程师的薪水也很高。资深 High-Flyer 数据科学家的年薪约为 150 万元人民币，约合 20.6 万美元。这大约是竞争对手的两倍。

所有这些并不是说 ChatGPT 工程师不喜欢他们的工作或没有丰厚的报酬。但我们听说有数十名 OpenAI 高管和前联合创始人离开公司，创办了自己的 AI 企业。不过，我们不应该指望中国公司能达到同样的透明度。路透社的报道可能比实际情况更乐观。

然而，该报告还指出，DeepSeek 在中国迅速成为一个成功案例，得到了北京的全力支持。不仅仅是 DeepSeek 工程师可能喜欢这家公司。几年前，政府可能调查过 High-Flyer 的大型 AI 芯片采购，包括那个 10,000 芯片集群，但 DeepSeek 现在非常受欢迎。DeepSeek AI 目前正在各个领域进行整合。

目前，约有 13 个主要城市政府和 10 家国有能源公司正在使用 DeepSeek AI。百度、联想和腾讯等科技巨头也已开始采用该技术。

虽然路透社的报道无法得到证实，但 DeepSeek 确实越来越受到中国企业和政府的欢迎，这种支持可以进一步提高该公司与 OpenAI、谷歌和其他大型人工智能公司的竞争能力。

与此同时，西方世界已准备好实施 DeepSeek 禁令。这并不奇怪。DeepSeek 可能已经走红，路透社也对该公司的内部运作进行了很好的描述，但该人工智能仍然存在西方市场无法容忍的问题。

意大利和韩国等国家已经宣布禁止 DeepSeek AI 。美国政府也在考虑实施更广泛的禁令。该禁令与用户数据隐私有关。所有 DeepSeek 数据都流向中国。DeepSeek 还存在其他问题，包括对与中国相关的话题进行广泛审查以及普遍的 AI 安全问题。

考虑到所有这些，很明显，将于 5 月发布的 DeepSeek R2 无法像其前身那样震撼市场。但 R2 在春季与 ChatGPT、Gemini 和其他产品竞争肯定会很有趣。