我们终于知道了震惊世界的 DeepSeek 人工智能突破背后的秘密
DeepSeek 在短短几个月内取得了惊人的成就,同时给美国股市带来了巨大冲击。这家人工智能公司发布了一款令人印象深刻的 ChatGPT 竞争对手产品DeepSeek AI,并在几周前迅速走红。没有其他人工智能公司能取得 DeepSeek 所取得的成就,甚至谷歌也没有。
最令人印象深刻的是,由于美国的制裁,DeepSeek 无法获得用于 AI 开发的最新 GPU。因此,他们想出了软件工具来训练 AI 以及 OpenAI 的推理模型,而成本却只是其中的一小部分。这一壮举使美国股市蒸发了 1 万亿美元,因为投资者担心硬件不会继续成为 AI 开发中最重要的东西。
虽然这些担忧可能有些夸大,但 DeepSeek 并未止步。该公司计划推出DeepSeek R2 推理模型的重大升级,并计划在 5 月前推出。中国仍被禁止使用最新芯片,因此 DeepSeek R2 的开发将依赖于 DeepSeek 可能走私的任何 GPU 库存,以及软件优化。
但 DeepSeek 在与 OpenAI 和其他西方 AI 公司竞争时可能擅长的不仅仅是软件或硬件。一份报告详细介绍了 DeepSeek 未经证实的 5 月前发布 R2 的计划,还揭示了 DeepSeek R1 突破的秘诀。显然,在 DeepSeek 工作的人很喜欢这里,这要归功于这里的公司文化和商业惯例,而这在中国大型科技公司中并不常见。
自 DeepSeek R1 发布以来,OpenAI 发布了新的推理模型,包括 o3-mini 和 o3-mini-high。OpenAI 还计划在未来几周发布 GPT-4.5,随后将发布更大规模的 GPT-5 升级。这或许解释了 DeepSeek 为何面临匆忙推出升级的压力。
据路透社报道,R2 预计将于 5 月前推出,比预期早了几周。新模型的编码能力应该比 R1 更好,据称还将引入对多语言推理的支持。
DeepSeek R2 应该继续利用 DeepSeek 已在其现有模型中采用的软件创新。混合专家 (MoE) 技术允许 DeepSeek 仅激活处理任务所需的 AI 模型部分。然后是多头潜在注意力 (MLA),它允许 DeepSeek AI 一次处理提示的多个方面。
所有这些都是在没有最新硬件的情况下实现的,但 DeepSeek 的效率仍然远高于竞争对手。报告指出,分析师估计 DeepSeek 的价格可能比 ChatGPT 工具便宜 20 到 40 倍。这给 OpenAI 和谷歌带来了压力,迫使它们分别降低 ChatGPT 和 Gemini 的价格。
DeepSeek 将继续无法购买 AI 公司可以使用的 Nvidia 芯片。美国未来可能会对芯片禁令采取更严厉的措施,如果 DeepSeek R2 升级进一步加剧未来的禁令决定,我不会感到惊讶。
我在这里只是猜测,但这是基于路透社对 DeepSeek 公司文化的报道。看起来在那里工作的人实际上很喜欢参与这个项目,而这一切都归功于梁文峰对团队的管理方式。

40 岁的文峰是一位亿万富翁,他最早将人工智能应用于量化对冲基金 High-Flyer。在 ChatGPT 成为热门产品之前,High-Flyer 将 70% 的利润重新投资于人工智能研究。几年前,该公司购买了两个人工智能超级计算集群。其中包括 Fire-Flyer II,其中包含 10,000 块 Nvidia A100 芯片。
这些芯片于 2022 年在中国被禁止购买,DeepSeek 用它们来训练 DeepSeek AI 模型。有传言称,自那时以来,该公司可能又走私了数万个芯片,但这可能永远无法证实。
回到文峰,DeepSeek 创始人创建这家公司时是作为研究实验室,而不是盈利性 AI 公司。他采用了不同的管理方式,避免了其他科技公司传统的“996”工作文化。这指的是“每周工作六天,早上 9 点到晚上 9 点”。与此同时,DeepSeek 的研究人员每天工作 8 小时。
很想知道文峰在推动 DeepSeek R2 开发时是否保持了管理风格不变,尤其是考虑到报告声称该公司希望比计划更早推出 R2 型号。我不禁想知道每天工作 8 小时是否足以实现这一目标。
报告进一步透露,文峰招募了刚从学校毕业的年轻工程师,与他们并肩工作,并让他们负责 DeepSeek 研究项目。这些工程师的薪水也很高。资深 High-Flyer 数据科学家的年薪约为 150 万元人民币,约合 20.6 万美元。这大约是竞争对手的两倍。
所有这些并不是说 ChatGPT 工程师不喜欢他们的工作或没有丰厚的报酬。但我们听说有数十名 OpenAI 高管和前联合创始人离开公司,创办了自己的 AI 企业。不过,我们不应该指望中国公司能达到同样的透明度。路透社的报道可能比实际情况更乐观。
然而,该报告还指出,DeepSeek 在中国迅速成为一个成功案例,得到了北京的全力支持。不仅仅是 DeepSeek 工程师可能喜欢这家公司。几年前,政府可能调查过 High-Flyer 的大型 AI 芯片采购,包括那个 10,000 芯片集群,但 DeepSeek 现在非常受欢迎。DeepSeek AI 目前正在各个领域进行整合。
目前,约有 13 个主要城市政府和 10 家国有能源公司正在使用 DeepSeek AI。百度、联想和腾讯等科技巨头也已开始采用该技术。
虽然路透社的报道无法得到证实,但 DeepSeek 确实越来越受到中国企业和政府的欢迎,这种支持可以进一步提高该公司与 OpenAI、谷歌和其他大型人工智能公司的竞争能力。
与此同时,西方世界已准备好实施 DeepSeek 禁令。这并不奇怪。DeepSeek 可能已经走红,路透社也对该公司的内部运作进行了很好的描述,但该人工智能仍然存在西方市场无法容忍的问题。
意大利和韩国等国家已经宣布禁止 DeepSeek AI 。美国政府也在考虑实施更广泛的禁令。该禁令与用户数据隐私有关。所有 DeepSeek 数据都流向中国。DeepSeek 还存在其他问题,包括对与中国相关的话题进行广泛审查以及普遍的 AI 安全问题。
考虑到所有这些,很明显,将于 5 月发布的 DeepSeek R2 无法像其前身那样震撼市场。但 R2 在春季与 ChatGPT、Gemini 和其他产品竞争肯定会很有趣。