新研究表明,DeepSeek 的 AI 风格与 ChatGPT 的匹配率达到 74%

DeepSeek 和 ChatGPT 徽标插图

一项新研究发现,研究中审查的 DeepSeek 书面文本中 74.2% 的文本风格与 OpenAI 的 ChatGPT 输出惊人地相似。研究结果表明 DeepSeek 可能接受过 ChatGPT 输出的训练。

AI 检测公司Copyleaks在康奈尔大学 arXiv.org 存储库计划发布之前,专门为本文提供了这项研究。据该公司称,这项前瞻性研究可能对知识产权、AI 法规和未来的 AI 发展产生重大影响。

DeepSeek 书面文本反映了 ChatGPT 风格,而非其他风格

Copyleaks 研究使用筛选技术和算法分类器来检测各种语言模型(包括 OpenAI、Claude、Gemini、Llama 和 DeepSeek)生成的书面文本的风格指纹。分类器采用一致投票方法来减少误报并确保高精度。

有趣的是,虽然大多数模型生成的书面文本很容易区分为每个模型独有的,但 DeepSeek 的绝大多数输出​​都被归类为由 OpenAI 的模型生成的。

Copyleaks 数据科学主管 Shai Nisan 在一封电子邮件中写道,这项研究类似于一位笔迹专家试图通过将手写文本与来自不同作者的其他样本进行比较来识别手稿的作者。在这种情况下,结果令人惊讶且意义重大。

Nisan 补充道,这引发了一些关键问题,即 DeepSeek 是如何训练的,以及它是否利用了 OpenAI 的输出——可能未经授权。

“虽然这种相似性并不能明确证明或宣布 DeepSeek 是其衍生产品,但它确实引发了人们对其开发过程的质疑。我们的研究主要关注写作风格;在这个领域,与 OpenAI 的相似性非常显著。考虑到 OpenAI 的市场领先地位,我们的研究结果表明,有必要进一步研究 DeepSeek 的架构、训练数据和开发过程,”Nisan 写道。

ChatGPT 的知识产权是否受到侵犯?

如果 DeepSeek 的训练数据未经适当授权就使用了 OpenAI 生成的文本,那么对知识产权的影响将是深远的。这种情况可能违反 OpenAI 的服务条款,甚至可能侵犯其知识产权。人工智能训练数据普遍缺乏透明度,这加剧了这些问题,凸显了建立监管框架以强制明确披露训练数据集的必要性。

尼桑指出,这对人工智能行业的潜在影响可能是深远的。

“这项研究强烈表明,透明度和强有力的知识产权保护在未来的人工智能发展和监管中至关重要。监管机构可能会考虑要求公司披露用于训练其模型的数据集和模型输出的详细信息,”他补充道。

考虑到 DeepSeek 的创新性对市场的影响以及围绕其技术的其他问题,这个问题变得更加令人担忧。例如,据报道,在 DeepSeek 于 1 月宣布其“新颖”的训练和快速推理解决方案与其他生成式 AI 模型相比,只需要 Nvidia 昂贵的 AI 处理器的一小部分后不久,Nvidia 的市值就大幅缩水。

如果有证据表明 DeepSeek 创新是基于未经授权使用 OpenAI 输出,那么其财务和法律后果可能是巨大的。

ChatGPT 自身的道德和法律挑战

尽管 OpenAI 本身因未经明确许可就使用大量网络内容进行训练而受到批评,但 DeepSeek 模仿 OpenAI 风格的可能性带来了新的复杂性。这表明当前的知识产权框架存在潜在漏洞——人工智能模型可以有效地相互“学习”,而无需法律追索权。

从法律角度来看,缺乏既定先例使得执行变得困难。虽然人工智能模型的风格指纹可以作为识别未经授权的模型使用的有力工具,但它并不是采取法律行动的“确凿证据”。

然而,这些发现可以促进为人工智能培训和发展定义更清晰的知识产权和监管标准。

copyleaks 条形图 - deepseek - 3.2.25

DeepSeek 和 ChatGPT 的相似之处可能是由数据驱动的

对 Copyleaks 发现的反驳是,AI 模型可能会随着时间的推移在风格上趋于一致,尤其是在重叠数据集上进行训练的情况下。然而,该研究的一致集成方法专门用于检测模型之间细微的风格差异。

这表明 DeepSeek 和 OpenAI 之间的相似性不仅仅是数据集重叠的副产品,而且可能表明更深层次的结构或训练相似性。

“即使大型语言模型取自重叠的数据集,AI 指纹识别仍然至关重要。架构、微调方法和生成技术等元素的多样性确保了每个 LLM 都发展出独特的写作风格,”Nisan 总结道。

也许时间和人工智能检测将告诉我们答案

随着人工智能逐渐渗透到现代生活的方方面面,制定明确的知识产权法规和道德标准变得越来越必要和重要。DeepSeek 最终是否被证明未经授权就利用了 OpenAI 的成果还有待观察。

然而,这类研究提出的问题可能会持续存在,并可能影响人工智能发展和监管的未来——影响 DeepSeek、ChatGPT 和该领域的所有其他参与者。截至本文发表,DeepSeek 尚未回应置评请求。