DeepSeek人工智能模型因涉嫌使用OpenAI数据面临审查

OpenAI怀疑，以低成本著称的中国DeepSeek AI模型是利用OpenAI的数据开发出来的。

本周，随着英伟达市值蒸发了近6000亿美元，总统唐纳德·特朗普称DeepSeek对美国科技公司来说是一个“警钟”。

DeepSeek的崛起引发了专注于人工智能的公司股价急剧下跌。作为人工智能领域主要的GPU供应商，英伟达的股价暴跌16.86%，创下了华尔街有史以来最大的单日跌幅。

微软、Meta Platforms以及谷歌的母公司Alphabet股价下跌了2.1%至4.2%不等，而AI服务器制造商戴尔科技的股价下跌了8.7%。

DeepSeek将其R1模型吹捧为ChatGPT等西方人工智能低成本替代品。它基于开源的DeepSeek-V3构建，据报道所需计算能力更低，且训练成本大约为600万美元。

尽管有人质疑这一说法，但DeepSeek已引发了对美国科技巨头巨额AI投资的担忧，令投资者感到不安。随着关于其性能的讨论日益热烈，该模型的受欢迎程度飙升，在美国免费应用下载榜上名列前茅。

彭博社报道称，OpenAI和微软正在调查DeepSeek是否使用了OpenAI的API，从而将OpenAI的AI模型整合到自己的模型中。OpenAI告诉彭博社：“我们知道总部位于中华人民共和国的公司和其他机构正持续试图提取美国领先的AI模型。”

知识蒸馏是一种开发者通过从更大模型中提取数据来训练AI的方法，这违反了OpenAI的服务条款。

OpenAI表示：“作为顶尖的AI开发者，我们采取措施保护我们的知识产权，谨慎选择在发布的模型中包含哪些高级功能。展望未来，我们相信与美国政府的密切合作对于保护我们最高级的模型免受对手和竞争者侵害至关重要。”

特朗普总统的AI顾问大卫·萨克斯告诉福克斯新闻：“有强有力的证据表明DeepSeek从OpenAI模型中蒸馏了知识，OpenAI对此感到不悦。预计领先的AI公司将在未来几个月内采取行动打击蒸馏行为。”

DeepSeek面临通过蒸馏使用OpenAI模型训练其AI的指控。图片来源：Andrey Rudakov/Bloomberg via Getty Images。

批评者指出其中的讽刺之处，因为OpenAI也曾面临使用互联网数据构建ChatGPT的指控。科技作家埃德·齐特龙在推特上发文：“我忍不住想笑。建立在抓取整个互联网数据基础上的OpenAI，却因DeepSeek可能使用ChatGPT的输出进行训练而恼火。他们表现得像受害者一样——真是虚伪。”

2024年1月，OpenAI曾表示，没有受版权保护的材料，“不可能”开发出像ChatGPT这样的工具。

在一份提交给英国上议院通信和数字特别委员会的陈述中，OpenAI辩称，训练像ChatGPT这样的大型语言模型需要受版权保护的内容。

据《每日电讯报》报道，OpenAI在其陈述中解释道：“由于版权几乎涵盖了所有形式的人类表达——博客文章、照片、论坛讨论、代码片段和政府记录——如果不使用受版权保护的材料，就不可能训练出当今顶级的AI模型。”

OpenAI补充道：“将训练数据限制在公共领域内已有一个多世纪历史的书籍和绘画上可能是一个有趣的实验，但这无法创造出满足当今需求的AI系统。”

随着生成式AI的发展，使用受版权保护的材料训练AI已成为科技界争论的主要焦点。2023年12月，《纽约时报》起诉OpenAI和微软“非法使用”其内容开发产品。OpenAI回应称训练属于“合理使用”，并表示：“我们支持新闻业，与新闻机构合作，并认为《纽约时报》的诉讼缺乏依据。”

《纽约时报》的诉讼之前，有17位作者（包括《权力的游戏》作者乔治·R·R·马丁）于2023年9月提起诉讼，指控OpenAI进行了“大规模的系统性盗窃”。

2023年8月，地区法官贝丽尔·豪威尔维持了美国版权局的一项裁决，即AI生成的艺术品不能被授予版权。这项2018年的裁决强调，“人类思维与创造性表达之间的联系”对于版权保护至关重要。