DeepSeek AI 模型遭質疑涉使用 OpenAI 數據引發審視

OpenAI 懷疑，以低成本著稱的中國 DeepSeek AI 模型，是使用 OpenAI 的數據開發的。

本週，美國前總統唐納·川普將 DeepSeek 稱為對美國科技公司的「警鐘」，與此同時，Nvidia 市值蒸發近 6000 億美元。

DeepSeek 的崛起引發了專注於 AI 的公司股票大幅下跌。作為 AI 領域領先的 GPU 供應商，Nvidia 股價暴跌 16.86%，創下華爾街史上最大單日跌幅。

微軟、Meta Platforms 以及 Google 的母公司 Alphabet 股價下跌了 2.1% 至 4.2%，而 AI 伺服器製造商戴爾科技則下跌了 8.7%。

DeepSeek 宣稱其 R1 模型是對 ChatGPT 等西方 AI 具有成本效益的替代品。它基於開源的 DeepSeek-V3 構建，據稱所需算力更少，訓練成本約為 600 萬美元。

儘管有人質疑這一說法，但 DeepSeek 已引發了對美國科技巨頭大規模 AI 投資的擔憂，令投資者感到不安。隨著對其性能的討論升溫，該模型的受歡迎程度飆升，並登上了美國免費應用程式下載榜榜首。

彭博社報導稱，OpenAI 和微軟正在調查 DeepSeek 是否使用了 OpenAI 的 API 將 OpenAI 的 AI 模型整合到其自身模型中。OpenAI 告訴彭博社：「我們知道中國的公司及其他公司正持續嘗試提取美國領先的 AI 模型。」

蒸餾法是一種開發者通過從更大模型中提取數據來訓練 AI 的方法，這違反了 OpenAI 的服務條款。

「作為頂級的 AI 開發者，我們採取措施保護我們的智慧財產權，精心選擇將哪些高級功能納入發布的模型中。展望未來，我們相信與美國政府密切合作對於保護我們最先進的模型免受對手和競爭者的侵害至關重要，」OpenAI 聲明道。

川普總統的 AI 顧問大衛·薩克斯告訴福斯新聞：「有強烈證據表明 DeepSeek 從 OpenAI 模型中蒸餾了知識，而 OpenAI 對此感到不悅。預計領先的 AI 公司將在未來幾個月內採取行動打擊蒸餾行為。」

DeepSeek 面臨透過蒸餾法使用 OpenAI 模型訓練其 AI 的指控。圖片來源：Andrey Rudakov/Bloomberg via Getty Images。

評論者指出了其中的諷刺性，因為 OpenAI 自身也曾面臨使用網路數據構建 ChatGPT 的指控。科技作家 Ed Zitron 在推特上寫道：「我忍不住笑出來。OpenAI 建立在抓取整個網路的基礎上，卻因為 DeepSeek 可能使用了 ChatGPT 的輸出來訓練而感到不滿。他們表現得像受害者——真是虛偽。」

2024年1月，OpenAI 曾表示，沒有版權材料就不可能開發出像 ChatGPT 這樣的工具。

在提交給英國上議院通訊與數位專責委員會的文件中，OpenAI 辯稱，訓練像 ChatGPT 這樣的大型語言模型需要版權內容。

「由於版權幾乎涵蓋所有人類表達形式——部落格文章、照片、論壇討論、程式碼片段和政府記錄——因此如果不使用版權材料，就不可能訓練出當今頂級的 AI 模型，」OpenAI 在提交的文件中解釋道，據《每日電訊報》報導。

「將訓練數據限制在公共領域且超過一個世紀的書籍和繪畫上，可能是一個有趣的實驗，但無法產生滿足當今需求的 AI 系統，」OpenAI 補充道。

隨著生成式 AI 的發展，使用版權材料訓練 AI 已成為科技界的主要辯論焦點。2023年12月，《紐約時報》起訴 OpenAI 和微軟「非法使用」其內容來開發產品。作為回應，OpenAI 稱訓練行為屬於「合理使用」，並表示：「我們支持新聞業，與新聞機構合作，並認為《紐約時報》的訴訟缺乏依據。」

《紐約時報》的訴訟是在2023年9月17位作者提起的訴訟之後發生的，其中包括《權力的遊戲》作者喬治·R·R·馬丁，他們指控 OpenAI「進行大規模系統性盜竊」。

2023年8月，地區法官貝里爾·豪威爾維持了美國版權局的一項裁決，即AI 生成的藝術品不能獲得版權。該 2018 年的裁決強調，「人類思維與創意表達之間的連結」對於版權保護至關重要。