圖、OpenAI指控DeepSeek侵權--剽竊 v. 創新?
DeepSeek的重磅出擊
2025年1月20日中國新創公司DeepSeek正式發表新的AI模型DeepSeek-R1,由於號稱訓練成本不到570萬美金(其實應該不止),遠低於美國OpenAI等AI科技大咖5千億,卻又在數學、程式碼、自然語言推理等任務上的效能與OpenAI先進的o1模型旗鼓相當,導致同年1月底美股的費城半導體指數暴跌9%,至於個股輝達(Nvidia)暴跌17%,甲骨文(Oracle)也重挫14%,美超微(Super Micro Computer)則下跌13%,而博通(Broadcom)下跌17%。這些恐慌性反應,讓產業界重新思考AI發展是否真的需要巨額資金投入,甚至引發AI產業是否存在泡沫化的風險,因此震驚全球!
DeepSeek究竟是如何做到「俗擱大碗」的AI,而且又對全世界的開發者「開源」(OpenAI在GPT-4模型之後,重要的技術內容如架構、硬體、模型大小、訓練方法,幾乎都不公開)(請參閱Chat GPT公益私利之定位:科技教父的世紀官司),這讓向來閉源的OpenAI,與美國在生成式AI領域的主導性受到挑戰。然而,DeepSeek所帶來的爭議也頗大,其中OpenAI指稱其有證據顯示DeepSeek的AI模型DeepSeek-R1,是利用「蒸餾技術」(distillation)自家先進模型中剽竊數據。
白話蒸餾技術
姑不論事實為何,「蒸餾技術」之詞彙已在極短的時間內被全球熱搜,本文擬用白話來詮釋什麼是「蒸餾技術」。蒸餾技術在AI領域,其實是一種很常見的「提煉知識」(或稱為「提煉數據」或「知識蒸餾」)技巧,一般對於蒸餾技術的引述是:「大模型訓練小模型,讓小模型去提取大模型的知識,用以逼近大模型的學習效率,並有效降低成本」,但引來很多人評論這樣的行為是否合法。
舉例來說,大模型猶如一位X教授經過長時間收集、閱讀、學習大量資料,然後嘔心瀝血撰寫出一本名為「量子物理」的巨作,其圖文並茂的頁數可能高達500頁。然而,小模型猶如一位Y學生基於該「量子物理」一書的基礎上,不論是透過剪貼或重組,在經過一番重點整理的工夫後,一本只有200頁濃縮精華版的「量子物理」筆記(甚至於,Y學生將濃縮版的「量子物理」筆記販賣給有考試需求的考生,而且還賣得比原著好)。
需說明的是,雖然Y學生的「量子物理」筆記中的例題、插圖、解題步驟都參考X教授的原著作,但Y學生在消化過X教授的原著後,不論在例題、插圖與解題步驟等各方面在編排上都精簡許多。這個被精簡後的結果映射到軟體工程的演算法是非常重要的,因為這意味著減少GPU用量,使得成本大幅降低,但又可得到近似的效能,這正是「蒸餾技術」之目的。
早年Google的BERT也被蒸餾過
蒸餾技術是廣泛被用於提煉或萃取知識的一種技巧,早在2018年Google提出BERT(Bidirectional Encoder Representations from Transformers,基於變換器的雙向編碼器表示技術)後,當時世人發現BERT在處理文本翻譯、摘要、問答、語意分析等功能就已經相當優秀。
然而,BERT的類神經網路的參數量高達3.4億個,不論對於當時或今日的任何一種處理器來說,都是一個相當龐大的Transformer模型,所需要的運算與記憶體等資源也很大,同時限制在資源有限環境中的部署。有鑑於以上缺點,Victor Sanh等專家於2019年透過Hugging Face發表關於DistilBERT之論文:「DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter」(一種BERT的精煉版DistilBERT:更小、更快、更便宜且又輕量)。根據該論文的實驗數據顯示:
- 更佳的計算效率:DistilBERT將BERT的規模縮小40%,因此需要的計算資源與時間更少,特別適用於處理大型數據集的應用。
- 更快的推理速度:DistilBERT透過縮小後的模型規模,使其推理速度比 BERT快60%,而在裝置端(如行動裝置)應用場景中,例如手機問答應用,DistilBERT的推理速度比BERT快71%。
- 可比擬的效能(Comparable Performance):儘管DistilBERT的模型規模大幅縮小,但它在主流NLP基準測試中仍保留97%的BERT準確度。這種在模型規模與效能保持之間取得平衡,使DistilBERT成為BERT的可靠替代方案。
由此可見,蒸餾技術並非是一個新鮮的技術,而是早在好幾年前就已存在,且其效果是驚人之好,如DistilBERT的論文標題一樣「更小、更快、更便宜且又輕量」。接著,就繼續往下看DeepSeek的DeepSeek-R1模型是如何蒸餾的。
DeepSeek模型如何蒸餾OpenAI的o1模型
下圖是DeepSeek的DeepSeek-R1模型蒸餾OpenAI的o1模型之示意圖:

DeepSeek-R1蒸餾OpenAI的o1模型之示意圖
蒸餾技術有兩大角色:一個是老師模型(teacher model,相當於前述的X教授),另一個是學生模型(student model,相當於前述的Y學生),而學生模型的功能不僅從老師模型中學習相關知識,而且還要「濃縮」變成自己的知識,這過程可分成三大面向解析。
- 老師模型:類比於OpenAI的o1模型。由於其本身是從大量的數據集中,經過Transformer架構做深度學習成為一具有推理能力的o1模型。
- 學生模型:類比於DeepSeek的DeepSeek-R1模型。由於OpenAI的o1模型根本上係屬「閉源」,則其內部的隱藏層外人未可知,那DeepSeek又要如何提煉o1模型的隱藏層內的知識(即神經元的個數與權重)?合理推測,DeepSeek應該是透過付費使用OpenAI的API(Application Programming Interface,應用程式介面),並透過自己改良的演算法,例如無需基於人類反饋的強化學習(即RLHF,Reinforcement Learning from Human Feedback,即在不需任何監督數據的情況下具有推理能力,同時又避免過去帶有人為的偏見與不準確性);此外還用了一種所謂的GRPO(Group Relative Policy Optimization,群體相對策略優化),讓模型基於既有的知識進行優化,大幅提升模型的推理能力與降低訓練成本,以進行對老師模型反覆地問答與存取,藉此汲取老師模型的知識。此外,DeepSeek-R1模型可透過超參數,調校成一個比o1模型還要小的Transformer架構,透過反覆地訓練優化DeepSeek-R1模型。這就好比老師儘管教學時重要的原理都不講而只講答案,但透過學生不斷地追問,基本上都還是可以拼湊出背後的原理。
- 蒸餾損失(LOSS):可簡單理解為一種老師模型將知識轉移給學生模型的方法,其關鍵機制是,透過老師模型的類神經網絡輸出層,計算出的軟機率(Soft Probability)來指導學生模型的學習。簡言之,當學生模型的輸出分佈,逐漸與老師模型的輸出分佈對齊時,就能進行知識轉移,這樣學生模型就能在較小的類神經網絡規模下,達到接近老師模型的效能,甚至在某些情況下還可獲得更好的泛化能力。
DeepSeek模型整合其他技術
再者,有專家認為,DeepSeek之所以吸睛,並非只是單純透過蒸餾技術來精煉其R1模型,它在基於Transformer模型上還整合了許多其他技術,例如:
- 混合專家模型(Mixture of Exports, MoE),它的技術核心是透過許多專業一起協作達到優化模型的效果。混合專家模型本身包含像是數學、物理、天文與生物學家等、法學專家、料理廚師、旅遊達人…等許多「專家」,若某人對DeepSeek-R1模型問「何謂量子糾纏?」時,混合專家模型就會啟動物理學家來回答問題,而其他的專家就不參與,藉此大幅降低昂貴的運算和記憶體資源。
- 強化學習(Reinforcement Learning):DeepSeek-R1模型透過冷啟動(cold start),在訓練初期更快地學習環境中的行為。所謂冷啟動,其實是模型在缺乏足夠數據支持的初期,透過一些預先設計的方式來提升其效能,並逐步收集更多數據以改進預測或推薦的準確性。舉例來說,過去電子商務的推薦系統,由於初期缺乏使用者數據,難以提供準確的推薦。為了克服這個問題,冷啟動就會基於內容的推薦方法,或初步隨機推薦來收集使用者的初始反饋,並逐步收集更多的初始反饋而得以提升預測或推薦的準確性。
- 思維鏈(Chain-of-Thought, CoT):經過強化學習後,DeepSeek-R1模型會逐漸展示出「頓悟」的能力,並能自我反思與驗證。以下是DeepSeek-R1模型的前身DeepSeek-R1-Zero模型,針對一道數學難題所做的推論過程之示意圖,其中顯示出的一段文字「Wait, wait. Wait. That’s an aha moment I can flag here.」(等等、等等。這是一個我可以在此處標記的頓悟時刻。),充分展現出模型學會用擬人化的語氣重新思考。論文中更提出,利用:(A) 少量樣本學習(Few-shot Learning)提供一個帶有思維鏈的範例,讓模型生成詳細的推理步驟;(B) 直接對模型產生提示指令,要求模型自我反思並驗證其答案,以確保邏輯的完整性和準確性;最後,(C) 人工註解:對於生成結果進行人工提煉,以提高文本的可讀性與準確性。
DeepSeek-R1模型的前身DeepSeek-R1-Zero模型,針對一道數學難題所做的推論過程之示意圖。
- 獎勵函數(Reward Function):DeepSeek-R1模型的訓練過程中,運用了一些數學技巧使模型自我進化並提升推論能力,好讓模型在輸出答案之前透過「自言自語」地對話,使得推論過程更具有可讀性與結構化,這數學技巧非常有助於DeepSeek-R1模型推論過程中確保思路的清晰,就像數學考試中的計算題或證明題要求考生一定要寫推論過程一樣,確保考生是真的理解。
本文推測,OpenAI當初在深度學習做訓練時,不論是文本、圖像或影音等數據集,憑藉著有輝達如H100高階GPU的算力下,一股腦就把數據集投入類神經網路中做訓練,但這樣可能會造成許多重複的資料或冗餘的數據被無意義地計算,使得過程中浪費很多算力與記憶體資源。然而,DeepSeek在算力資源缺乏下,將所有的數據集事先予以分類,好讓模型不僅可以提升學習效率,而且在不需太多的算力下,就可達到如o1模型的水準(姑且不論DeepSeek的整個訓練過程是否不到600萬美金,但根據DeepSeek的論文發表與開源模型來看,確實比OpenAI所花的訓練成本來得低)。
總之,DeepSeek基本上,是站在巨人的肩膀上做學習與改良,讓既有的大模型的知識轉移給小模型,而小模型在不需太多昂貴的運算與記憶體等資源的條件下,節省大量的成本並加速推理速度。也就是說,OpenAI是在做「0到1」的工作,而DeepSeek則是做「1到N」的工作。
然而,值得注意的是,如只單純靠蒸餾其技術底蘊將會不足,充其量僅能逼近的層次,而無法畢其功去超越原參酌引用的模型﹗本文推測DeepSeek或許之前用蒸餾,但之後應不僅僅只倚賴OpenAI的大語言模型,而是透過其優秀的團隊開發出自己的know-how,二者相輔相成後才能如虎添翼般,達到近乎大模型的準確度與推理能力。
DeepSeek的蒸餾技術會侵犯OpenAI智財權?
在上述這種蒸餾技術的運作下,OpenAI指控DeepSeek是截取其模型,搭便車以達到彎道超車的效果,本質上就是一種數據侵權!雖然OpenAI目前還沒提告,但究竟所謂的蒸餾真的會造成智財侵權?這是目前大家最關切的議題!目前事實尚不夠明確,但本文針對此提出幾個基本IP觀點供大家思考(本文不談晶片禁運議題)。
要談侵權,就必須檢視在蒸餾過程中,是否有侵犯智財權的地方,而其中專利當然是最關鍵的,然而基於從網路上查詢OpenAI本身似尚未獲准什麼AI專利,這可能是跟當初馬斯克和阿特曼最早將GPT定位在以公益為主的模式上,後來雖轉化成營業模式,但從公開資料顯示其專利還屬罕見!再者,另一可能是關於營業秘密的竊取,而目前OpenAI還未做此種指控,也就是說尚無OpenAI的離職員工跳槽到DeepSeek,上演過去科技界常發生的帶槍投靠,將技術竊取到新東家情事。因此,最重要的參考指標,當然就在著作權了!
(一)蒸餾技術流程中重製後產生結果之法律定性
根據上述蒸餾技術的操作流程來看,學生模型既然要學到老師模型的精髓,理論上當然就必須截取老師的內容,因此可以想見,DeepSeek基本上應是使用相關的AI機器/深度學習演算法,不斷將老師模型經prompting後將所有數據和內容吸收演練。因此這裡就碰到一個著作權法上的議題,那就是以DeepSeek透過技術手法不斷讓ChatGPT衍生吐出海量內容,再加以吸收消化將其轉換融入自己的小模型,甚至透過在強化學習上的演算法技巧,做更精緻準確的呈現。
在此必須探究的是,如DeepSeek以演算法海量取用重製ChatGPT吐出的數據材料,再做出自己的模型這有侵權嗎?亦即,DeepSeek產生之結果內容會和ChatGPT吐出的內容相似嗎?
針對此點,基本上,因為AI運作並不是「複製」加「貼上」的概念,所以經過機器深度學習的演算法操作,如Transformer模型與其輸出的概率分布,來獲取概率最高的文字圖形等標的做連結,那麼原則上,AI自動生成出來的東西,不會像複製貼上那般造成著作權法上之「實質近似」(substantial similarity),也因此除了紐約時報和Claude少數案件的原告(請參閱全球首宗音樂出版商控告生成式AI Claude著作侵權案、媒體巨擘控告ChatGPT著作侵權案 --New York Times v. Microsoft & OpenAI),能振振有詞舉實例指責ChatGPT吐出來的東西構成相似之外,目前大部分美國案件中,原告不論是作家、繪畫攝影等圖形影像或開源碼的原告著作權人,都還難於主張OpenAI實際上就是用了具著作權的素材(請參閱美國畫家控告Stability生成式AI工具著作侵權案-- 首波程序判決出爐原告鎩羽而歸、美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐[1])。
這是AI的技術本質使然(即便基於概率或是黑盒子的情況,不排除會有些相似結果之可能)!也就是說,理論上DeepSeek即使抓取了ChatGPT數據材料,之後其模型被使用者prompting所吐出來的內容,不見得與ChatGPT原來的內容相似(如有近似那OpenAI當然就撿到槍可大肆砰擊,不過仍有authorship缺憾詳下述),基於著作權法「概念與概念表達二分原則」 – 亦即「著作權不保護概念本身,而只保護概念表達出來的東西」,可能不侵權。(請參閱AI聊天機器人ChatGPT引爆著作侵權疑雲?—文字篇)
(二)蒸餾技術之中間過程重製的法律定性
但大家會接著問,DeepSeek實際上在蒸餾技術中間過程做的重製呢?基本上,蒸餾技術將OpenAI經過prompting之後吐出的內容加以收集後,再整理變成自己的知識,這個收集擷取的動作表面上雖構成複製,但這樣的作法,OpenAI自己早就在其建構GPT訓練集時,在網路上抓取海量素材複製過無數他人的作品了,這也是為什麼OpenAI迄目前為止已被告了20多個著作權的案件(請參閱全球生成式AI相關之訴訟大觀-- 盤點OpenAI、Microsoft、Meta、Midjourney等AI官司)!換句話說,對傳統素材的著作權人而言,OpenAI本身就是剽竊者!雖然目前還沒有任何實質判決認定OpenAI構成侵權,但基本上其未付費就使用所有他人享有著作權的材料,這是不爭的事實!說穿了,即OpenAI使用傳統作者的內容,而DeepSeek使用OpenAI的內容。
但本文認為,就開發AI模型過程中進行蒸餾技術之中間的重製,不當然會侵犯他人權利,試想二十多年前Google的search engine就這麼幹了[2]!因此關鍵在於,最後產品或服務呈現出來的內涵,究竟是否有構成侵權!這部分美國已做出著名的Authors Guild v. Google案例,因為巡迴上訴法院認為,只要最終產生出來的內容,就算用到原告的著作內涵,但因為產生「轉換性之合理使用」(transformative fair use)[3],(請參閱從美國人工智慧擴散模型訴訟案--談生成式AI圖像之著作侵權議題),則前段的中間複製違法就可以不論﹗由此可見,中間過程的複製是可能不構成侵權!不過這仍要看個案而定,因為如最後的結果不構成合理使用,那麼前面這段的中間過程複製當然仍會有違法問題!
在美國AI生成的內容無著作權
其實,更嚴重的問題是,OpenAI雖指控DeepSeek抄襲其模型構成侵權,但這是一般說法,因為如果要實際探討其究竟侵犯了什麼權?智慧財產權或著作權嗎?如果是著作權的話,那就弔詭了!因為根據美國著作權局以及華盛頓特區法院的看法[4],目前在美國一般普遍的見解是,只要是AI自動生成出來的內容,基本上因為欠缺「人類作者身分或屬性」(authorship)概念,所以基本上AI生成的內容都不能享有著作權!(請參閱AI自動生成內容非人類所寫 –是否可享有著作權?—權利保護資格篇)
但是,依最近美國著作權局2025年1月才剛發布的關於「AI可著作權性報告」:Copyright and Artificial Intelligence Part 2: Copyrightability,該局認為,只有人類作者輸入足夠的表達元素,生成式AI的輸出才可能受到著作權保護。這包括在AI輸出中可感知人類創作的作品,或人類對輸出進行創造性安排或修改的情況,但不能僅是提供提示[5]。因此,任何由AI系統單獨創作的作品均不適格,除非最終產品明顯受到人類的指導和影響,且美國法院始終堅持保護需要求人類作者的身份。該報告認為,雖然使用AI作為工具並不會立即否定著作權保護,但所產生的作品,只有在包含足夠之人類創作的表達元素時才可(即視prompting是否達到足夠具體之「表達程度」而定)[6]。
這是否意味靠向中國北京互聯網法院所採取肯定保護的的見解,(請參閱中國大陸生成式AI首宗著作侵權案──北京與廣州法院判決與美國案例比較),尚待觀察!在這種情況下,如果在美國AI生成的內容,欠缺人類創作的表達元素而不具著作權,那麼,DeepSeek如運用上述的學生模型,將老師模型相關的數據內容吸收消化,歸納作出自己的模型,這個過程中因為老師模型的數據內容無著作權(即OpenAI之ChatGPT生成皆是不得享有著作權的內容),那DeepSeek又何來侵權可言?
龜笑鱉無尾 -- 五十步笑百步
由此可以看出,DeepSeek如也採取相同的方法截取OpenAI的素材,使OpenAI搖身一變成為權利人的立場,去指責DeepSeek抓取其材料來訓練DeepSeek自己的模型,因此這裡諷刺的是,如OpenAI在其被告的案件中,抗辯其未侵犯原來這些作家的著作權,那DeepSeek也用一樣的手法來訓練,當然也不會變成侵權?簡言之,可以看出OpenAI角色做了替換,原來別人指控其所做的,現在拿來指控DeepSeek,DeepSeek當然可以「以子之矛攻子之盾」抗辯不構成侵害!不過,只要OpenAI可以舉出透過他的工具所吐出來的文字,逐字逐句也呈現在DeepSeek模型中時,這可能又另當別論!不過這一切當然必須還要透過實際具體個案例,視其所主張的證據而定!
蒸餾技術的做法是否係逆向工程
網路上有人討論,DeepSeek蒸餾技術做法,是否係根據過去傳統以來科技界所常用的逆向工程或還原工程?所謂逆向工程(reverse engineering),係指以一項已完成之產品或實物作為研究物件,從其已知悉之外觀終局結果,由後向前逆行方向有系統地逐步去推測分析其形成之原因,從而發現其製作之過程,再予以複製或修改以製成自己產品之謂;其複製之形式,有的是複製該實物之功能及操作方法或執行原則,有的則鉅細靡遺將其整體複製。
還原工程在科技業界,不論從科技面、經濟面、社會面均屬複雜之法律問題。而還原工程他人之技術,只要能證明其係自己投入人力、財力所開發出來,則縱使與他人產品雷同或實質相似,針對逆向工程,在營業秘密法理上普遍認為這個是允許的!而在著作權的領域當中,美國也有案例顯示逆向工程不見得構成違法,端看逆向工程之後做出來的東西是否會侵害原創作!亦不構成著作權或營業秘密之侵害 [7]。
也就是說,開發過程中的逆向工程並非當然侵權!那DeepSeek的做法是逆向工程嗎?因為DeepSeek並沒有針對所謂的final product,進行所謂由後向前去做解析組譯的工作,不過是針對老師模型去截取數據進行訓練和加值應用。因此在觀念上,此似乎並非傳統的逆向工程,但換個角度看,DeepSeek的蒸餾做法,觀念上其實和逆向工程是異曲同工的!在這裡也許不需要去強加解釋蒸餾技術的做法是否構成逆向工程,只要從著作權法的角度進行剖析即可。
違反合約不見得是侵權
接下來,我們再來看另外一項因素,亦即從合約的角度來觀察!基本上,OpenAI的使用條款中已說明:所有使用者所prompting出來的內容都有權加以使用!而且OpenAI不會針對這些內容主張任何權利。換句話說,如果這些內容有著作權(純屬假設)OpenAI也不會主張,這就是使用者的專屬內容!從著作權的觀點而言,其實生成式AI所吐出來的東西,你要說他是模型提供者所做,尚非無疑﹗因為事實上,他只不過是將所有的材料備妥,讓用戶透過Prompting組成!
另一方面,使用者透過prompting之後所產生的內容,基本上也不見得是使用者自己的獨立創作,基本上仍必須要二者相輔相成合作才能達成!因此對於DeepSeek所prompting之後再透過自己的演算法自動化產生的內容,OpenAI似乎沒有權利主張這是它的智財權!不過,這裡面有個現象是,OpenAI在使用條款中,有禁止使用者以其AI工具去創造其他的AI生成工具模型!不過,必須注意的是,即使違反使用條款也不過是合約的違反,不代表立即構成智財權的侵犯 [8]。
OpenAI是否會提告DeepSeek?
接下來看到底會不會有訴訟產生!應該這樣說,Transformer的四大模型(ChatGPT, Llama, Claude, Gemini),基本上都是各自透過自家AI工具(包含軟硬體配置與架構),去擷取海量資料建構自己的數據集做訓練,這當然是高昂成本以及耗能的過程,而DeepSeek截彎取直拿別人現成的東西來做訓練,此時如要告DeepSeek,就牽涉到國家管轄法院的議題!
如果OpenAI在美國提告DeepSeek,由於DeepSeek可能沒有在美國設立公司或分公司,因此對一境外的中國企業提告,也許網路上任何美國人在任何地方都可用到DeepSeek,來建構侵權結果地的主張,或許管轄權爭議較低,但這也要看美國管轄權的概念,但即使如此,這樣的提告是沒有意義的,基本上DeepSeek應不會去應訴,而且美國在此種情況下就算拿到一個缺席判決,也沒法到中國去執行,因為中國根本不承認美國判決!
其次,OpenAI雖然也可以到中國去提告,但過去幾十年來的經驗顯示,美國人在中國打官司,經常還是要受到愛國裁判的影響!更遑論,這幾年來中美科技和貿易大戰,美國公司根本別想佔任何便宜!到中國去提告注定會灰頭土臉!因此,OpenAI原則上不太可能會去提告!更遑論,OpenAI從ChatGPT之後就更加閉鎖,所有重要技術資料都不公開,如在美國提告在證據開示程序(Discovery)要求下,必須要揭露很多東西!筆者認為AI暫不會甘冒此大不諱來進行訴訟!
最後要講的是,OpenAI抄了不知多少美國權利人的智財權,縱使迄今法院尚未做出實體判決,但該政府對國內企業AI智財爭訟從不吭聲,而現今因為全球AI科技的發展趨勢,國際間只有中美二強競爭,因此中國冒出來足以構成美國AI業嚴重威脅的DeepSeek,當然要大肆抨擊!反過來說,試想如果今天是一個美商公司來做DeepSeek類型的工具開發,那了不起在美國只不過是一個國內訴訟而已!但今天涉及中美科技和貿易大戰的情況下,美國當然就會跳出來嚴加撻伐!
小結
站在智財權是否構成侵害的觀點,本文認為,目前生成式AI工具產生爭議有三造,先是眾多的美國著作權人去控告OpenAI著作侵權,因為他們的著作權素材大量被OpenAI使用而無任何授權,但風水輪流轉,OpenAI本身也遭到DeepSeek的取用,所以OpenAI搖身一變從被告變原告(雖迄今尚未提告),大力指責DeepSeek侵權。基本上,著作權法評價是一致的,這與中美政治角力無涉!
目前雖然許多事實還未被開示,真相如何固不得而知!但根據以上的技術分析來看,如果是上述技術操作的方式,那結論應該一致!也就是說,OpenAI取用原權利人的材料,假如能構成合理使用而不侵權,那同理,取用OpenAI的模型,如果衍生出更有效率,譬如減少晶片增加算力,甚至是在使用上讓用戶能有更佳的體驗,在事實釐清後,如果DeepSeek在使用上真的創造出一些所謂站在巨人肩膀可以看得更遠的一些價值,只要有利於社會大眾的公共利益,那DeepSeek理論上也不是不能主張合理使用!
反之,如OpenAI有可能構成侵權,那依同樣的邏輯,DeepSeek也難脫身!不過這一切都還要看證據講話!因為畢竟二者的技術不見得相同,不過在理念上,技術永遠是會被迭代超前的,沒有人是永遠的霸主,透過不斷模仿利用,才能增添創新的火花!這回合的DeepSeek雖然讓人驚艷,但不像之前生成式AI般的「毀壞式創新」,或甚至連創新都談不上,但如其使用較少的GPU晶片讓成本降低(雖然可能應不止二千顆),這在技術上已是一項突破。未來科技的演進,仍舊是長江後浪推前浪,這些一時的創新或許也馬上會被後浪沖刷!筆者認為,DeepSeek既然必須倚賴建構在其他大模型(如Llama或Qwen)的基礎上,在強化學習的演算法方面做些改良或優化,則其恐需添加更多技術火花!
總之,未經授權的蒸餾或許會違反教師模型的服務條款,但針對此違約行為的法律補救措施,是否足以保護智財權,尚待考驗。放眼未來,模型蒸餾對智財權仍將有廣泛的影響,因為目前最夯的「AI代理」(AI Agent)和特定領域的AI專家模型也持續可被蒸餾。但著作權之框架,可能無法提供足夠保護來防止蒸餾,且就蒸餾過程中學生模型經由強化學習後,所產生的數據集其知識優化背後的方法,甚或是訓練模型的程式碼和生成模型背後極為寶貴的 「參數」或「權重」等,常常並非以一般可著作權之標的來呈現,在蒸餾AI模型的背景下,這些受著作權的保護就很有限。因此,焦點或許應轉到營業秘密(有些或許可考慮用專利)之保護。
最後,本文一直在談侵害,其實比較有一個大的層次的議題,就是目前全球各國都在討論的「數據權」!這個概念的內涵目前並未釐清,但籠統而言,AI的發展看來已有一種必須被保護的權利隱隱成形,而這個數據權正是反映出實際上的需要!但所謂之數據權概念不明,且並非是在既有法律規範體制下如智財權或其他個資隱私所能涵蓋,因此DeepSeek所引用OpenAI的o1模型數據,假設即使沒有問題,但違規引用他人數據,除合約違反外,Data Right法律的後續發展,似乎更受到世人的關注!(10219字;圖1)
作者資訊:
陳家駿律師 台灣資訊智慧財產權協會 理事長
許正乾執行長 因子數據股份有限公司 共同創辦人
註解:
[2] 以Google最早之搜尋引擎為例,其在網路上大量擷取資料,然後透過URL連結方式之提供,將瀏覽者導入特定網站查找出特定資訊。此運作模式雖然在中間過程涉及大量重製,但因最終呈現之搜尋工具本身並未保留任何具著作權之「表達內容」,且實際上有助於網友得以迅速有效瀏覽到其內容,此有益於資訊擴散之公共利益得構成合理使用。
[5] 美國著作權局局長Shira Perlmutter表示:「在考慮廣泛的公眾評論和當前的技術發展狀況後,我們的結論是,人類創造力對於版權的核心地位。」「當創造力透過使用AI系統來表達時,它將繼續受到保護。然而,將保護範圍擴大到其表達元素由機器決定的材料,將會破壞而不是促進著作權的憲法目標。」
[6] 但即使設定如此原則,美國著作權局針對實務上受理著作權登記的事項,仍是非常謹慎!以2024年底Andrew John King申請登記之音樂影片Film clip for song Just Like In A Movie為例,該局仍然將直接由AI生成的結果排除在著作權登記之外。據悉該影片的剪輯過程,包括作者的選擇、協調或編排由AI生成的音樂與影像元素,以及作者原創的歌詞。該局認為著作權適用於該影片之特定的選擇或編排方式,以及作者的歌詞,但不包括由AI生成的元素。換言之,該影片是由 (1)具著作權的元素(歌詞)與 (2)不受著作權保護的元素(AI生成的音樂與影像)所組成,而這種針對本不受保護之素材,在將其進行特定的選擇與編排之後,就屬於可受著作權保護之「編輯著作」。
[7] 以合法手段取得營業秘密所附著之物後,進行還原工程分析其成分、設計,取得同樣之營業秘密而言,為第三人自行研究開發取得之成果,並非不公平競爭之手段,美國統一營業秘密法第1條之中特別明列正當手段包括還原工程,而我國營業秘密法第10條第2項不正當方法中之「其他類似方法」一詞,立法理由特別明示不包括還原工程在內,故原則上不構成違法;而美國2016年才通過具聯邦性質之防衛保護營業秘密法(Federal Defend Trade Secrets Act DTSA)亦然,18 U.S.C. § 1839(6)(B) excluding reverse engineering from the definition of “improper means”。
[8] 合約的違反,有時會構成智財侵害,譬如說著作權人授權製造100單位,但被授權人竟做了200個單位,那多出來的100個單位當然可能成侵權!但在這裡,基於DeepSeek所生成出來的文字,究竟和ChatGPT的內容是否構成實質相似,尚不可知。根據本文前述,在AI運作下,透過文字接龍和自注意力機制,很可能是不夠成所謂的實質近似,不過這仍要看實際發生個案的情形而定。
參考資料:
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. 2018/10/11.
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google AI Blog. 2018/11/02.
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv. 2019/10/02.
DistilBERT: A Distilled Version of BERT. Ziklliz. 2024/09/22.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv. 2025/01/22.
大模型的蒸餾(Distillation)及DeepSeek遭遇的指控。Jeff科技視角。2025/01/30。
DeepSeek如何顛覆AI界?曲博用一張圖讓你秒懂AI運作!鈔錢部署。2025/02/07。
DeepSeek創新還是抄襲,美中AI競爭前景如何?方菲時間。2025/01/30。
Copyright and Artificial Intelligence Part 2: Copyrightability. United States Copyright Office. 2025/01.
Copyright Office Releases Part 2 of Artificial Intelligence Report, United States Copyright Office. 2025/01/29.
Chat GPT Is Eating the World, US Copyright Office allows registration of AI-generated video based on editing of AI generated video, music. Chat GPT Is Eating the World. 2025/02/16.
Detailed Record View Registration record PAu004252052, Film clip for song Just Like In A Movie. Public System. 2024/12/09.
Copyright Office Publishes Part 2 Of Its Artificial Intelligence And Copyright Report. Mondaq. 2025/02/12.
OpenAI Accuses DeepSeek of AI Distillation Theft: A Case of the Pot Calling the Kettle Black? OpenTools. 2025/01/30.
--------------------------------------------------------------------------------------------------------------------------------------------