美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐

關鍵字：；；；；；()；；()；()；

瀏覽次數：2859｜歡迎推文：

科技產業資訊室(iKnow) - 陳家駿發表於 2024年2月5日

圖、美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐

ChatGPT自2022年11月推出以來，迅速引起全球矚目，各行業紛紛採用蔚為風潮，使得其操盤者OpenAI因而身價暴漲，目前被估值超過800億美元；其合作伙伴微軟也受惠水漲船高，股價不斷創下新高。然而，這些AI自動生成內容的工具，同時面臨著一系列著作權侵權官司，OpenAI和微軟也數度被控告。一般認為，AI工具在訓練模型時需要大量文本數據，因此必須進行大量重製，包括維基百科、文學小說、書籍期刊、報章雜誌等。這些內容被用來訓練數據建構語料庫。然而，這種作法迭受批評遭指責為無償竊用。在AI科技最發達的美國，已爆發多起作家控告生成式AI著作侵權的訴訟，當事人與起訴時間如下：
(1) Paul Tremblay and Mona Awad v. OpenAI, Inc. et al -- 2023年6月
(2) Richard Kadrey, Sarah Silverman, Christopher Golden v. Meta Platforms, Inc. --2023年7月
(3) Sarah Silverman, Christopher Golden, Richard Kadrey v. OpenAI, Inc. -- 2023年7月
(4) Authors Guild, et al. v. OpenAI Inc. et al. -- 2023年9月
(5) Alter, Sancton, et al. v. OpenAI Inc. Microsoft, et al. -- 2023年11月

本文茲介紹已由法院作出首波程序判決之第(2) Meta案。

本案之原被告
本案原告和集體訴訟成員都是美國擁有著作權的作者，其中原告Kadrey擁有多本書籍的註冊著作權，包括《瘦長睡魔Sandman Slim》；原告Silverman擁有書籍《尿床者The Bedwetter》的註冊著作權；原告Golden擁有多本書籍的註冊著作權，包括《阿拉若Ararat》。而被告係以擁有FB知名之Meta Platforms公司，是一多元化的網路公司，致力於創建、營銷和銷售軟硬體技術產品，包括Facebook、Instagram和Horizon Worlds。

Meta未經原告同意將該等受著作權保護的書籍，用作LLaMA語言模型的訓練材料，複製並納入LLaMA的訓練中，以致原告等許多受著作權保護的書籍，皆出現在Meta承認用於訓練LLaMA的數據集中，因此原告於2023年7月，向北加州聯邦地院起訴Meta侵害著作權，案件由Vince Chhabria法官審理。

Meta生成式AI工具LLaMA
原告起訴指控，2023年2月Meta推出上述LLaMA語言模型的AI產品，是一大型語言模型(LLM: large language models)，該模型是一種AI軟體，目的在對使用者提示產生具有說服力的自然語言文本輸出。但此LLM並非像傳統軟體程式由人類工程師編寫程式碼而創建。相反的，LLM在訓練過程中，透過複製各種大量文本來源，將其輸入模型「訓練」數據集中的每段文本，並從中提取表達性之資訊(expressive information)，這個輸入材料的語料庫構成訓練數據集；LLM再逐步調整其輸出，使其更接近從訓練數據集中所複製的單字序列。

一旦LLM複製吸收所有這些文本，訓練數據集就能模擬生成令人信服的自然書寫語言。LLM的輸出，完全依賴其訓練數據集中的材料，每次組合文本輸出時，模型都依賴從其訓練數據集中提取資訊。因此，關於在訓練數據集中包含哪些文本資訊的決定，是經過深思熟慮且重要的選擇。

然而，Meta的訓練數據集中的許多材料，皆來自於有著作權的作品，包括原告撰寫的書籍，這些書籍是在未經授權、未署名和未獲得補償的情況下被Meta複製的。作者，包括原告，發布的書籍都包含特定的著作權管理資訊。這些資訊包括書名、ISBN號或著作權號、作者姓名、著作權持有人的姓名以及使用條款和條件。大多數情況下，這些資訊被置於書籍標題扉頁的背面，並且是任何書籍的標準訊息，無論其類型如何。

LLaMA訓練數據集之組成
原告之起訴指控，Meta將LLaMA語言模型的訓練數據集，描述為「大量的文本數據」，因其係公開且「與開源相容」(compatible with open sourcing)。開源是指將數據以寬鬆風格之「開源授權」模式公開。然而，通常擁有著作權的材料不會與開源相容，除非著作權人先將其納入開源授權，使他人得以在之後進行開源使用。

在描述LLaMA訓練數據集組成時，LLaMA訓練數據的85 GB來自名為「Books」的類別。Meta解釋其包括二個網路來源的書籍文本：（1）古騰堡計劃(Project Gutenberg)，包含約7萬本不受著作權保護的線上書籍檔案庫，這些書屬於公有領域；以及（2）ThePile的Books3部分，是用於訓練大型語言模型的公開數據集，Meta的LLaMA論文未進一步描述Books3或ThePile的內容。

然而，這些資訊可在其他地方找到，ThePile是由EleutherAI研究組織收集的數據集。2020年12月的一篇論文中，EleutherAI介紹了這個名為「The Pile: 一個包含多樣文本800GB數據集用於語言建模」的論文中介紹此數據集。該論文顯示，Books3數據集包括108 GB的數據，約占數據集的12%，使其成為The Pile按大小排名的第三大組成部分。

EleutherAI的論文描述Books3的內容，是從Bibliotik跟蹤器的內容複製而來的書籍數據集，Bibliotik包含各種小說和非小說書籍，比最大的書籍數據集(BookCorpus2)大了一個量級。但Bibliotik是眾多惡名昭彰的「影子圖書館」(shadow library) 網站之一，其他還包括Library Genesis (LibGen)、Z-Library (B-ok)和Sci-Hub，這些網站匯總大量著作權的書籍和其他材料，可透過種子(torrent)系統大量提供，因此向來受到AI訓練界的興趣，但這些影子圖書館明顯是非法的。Books3數據集代表所有Bibliotik所包含的196,640本書，EleutherAI目前透過其網站(https://pile.eleuther.ai/)發行Books3的副本，原告等許多書籍都出現在Books3數據集中。

本案原告關於著作侵權之指控
原告提出以下直接和間接的侵權之主張。

著作權直接侵權 (Direct Copyright Infringement)
為了訓練LLaMA模型，Meta複製包含原告許多書籍的Books3數據集。原告從未授權Meta複製其侵權作品、製作衍生作品、公開展示或發行副本（或衍生作品）。所有這些權利根據著作權法規定，僅屬於原告的專屬權利。Meta在LLaMA模型的訓練過程中，未經原告授權複製被侵權作品(17 U.S.C. § 106)。

由於LLaMA模型，如未從先前原告被侵權的作品中，提取表達資訊的情況下即無法運作，因此這些模型本身，就是未經原告授權而製作的侵權衍生作品，侵犯原告在著作權法下的專屬權利。原告因Meta的直接著作權侵犯行為而受到損害。

著作權間接侵權 -- 代理侵權 (Vicarious Copyright Infringement)
「代理侵害」係指行為人對他人之侵害行為，有權利和能力控制(right and ability to control)監督，且從該侵害行為中直接獲得經濟利益者。由於LLaMA模型的輸出，是基於從原告被侵權作品中提取的表達資訊，因此該模型的每個輸出，都是一個侵權的衍生作品，未經原告授權並違反著作權法下的專屬權利。而Meta有權利並有能力控制LLaMA模型的輸出，並從該模型的侵權輸出中獲得經濟利益。因此，該模型的每個輸出，都構成一個間接的著作權代理侵權行為(17 U.S.C. § 106)，原告因Meta的間接侵權行為而受到損害。

刪除著作權管理資訊和虛偽主張著作權
原告主張侵權作品中，包含著作權管理資訊(CMI: Copyright management information)，如著作權通知、標題、作者姓名、使用條款或其他識別資訊，以及指向CMI的識別號碼或符號。原告指控Meta未經授權複製並將其用於LLaMA模型的訓練數據。在此過程中，Meta並未保留任何原告的CMI；且被告基於原告侵權所作的衍生作品，透過這些不含CMI的作品，違反17 U.S.C. § 1202(b)(1)與(3)規定，因其刪除了原告作品與衍生作品中的CMI。此外，原告指控Meta虛偽聲稱對LLaMA模型擁有唯一的著作權，而實際上該模型是侵權的衍生作品，Meta也違反17 U.S.C. § 1202(a)(1)規定 [1] 。

本案被告關於駁回起訴之動議聲請
本案被告依美國民事訴訟法，提出駁回原告之訴的動議(motion to dismiss)，係指原告於起訴狀中，表面上必須主張足夠之敘述，至於所陳述事實是否有證據支撐則待後續之審理。如依原告之主張，欠缺足以請求法院救濟的法律依據時，即該主張從表面上即缺乏法律基礎，被告在程序上可提出動議請求法院駁回原告起訴，在訴訟前期早早擊敗原告（依當事人進行主義，動議需當事人自行聲請，否則法院不會介入），故本案被告聲請駁回之動議。

AI自動生成結果構成衍生著作之探究
由於法院係基於駁回動議之聲請所作的程序判決，法官焦點之一集中於LLaMA之衍生著作，因此先介紹相關概念。

「衍生著作」之定義與原作之關聯性
本案原告指控被告未經授權，非法重製其小說並以此自動生成衍生著作(derivative work)。依美國著作權法，衍生著作係基於既有作品重新塑造、轉化或改編成而成，例如翻譯、音樂、戲劇、小說、電影、錄音、藝術複製或轉化成任何形式的作品，其經由編輯、修改、註釋、闡述或修改，就原著作另為創作構成「衍生著作」。

衍生著作和原作之間，應有明確的互相對應和脈絡承接關係，不論衍生之再創作內容多麼創新，仍需在結構和內容上包含原作之成分和元素，並添加足夠之實質改變或轉化，但仍保留原作的內涵和精髓，換言之，衍生著作雖以原創為基礎，在結構和內容表達上，可得被辨識係脫胎源自於原作。因此，法律上將其歸因於原創所賦予的內容，使得衍生著作仍需取得原作者的授權。

本案原告主張被告讓使用者輸入指令提示(prompting)，產生基於其小說內容構成衍生著作，但原告必須先具體舉出，被告究竟產出哪些自動生成的內容，而這些內容是如何建立在原作基礎上的再創作，以及這些生成的脈絡和組成係如何出於原作。

本案生成式AI得否構成「衍生著作」
在本案中，是否生成式AI構成「衍生著作」成為爭議焦點之一。原告指控被告生成式AI構成原作之衍生著作，但是否如此，需檢視LLaMA自動生成的內容是否具有源自原作的特質？欲建構衍生著作之取決點在於，自動生成的再創作，是否在結構和內容上包含足夠的原作元素或成分在內，而得反應出二者間之對應或脈絡關係，這是判定被告是否構成「衍生著作」的關鍵，否則空言AI生成之再創作屬於衍生著作，即無所據。

原告主張被告未經授權之再創作構成衍生著作，但從著作權法角度，如何認定該自動生成就是由原告小說所「衍生」而得？二者間之脈絡關係為何？再者，自動生成之內容在何種情況下可構成衍生著作？如何就一本小說所表達的內容，將其轉換衍生成其他內容？以上在在需說明，但問題是，原告對被告自動生成之內容事實，竟然完全未主張並予闡明，而僅是空泛主張係運用技術得出即屬衍生著作。

北加州地院新出爐之程序判決
針對原告三位作家的起訴，被告Meta已對其所有指控提出駁回起訴之動議，除了指控未經授權複製原告書籍，以訓練LLaMA構成侵權一項訴求之外。於2023年11月下旬，北加州地院做出一項簡短但措辭銳利的程序裁定，雖然核准被告駁回起訴之動議，但保留讓原告可修改其訴訟主張再審理，不過基本上法院幾乎拒絕原告所提出的大多數觀點。

依起訴內容無從成立LLaMA模型或其每個輸出是侵權之衍生作品
原告聲稱「LLaMA模型本身就是侵權的衍生作品」，因為「如果沒有從原告的書籍原始文章中提取表達訊息，這些模型就無法運作」，法院認為這種主張是錯誤的。依據美國法17 U.S.C. § 101的定義，衍生作品是「基於一個或多個現有存在作品」的作品，其形式為任何「以任何現有作品可能被重塑、改造或改編作品的形式」，無法將LLaMA模型本身，理解為對任何原告書籍的重新塑造或改編（即衍生作品）。

其次，針對原告主張「LLaMA模型的每一個輸出，都是原告作品之侵權的衍生作品」，因為這些輸出是從原告作品中衍生出來的，而且由於使用者所作的查詢，「LLaMA模型的每個輸出，都構成一種著作之代理侵權」。但起訴狀中，卻沒有提供任何支持有關實際輸出內容的指控，更遑論其被理解為重塑、改造或改編(recasting, transforming, or adapting)原告書籍的內容。再者，如果沒有對侵權產品輸出做出合理指控，就不可能存在代理侵權。參Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146 (9th Cir. 2007)，故法院同樣駁回。

LLaMA的輸出與原告書籍內容之間須有「實質相似性」
原告認為，由於其書籍被完全複製用於LLaMA訓練過程中（此亦有待證據開示），因此不需聲稱LLaMA的輸出內容，和其被複製的書籍之間存有哪些相似性，來支持基於衍生作品侵權的主張。但法院認為這也是錯誤的，其援引Litchfield v. Spielberg, 736 F.2d 1352 (9th Cir. 1984)案，為了要讓LLaMA之輸出構成侵權，原告當然需要證明原告書籍的某些部分，包含在遭指控侵權的衍生作品中，或與被指控侵權的衍生作品在實質上相似(substantial similarity)。此外，在幾位畫家控告Stability AI和Midjourney穩定擴散模型(stable diffusion model)，侵害其圖形影像著作權案例中(Andersen v. Stability AI Ltd., No. 23-CV- (N.D. Cal. Oct. 30, 2023))，北加州地院更早前作出程序判決，也認為被指控侵權者的衍生作品，必須仍與原作品有一些相似之處或包含原作品受保護的元素 [2]。

原告引用Range Road Music, Inc. v. East Coast Foods, Inc., 668 F.3d 1148 (9th Cir. 2012)，但法院認為不適用。因為該案中侵權行為是在酒吧公開表演歌曲，而原告提供證據，證明表演的歌曲受著作權保護。第九巡迴上訴法院認為，原告既已提供足夠證據，證明受保護的歌曲確已被演奏，而其實質上也與受保護的歌曲相符。因此，法院支持原告主張，作出對原告有利的簡易判決。被告辯稱原告應提供證據證明，所表演的歌曲與受保護歌曲之間具有「實質相似性」，但該案法院拒絕此論點，因為原告已提供令人信服的證據，證明該演奏的歌曲是受保護的作品。

然而，假設被告在簡易判決階段，能證明演奏的歌曲與受保護的歌曲有實質不同，則侵權問題將需要進一步到審判階段，必須再由原告證明演奏的歌曲與受保護的歌曲存在「實質相似性」。因此，相同的邏輯下，本案原告就LLaMA所生成的內容，原告需證明該內容實際上是受保護作品的複製品，並提供足夠的相似性證據，才能構成侵權之衍生作品。因此，原告當然必須在訴狀內充分指控闡明這一點，但其竟然完全未提此關鍵性的主張。

DMCA指控也被駁回
原告提出Meta違反DMCA《數位千禧年著作權法》第1202(b)條款的主張，也被法院駁回 [3]。因其未能提出任何事實來指控LLaMA在刪除著作權管理資訊CMI的情況下，發行原告書籍，這不符合該條規範。參Free Speech Sys., LLC v. Menzel, 390 F. Supp. 3d 1162 (N.D. Cal. 2019)。原告對Meta違反DMCA第1202(a)(1)條的主張也無從成立，因為原告並未合理指控LLaMA是一個侵權的衍生作品。

原告遂被法院要求重新修改起訴之指控並具體聲明。值得關注的，Chhabria法官在本案中的決定，是追隨北加州地院另一法官William Orrick在Andersen v. Stability AI案中的裁定，該案基本上駁回原告的相似主張。這二案判權利人程序上敗訴，是眾多AI案件中最新的跡象，表明法院對接受AI輸出侵權的廣泛指控存有猶豫，特別是在原告未能指控並證明存在實質相似內容的情況下。

結論
無論新興科技如何發展，對著作權保護帶來前所未有之衝擊和挑戰。最終在實務上，法院必須仔細比對原告作品與被告具體產生的作品，以解析二者間的相似程度，這是確定侵權是否存在的重要步驟。然而，值得注意的是，本案原告並未在起訴狀中具體指控，被告AI工具LLaMA生成的哪部分內容，與原告哪一作品的哪部分構成實質相似，這一事實問題的解決，取決於二造作品所進行之實際比對，但原告並未提出相應的指控內容和證據，而僅僅是抨擊被告讓使用者輸入指令，AI就自動生成抄襲原告作品之內容，構成侵權的衍生作品。

本案的第一回合，顯然是AI公司佔上風，看來原告犯了一個錯誤，無論如何，要建構生成式AI工具產生侵權內容，基本前提當然是要提出具體的指控，因此原告可能必須想盡辦法，不斷循循善「誘」以引導方式套話，甚至透過「提示工程」(prompting engineering)或所謂「越獄」(jailbreak prompts)技巧，嘗試微妙地輸入各種可能的指令，迫使其吐出作家小說中的實際內容，以具體呈現被告可能之侵權。

而實際上，即使內容相似未必就當然構成侵權，被告仍可訴諸合理使用的抗辯，勝負尚未可知！然而，如果原告連前面這一關提出相似內容都做不到，起訴勢將被駁回。這其中也可看出，如原告無法具體確實舉證，那就可反證AI的確不只是複製貼上，而係真正經消化後由概率分布產生文字接龍的結果，換句話說，它不會產生一樣的內容。然而，實際上是否果如此，還需進一步觀察！最近紐約時報控告Open AI和微軟的案子顯示，時報真的舉出多段幾乎完全相同的「抄襲」文字，可看出其完全取決於如何去提問，或許還可能有辦法迫使AI工具吐出相似內容，不過這有待原告進一步的努力，才能決定本案之後續發展，否則原告將嚐敗訴。(6027字；圖1)

[1]：其他指控還有不正當競爭Cal. Bus. & Prof. Code §§ 17200、不當得利、加州普通法過失等。

[2]：法院援引學者見解2 Melville B. Nimmer & David Nimmer,《Nimmer on Copyright § 8.09》 (Matthew Bender Rev. Ed. 2023) ：「除非後續作品中包含足夠多的既有先前作品，使後者構成對前者的侵權，否則後者不是衍生作品」；另參1 Melville B. Nimmer & David Nimmer, Nimmer on Copyright § 3.01 (Matthew Bender Rev. Ed. 2023)：「一部作品除非大量從先前作品中複製，否則它不是衍生作品。」

[3]：法院也駁回原告不正當競爭、不當得利和過失的主張，因為這些已被著作權法主張所取代。

作者資訊：
陳家駿律師台灣資訊智慧財產權協會理事長

參考資料：
Richard Kadrey et al., v. Meta Platforms, Inc., Case No. 23-cv-03417-VC., United States District Court, N.D. California, 2023/11/20.
Richard Kadrey, Sarah Silverman, Christopher Golden v. Meta Platforms, Inc., Case 3:23-cv-03417-VC Document 1 Filed 07/07/23.
Order Granting Motion To Dismiss Re: Dkt. No. 23.
Mana Ghaemmaghami, Stuart Levi, Shannon Morgan & MacKinzie Neal. 2023/11/27.

相關文章：
1. 一場血氧技術的訴訟失敗，可能延緩蘋果手錶未來的計畫
2. WIPI 2023與近5年我國產業申請商標案件趨勢分析
3. 美國FTC調查大型科技公司對AI競爭市場的影響
4. 蘋果為解決歐盟反壟斷指控，提議開放NFC給第三方開發者
5. 美國司法部可能於2024年中，正式以反托拉斯法起訴蘋果，將動搖蘋果地位
6. 從美國電玩大咖動視暴雪被告侵權案--談元宇宙相關軟體發明之專利適格性

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------