︿
Top

美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐

瀏覽次數:2859| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿 發表於 2024年2月5日
facebook twitter wechat twitter

圖、美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權之程序判決出爐

ChatGPT自2022年11月推出以來,迅速引起全球矚目,各行業紛紛採用蔚為風潮,使得其操盤者OpenAI因而身價暴漲,目前被估值超過800億美元;其合作伙伴微軟也受惠水漲船高,股價不斷創下新高。然而,這些AI自動生成內容的工具,同時面臨著一系列著作權侵權官司,OpenAI和微軟也數度被控告。一般認為,AI工具在訓練模型時需要大量文本數據,因此必須進行大量重製,包括維基百科、文學小說、書籍期刊、報章雜誌等。這些內容被用來訓練數據建構語料庫。然而,這種作法迭受批評遭指責為無償竊用。在AI科技最發達的美國,已爆發多起作家控告生成式AI著作侵權的訴訟,當事人與起訴時間如下:
(1) Paul Tremblay and Mona Awad v. OpenAI, Inc. et al -- 2023年6月
(2) Richard Kadrey, Sarah Silverman, Christopher Golden v. Meta Platforms, Inc. --2023年7月
(3) Sarah Silverman, Christopher Golden, Richard Kadrey v. OpenAI, Inc. -- 2023年7月
(4) Authors Guild, et al. v. OpenAI Inc. et al. -- 2023年9月
(5) Alter, Sancton, et al. v. OpenAI Inc. Microsoft, et al. -- 2023年11月
 
本文茲介紹已由法院作出首波程序判決之第(2) Meta案。
 

本案之原被告
本案原告和集體訴訟成員都是美國擁有著作權的作者,其中原告Kadrey擁有多本書籍的註冊著作權,包括《瘦長睡魔Sandman Slim》;原告Silverman擁有書籍《尿床者The Bedwetter》的註冊著作權;原告Golden擁有多本書籍的註冊著作權,包括《阿拉若Ararat》。而被告係以擁有FB知名之Meta Platforms公司,是一多元化的網路公司,致力於創建、營銷和銷售軟硬體技術產品,包括Facebook、Instagram和Horizon Worlds。
 
Meta未經原告同意將該等受著作權保護的書籍,用作LLaMA語言模型的訓練材料,複製並納入LLaMA的訓練中,以致原告等許多受著作權保護的書籍,皆出現在Meta承認用於訓練LLaMA的數據集中,因此原告於2023年7月,向北加州聯邦地院起訴Meta侵害著作權,案件由Vince Chhabria法官審理。
 

Meta生成式AI工具LLaMA
原告起訴指控,2023年2月Meta推出上述LLaMA語言模型的AI產品,是一大型語言模型(LLM: large language models),該模型是一種AI軟體,目的在對使用者提示產生具有說服力的自然語言文本輸出。但此LLM並非像傳統軟體程式由人類工程師編寫程式碼而創建。相反的,LLM在訓練過程中,透過複製各種大量文本來源,將其輸入模型「訓練」數據集中的每段文本,並從中提取表達性之資訊(expressive information),這個輸入材料的語料庫構成訓練數據集;LLM再逐步調整其輸出,使其更接近從訓練數據集中所複製的單字序列。
 
一旦LLM複製吸收所有這些文本,訓練數據集就能模擬生成令人信服的自然書寫語言。LLM的輸出,完全依賴其訓練數據集中的材料,每次組合文本輸出時,模型都依賴從其訓練數據集中提取資訊。因此,關於在訓練數據集中包含哪些文本資訊的決定,是經過深思熟慮且重要的選擇。
 
然而,Meta的訓練數據集中的許多材料,皆來自於有著作權的作品,包括原告撰寫的書籍,這些書籍是在未經授權、未署名和未獲得補償的情況下被Meta複製的。作者,包括原告,發布的書籍都包含特定的著作權管理資訊。這些資訊包括書名、ISBN號或著作權號、作者姓名、著作權持有人的姓名以及使用條款和條件。大多數情況下,這些資訊被置於書籍標題扉頁的背面,並且是任何書籍的標準訊息,無論其類型如何。
 

LLaMA訓練數據集之組成
原告之起訴指控,Meta將LLaMA語言模型的訓練數據集,描述為「大量的文本數據」,因其係公開且「與開源相容」(compatible with open sourcing)。開源是指將數據以寬鬆風格之「開源授權」模式公開。然而,通常擁有著作權的材料不會與開源相容,除非著作權人先將其納入開源授權,使他人得以在之後進行開源使用。
 
在描述LLaMA訓練數據集組成時,LLaMA訓練數據的85 GB來自名為「Books」的類別。Meta解釋其包括二個網路來源的書籍文本:(1)古騰堡計劃(Project Gutenberg),包含約7萬本不受著作權保護的線上書籍檔案庫,這些書屬於公有領域;以及(2)ThePile的Books3部分,是用於訓練大型語言模型的公開數據集,Meta的LLaMA論文未進一步描述Books3或ThePile的內容。
 
然而,這些資訊可在其他地方找到,ThePile是由EleutherAI研究組織收集的數據集。2020年12月的一篇論文中,EleutherAI介紹了這個名為「The Pile: 一個包含多樣文本800GB數據集用於語言建模」的論文中介紹此數據集。該論文顯示,Books3數據集包括108 GB的數據,約占數據集的12%,使其成為The Pile按大小排名的第三大組成部分。
 
EleutherAI的論文描述Books3的內容,是從Bibliotik跟蹤器的內容複製而來的書籍數據集,Bibliotik包含各種小說和非小說書籍,比最大的書籍數據集(BookCorpus2)大了一個量級。但Bibliotik是眾多惡名昭彰的「影子圖書館」(shadow library) 網站之一,其他還包括Library Genesis (LibGen)、Z-Library (B-ok)和Sci-Hub,這些網站匯總大量著作權的書籍和其他材料,可透過種子(torrent)系統大量提供,因此向來受到AI訓練界的興趣,但這些影子圖書館明顯是非法的。Books3數據集代表所有Bibliotik所包含的196,640本書,EleutherAI目前透過其網站(https://pile.eleuther.ai/)發行Books3的副本,原告等許多書籍都出現在Books3數據集中。
 

本案原告關於著作侵權之指控
原告提出以下直接和間接的侵權之主張。

著作權直接侵權 (Direct Copyright Infringement)
為了訓練LLaMA模型,Meta複製包含原告許多書籍的Books3數據集。原告從未授權Meta複製其侵權作品、製作衍生作品、公開展示或發行副本(或衍生作品)。所有這些權利根據著作權法規定,僅屬於原告的專屬權利。Meta在LLaMA模型的訓練過程中,未經原告授權複製被侵權作品(17 U.S.C. § 106)。
 
由於LLaMA模型,如未從先前原告被侵權的作品中,提取表達資訊的情況下即無法運作,因此這些模型本身,就是未經原告授權而製作的侵權衍生作品,侵犯原告在著作權法下的專屬權利。原告因Meta的直接著作權侵犯行為而受到損害。
 

著作權間接侵權 -- 代理侵權 (Vicarious Copyright Infringement)
「代理侵害」係指行為人對他人之侵害行為,有權利和能力控制(right and ability to control)監督,且從該侵害行為中直接獲得經濟利益者。由於LLaMA模型的輸出,是基於從原告被侵權作品中提取的表達資訊,因此該模型的每個輸出,都是一個侵權的衍生作品,未經原告授權並違反著作權法下的專屬權利。而Meta有權利並有能力控制LLaMA模型的輸出,並從該模型的侵權輸出中獲得經濟利益。因此,該模型的每個輸出,都構成一個間接的著作權代理侵權行為(17 U.S.C. § 106),原告因Meta的間接侵權行為而受到損害。
 

刪除著作權管理資訊和虛偽主張著作權
原告主張侵權作品中,包含著作權管理資訊(CMI: Copyright management information),如著作權通知、標題、作者姓名、使用條款或其他識別資訊,以及指向CMI的識別號碼或符號。原告指控Meta未經授權複製並將其用於LLaMA模型的訓練數據。在此過程中,Meta並未保留任何原告的CMI;且被告基於原告侵權所作的衍生作品,透過這些不含CMI的作品,違反17 U.S.C. § 1202(b)(1)與(3)規定,因其刪除了原告作品與衍生作品中的CMI。此外,原告指控Meta虛偽聲稱對LLaMA模型擁有唯一的著作權,而實際上該模型是侵權的衍生作品,Meta也違反17 U.S.C. § 1202(a)(1)規定
[1] 。
 

本案被告關於駁回起訴之動議聲請
本案被告依美國民事訴訟法,提出駁回原告之訴的動議(motion to dismiss),係指原告於起訴狀中,表面上必須主張足夠之敘述,至於所陳述事實是否有證據支撐則待後續之審理。如依原告之主張,欠缺足以請求法院救濟的法律依據時,即該主張從表面上即缺乏法律基礎,被告在程序上可提出動議請求法院駁回原告起訴,在訴訟前期早早擊敗原告(依當事人進行主義,動議需當事人自行聲請,否則法院不會介入),故本案被告聲請駁回之動議。
 

AI自動生成結果構成衍生著作之探究
由於法院係基於駁回動議之聲請所作的程序判決,法官焦點之一集中於LLaMA之衍生著作,因此先介紹相關概念。
 

「衍生著作」之定義與原作之關聯性
本案原告指控被告未經授權,非法重製其小說並以此自動生成衍生著作(derivative work)。依美國著作權法,衍生著作係基於既有作品重新塑造、轉化或改編成而成,例如翻譯、音樂、戲劇、小說、電影、錄音、藝術複製或轉化成任何形式的作品,其經由編輯、修改、註釋、闡述或修改,就原著作另為創作構成「衍生著作」。
 
衍生著作和原作之間,應有明確的互相對應和脈絡承接關係,不論衍生之再創作內容多麼創新,仍需在結構和內容上包含原作之成分和元素,並添加足夠之實質改變或轉化,但仍保留原作的內涵和精髓,換言之,衍生著作雖以原創為基礎,在結構和內容表達上,可得被辨識係脫胎源自於原作。因此,法律上將其歸因於原創所賦予的內容,使得衍生著作仍需取得原作者的授權。
 
本案原告主張被告讓使用者輸入指令提示(prompting),產生基於其小說內容構成衍生著作,但原告必須先具體舉出,被告究竟產出哪些自動生成的內容,而這些內容是如何建立在原作基礎上的再創作,以及這些生成的脈絡和組成係如何出於原作。
 

 本案生成式AI得否構成「衍生著作」 
在本案中,是否生成式AI構成「衍生著作」成為爭議焦點之一。原告指控被告生成式AI構成原作之衍生著作,但是否如此,需檢視LLaMA自動生成的內容是否具有源自原作的特質?欲建構衍生著作之取決點在於,自動生成的再創作,是否在結構和內容上包含足夠的原作元素或成分在內,而得反應出二者間之對應或脈絡關係,這是判定被告是否構成「衍生著作」的關鍵,否則空言AI生成之再創作屬於衍生著作,即無所據。
 
原告主張被告未經授權之再創作構成衍生著作,但從著作權法角度,如何認定該自動生成就是由原告小說所「衍生」而得?二者間之脈絡關係為何?再者,自動生成之內容在何種情況下可構成衍生著作?如何就一本小說所表達的內容,將其轉換衍生成其他內容?以上在在需說明,但問題是,原告對被告自動生成之內容事實,竟然完全未主張並予闡明,而僅是空泛主張係運用技術得出即屬衍生著作。
 

北加州地院新出爐之程序判決
針對原告三位作家的起訴,被告Meta已對其所有指控提出駁回起訴之動議,除了指控未經授權複製原告書籍,以訓練LLaMA構成侵權一項訴求之外。於2023年11月下旬,北加州地院做出一項簡短但措辭銳利的程序裁定,雖然核准被告駁回起訴之動議,但保留讓原告可修改其訴訟主張再審理,不過基本上法院幾乎拒絕原告所提出的大多數觀點。
 

 依起訴內容無從成立LLaMA模型或其每個輸出是侵權之衍生作品 
原告聲稱「LLaMA模型本身就是侵權的衍生作品」,因為「如果沒有從原告的書籍原始文章中提取表達訊息,這些模型就無法運作」,法院認為這種主張是錯誤的。依據美國法17 U.S.C. § 101的定義,衍生作品是「基於一個或多個現有存在作品」的作品,其形式為任何「以任何現有作品可能被重塑、改造或改編作品的形式」,無法將LLaMA模型本身,理解為對任何原告書籍的重新塑造或改編(即衍生作品)。
 
其次,針對原告主張「LLaMA模型的每一個輸出,都是原告作品之侵權的衍生作品」,因為這些輸出是從原告作品中衍生出來的,而且由於使用者所作的查詢,「LLaMA模型的每個輸出,都構成一種著作之代理侵權」。但起訴狀中,卻沒有提供任何支持有關實際輸出內容的指控,更遑論其被理解為重塑、改造或改編(recasting, transforming, or adapting)原告書籍的內容。再者,如果沒有對侵權產品輸出做出合理指控,就不可能存在代理侵權。參Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146 (9th Cir. 2007),故法院同樣駁回。
 

LLaMA的輸出與原告書籍內容之間須有「實質相似性」
原告認為,由於其書籍被完全複製用於LLaMA訓練過程中(此亦有待證據開示),因此不需聲稱LLaMA的輸出內容,和其被複製的書籍之間存有哪些相似性,來支持基於衍生作品侵權的主張。但法院認為這也是錯誤的,其援引Litchfield v. Spielberg, 736 F.2d 1352 (9th Cir. 1984)案,為了要讓LLaMA之輸出構成侵權,原告當然需要證明原告書籍的某些部分,包含在遭指控侵權的衍生作品中,或與被指控侵權的衍生作品在實質上相似(substantial similarity)。此外,在幾位畫家控告Stability AI和Midjourney穩定擴散模型(stable diffusion model),侵害其圖形影像著作權案例中(Andersen v. Stability AI Ltd., No. 23-CV- (N.D. Cal. Oct. 30, 2023)),北加州地院更早前作出程序判決,也認為被指控侵權者的衍生作品,必須仍與原作品有一些相似之處或包含原作品受保護的元素
[2]
 
原告引用Range Road Music, Inc. v. East Coast Foods, Inc., 668 F.3d 1148 (9th Cir. 2012),但法院認為不適用。因為該案中侵權行為是在酒吧公開表演歌曲,而原告提供證據,證明表演的歌曲受著作權保護。第九巡迴上訴法院認為,原告既已提供足夠證據,證明受保護的歌曲確已被演奏,而其實質上也與受保護的歌曲相符。因此,法院支持原告主張,作出對原告有利的簡易判決。被告辯稱原告應提供證據證明,所表演的歌曲與受保護歌曲之間具有「實質相似性」,但該案法院拒絕此論點,因為原告已提供令人信服的證據,證明該演奏的歌曲是受保護的作品。
 
然而,假設被告在簡易判決階段,能證明演奏的歌曲與受保護的歌曲有實質不同,則侵權問題將需要進一步到審判階段,必須再由原告證明演奏的歌曲與受保護的歌曲存在「實質相似性」。因此,相同的邏輯下,本案原告就LLaMA所生成的內容,原告需證明該內容實際上是受保護作品的複製品,並提供足夠的相似性證據,才能構成侵權之衍生作品。因此,原告當然必須在訴狀內充分指控闡明這一點,但其竟然完全未提此關鍵性的主張。
 

DMCA指控也被駁回
原告提出Meta違反DMCA《數位千禧年著作權法》第1202(b)條款的主張,也被法院駁回
[3]。因其未能提出任何事實來指控LLaMA在刪除著作權管理資訊CMI的情況下,發行原告書籍,這不符合該條規範。參Free Speech Sys., LLC v. Menzel, 390 F. Supp. 3d 1162 (N.D. Cal. 2019)。原告對Meta違反DMCA第1202(a)(1)條的主張也無從成立,因為原告並未合理指控LLaMA是一個侵權的衍生作品。
 
原告遂被法院要求重新修改起訴之指控並具體聲明。值得關注的,Chhabria法官在本案中的決定,是追隨北加州地院另一法官William Orrick在Andersen v. Stability AI案中的裁定,該案基本上駁回原告的相似主張。這二案判權利人程序上敗訴,是眾多AI案件中最新的跡象,表明法院對接受AI輸出侵權的廣泛指控存有猶豫,特別是在原告未能指控並證明存在實質相似內容的情況下。
 

結論
無論新興科技如何發展,對著作權保護帶來前所未有之衝擊和挑戰。最終在實務上,法院必須仔細比對原告作品與被告具體產生的作品,以解析二者間的相似程度,這是確定侵權是否存在的重要步驟。然而,值得注意的是,本案原告並未在起訴狀中具體指控,被告AI工具LLaMA生成的哪部分內容,與原告哪一作品的哪部分構成實質相似,這一事實問題的解決,取決於二造作品所進行之實際比對,但原告並未提出相應的指控內容和證據,而僅僅是抨擊被告讓使用者輸入指令,AI就自動生成抄襲原告作品之內容,構成侵權的衍生作品。
 
本案的第一回合,顯然是AI公司佔上風,看來原告犯了一個錯誤,無論如何,要建構生成式AI工具產生侵權內容,基本前提當然是要提出具體的指控,因此原告可能必須想盡辦法,不斷循循善「誘」以引導方式套話,甚至透過「提示工程」(prompting engineering)或所謂「越獄」(jailbreak prompts)技巧,嘗試微妙地輸入各種可能的指令,迫使其吐出作家小說中的實際內容,以具體呈現被告可能之侵權。
 
而實際上,即使內容相似未必就當然構成侵權,被告仍可訴諸合理使用的抗辯,勝負尚未可知!然而,如果原告連前面這一關提出相似內容都做不到,起訴勢將被駁回。這其中也可看出,如原告無法具體確實舉證,那就可反證AI的確不只是複製貼上,而係真正經消化後由概率分布產生文字接龍的結果,換句話說,它不會產生一樣的內容。然而,實際上是否果如此,還需進一步觀察!最近紐約時報控告Open AI和微軟的案子顯示,時報真的舉出多段幾乎完全相同的「抄襲」文字,可看出其完
全取決於如何去提問,或許還可能有辦法迫使AI工具吐出相似內容,不過這有待原告進一步的努力,才能決定本案之後續發展,否則原告將嚐敗訴。(6027字;圖1)
 
[1]:其他指控還有不正當競爭Cal. Bus. & Prof. Code §§ 17200、不當得利、加州普通法過失等。
[2]:法院援引學者見解2 Melville B. Nimmer & David Nimmer,《Nimmer on Copyright § 8​​.09》 (Matthew Bender Rev. Ed. 2023) :「除非後續作品中包含足夠多的既有先前作品,使後者構成對前者的侵權,否則後者不是衍生作品」;另參1 Melville B. Nimmer & David Nimmer, Nimmer on Copyright § 3.01 (Matthew Bender Rev. Ed. 2023):「一部作品除非大量從先前作品中複製,否則它不是衍生作品。」
[3]:法院也駁回原告不正當競爭、不當得利和過失的主張,因為這些已被著作權法主張所取代。

作者資訊:
陳家駿律師  台灣資訊智慧財產權協會理事長



參考資料:
Richard Kadrey et al., v. Meta Platforms, Inc., Case No. 23-cv-03417-VC., United States District Court, N.D. California, 2023/11/20.
Richard Kadrey, Sarah Silverman, Christopher Golden v. Meta Platforms, Inc., Case 3:23-cv-03417-VC Document 1 Filed 07/07/23.
Order Granting Motion To Dismiss Re: Dkt. No. 23.
Mana Ghaemmaghami, Stuart Levi, Shannon Morgan & MacKinzie Neal. 2023/11/27.


相關文章:
1. 一場血氧技術的訴訟失敗,可能延緩蘋果手錶未來的計畫
2. WIPI 2023與近5年我國產業申請商標案件趨勢分析
3. 美國FTC調查大型科技公司對AI競爭市場的影響
4. 蘋果為解決歐盟反壟斷指控,提議開放NFC給第三方開發者
5. 美國司法部可能於2024年中,正式以反托拉斯法起訴蘋果,將動搖蘋果地位
6從美國電玩大咖動視暴雪被告侵權案--談元宇宙相關軟體發明之專利適格性

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。