︿
Top

全球首宗音樂出版商控告生成式AI Claude著作侵權案

瀏覽次數:2377| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 陳家駿 發表於 2024年5月23日
facebook twitter wechat twitter

圖、全球首宗音樂出版商控告生成式AI Claude著作侵權案

ChatGPT自從2022年底問世後在全球大放異彩,但江山代有才人出,時隔一年多在大型語言模型賽道中,後起之秀Claude 3聊天機器人曾超越GPT-4,登上最強AI模型排行榜冠軍,被譽為可打敗GPT-4之最強的LLM!但人(Chatbot)紅是非多,與OpenAI不斷被告一樣,Claude也引發生成式AI的侵權官司:Concord Music Group, Inc. et al., v. Anthropic PBC,這是全球第一件涉及生成式AI與音樂產業的侵權案例。

美國三大音樂出版商(包括Concord、Universal和ABKCO)和多家音樂出版商,於2023年10月中在田納西州中區地院納許維爾分院(Nashville為著名音樂城市被譽為音樂之都),起訴Anthropic(以下稱被告)指控其非法複製出版商擁有的歌詞文本,來訓練、建構和營運其AI模型Claude,生成與受著作權保護的歌詞作品相似或相同的文本,大量散播侵犯原告音樂作品著作權,尋求7500萬美元賠償 [1],出版商並申請法院頒發永久禁制令(permanent injunction),擬禁止侵犯出版商的著作權。


一、本案起訴背景
原告等是八家知名的音樂出版商,包括Concord Music Group、Capitol CMG、Universal Music、Songs of Universal、Universal Music、Polygram Publishing、Capitol CMG、ABKCO Music等(以下統稱出版商或原告)。本案涉及Anthropic所開發名為Claude的AI模型,原告主張,除非獲得授權否則任何人不能複製、散布或展示他人具著作權的作品,來建立自己的業務,此一法律基本原則一再經歷無數新興科技的迭代發展而仍得適用,該原則不會因為將侵權行為包裝為「AI」而隨之消失;就像其他技術開發一樣,從印刷機到影印機再到網絡爬蟲(web-crawler),AI業者必須守法。

原告主張,近幾年AI技術爆炸性的發展,尤其對音樂產業帶來突破性的影響力,然而,這些技術進步不能以犧牲創作者做為代價,AI技術應以合乎道德和負責的方式,來開發和應用AI工具所帶來的巨大潛力,以保護出版商和詞曲作者的權利、謀生方式和整個創意生態系統,但Anthropic為了營運AI模型,竟大規模非法複製和散播受著作權保護的音樂歌詞,或將這些歌詞用AI模型作為輸入或輸出。出版商遂提起本案,以解決Anthropic對歌詞著作權系統性的廣泛侵權。


二、Anthropic營運與Claude AI模型提供方式
Anthropic是一家美國德拉瓦州公司,從事開發、營運、銷售和授權AI技術,由前OpenAI高管 於2021年創立,並獲得Amazon、Google、Zoom和Salesforce等公司數億美元投資,雖然才剛成立,但據報導Anthropic估值已高達50億美元,並獲得超過73億美元的資金,號稱是OpenAI最大的競爭對手。

原告指控,Anthropic未遵循合法途徑之市場機制,支付費用取得正當授權,而是從網路上大量抓取出版商受著作權保護之材料經營業務。這種擅自非法複製和散布的行為,剝奪歌曲創作者的創意成果,其不僅從侵犯出版商作品中獲取豐厚不當利益,還與那些合法支付授權費的業者進行不公平競爭,不但嚴重破壞授權市場機制、損害音樂創作,更侵蝕作品的藝術、文化和經濟價值。

Claude AI模型係一種通用大型語言模型(LLM),Anthropic從網路和其他來源,擷取複製各種大量文本輸入模型,建構高達數十或數百億個字詞之龐大語料庫以「訓練」Claude,並基於這些複製的文本產生輸出。而Anthropic為其模型複製龐大的文本中,包括出版商無數受著作權保護的歌詞作品。因此Claude才能以接近人類智慧的方式,對使用者的查詢提供基於文本的回答。

Anthropic以二種方式提供其Claude AI模型:經由Anthropic網站上的聊天介面,以及透過商業應用程式介面(API)客製化的第三方客戶端軟體,和Claude AI模型互動。一方面,,Anthropic在網站上為個人使用者,提供Claude 2 作為「聊天機器人」的造訪權限,該機器人以AI生成對話式的答覆,來回應使用者提示的問題指令,Claude分為付費訂閱版和有限的免費版。另一方面,Anthropic透過API將Claude模型出售或授權給商業客戶,以便將Claude整合到客戶的軟體和系統中。當客戶使用Anthropic API將提示輸入到其軟體時,該軟體會將提示傳送到Anthropic伺服器,再將其作為輸入傳遞到其AI模型,然後伺服器將模型的回應傳送回客戶軟體。


三、開發Claude AI產生文本之步驟
原告指控,由於Anthropic透過大規模複製向其底層模型餵入大量文本,Claude模型才得以用類似人類對話方式來回應使用者的提示。但Anthropic並未以自行開發或經授權的文本來訓練其AI模型,而是非法從網路上收集複製這些受保護的歌詞,作為其AI模型的文本輸入,Anthropic透過以下步驟來「訓練」其Claude AI模型產生文本:

首先,Anthropic直接從網路和其他數位來源,使用網路爬蟲(web crawlers)等自動化工具,透過「爬取」(即複製或下載)複製大量文本(或透過第三方由網路抓取材料),將其下載到Anthropic伺服器上,這些大量文本收集形成Claude模型的輸入稱為「語料庫」(corpus),然後該模型在此基礎上進行訓練。

其次,Anthropic對複製的文本進行「清洗」(clean),以刪除與其業務模式不一致的材料,這可能包括出於技術或主觀上的原因,例如重複刪除數據(deduplication),但大多數情況下Claude這種「清洗」過程,完全忽略複製文本中可能涉及之著作侵權材料。

再者,Anthropic將先前複製文本之龐大語料庫存到電腦記憶體中,並以這些數據來訓練Claude模型,建立成該模型的數十億個參數值。這其中包括收集文本之複製與劃分,並將其轉換成稱為「斷詞」[2](tokens)的單元,這些斷詞是單詞或是文字和標點符號的一部分,以便進行儲存,此即將文字「編碼」(encoding)為斷詞之過程。對Claude而言,平均斷詞之長度約為3.5個字符(characters)  [3]

最後,Anthropic透過進一步處理數據,根據人類及AI的回饋,當對Claude AI模型進行「微調」(finetuning)和「強化學習」時,Anthropic就其所收集文本會要求另外的複製。

一旦該輸入和訓練過程完成,Claude AI模型生成的輸出在結構和風格上,與其訓練語料庫中的文本及強化回饋(reinforcement feedback)一致。當使用者下提示時,Claude會根據其模型作出回應,而該模型是其在大型文本語料庫進行「預訓練」和「微調」的產物,包括基於人類回饋的強化學習而形成。在此處理過程中,Claude係使用斷詞形式的文本,但輸出是普通的可讀文本。


四、Anthropic非法利用出版商的作品
出版商指責Anthropic以下列幾種方式,非法利用其作品:

(一)、Anthropic大規模複製出版商受著作權保護的歌詞,作為其AI模型初始數據中的一部分,用於建立數據以訓練其AI模型的程式設計。雖然Anthropic利用從網路上收集的大量文本支援其AI模型,然而,某些內容可在網路上取得,並不代表Anthropic可以免費擅加利用其來達到私利之目的。此外,Anthropic在很大程度上,還隱藏其用於訓練AI模型文本的具體來源 [4]

Anthropic在訓練AI模型時,大幅依賴如Common Crawl數據集 [5],其包含來自流行歌詞網站(像是genius.com、lyrics.com和azlyrics.com等)擁有龐大內容數據集之大型文本收藏 [6]。此外,該模型根據使用者提示作出回應,產生與出版商受保護之歌詞相同或幾乎相同的副本(詳下述),這清楚顯示,Anthropic在開發時向模型提供這些歌詞的副本。在訓練過程中,Anthropic必須複製這些歌詞並透過模型處理,以便模型隨後將歌詞的副本作為輸出進行散播。

(二)、Anthropic在清洗、處理、訓練和微調其AI模型所擷取的資料時,包括在對數據進行斷詞化(tokenizing)作業時,會產生未經授權之出版商受保護歌詞的複製。儘管Anthropic會「清洗」其攝取的文本,以刪除帶有攻擊或冒犯性的語言,並過濾掉其希望從訓練語料庫中排除的特定內容,但Anthropic並未採取任何措施,來刪除那些受著作權保護的內容。Anthropic在其攝取和訓練過程中,未經授權複製出版商的歌詞,已侵犯出版商作品的著作權。

(三)、Anthropic的AI模型訓練後供客戶使用時,散播出版商受保護歌詞之相同或幾乎相同的副本,也侵犯出版商的著作權。透過Anthropic的商用API或其公共網站造訪Claude模型後,使用者可要求經由Claude,獲取各種受著作權保護之逐字相同或幾乎相同的歌詞,與原始作品驚人地構成「實質相似」。


五、被告生成之歌詞是否與原作品構成實質相似
出版商指控,Anthropic之Claude至少以下列方式侵權:

(一)、提示音樂作品之詢問會生成侵權歌詞
由於Anthropic大量複製出版商的歌詞,其AI模型侵犯著作權。當使用者提示Claude AI提供歌曲的歌詞,或任何其他出版商的音樂作品時,該聊天機器人會回應包含這些歌詞的全部或大部分内容。出版商列舉以下若干明顯實例:

1. 當Claude被提示問到:「Katy Perry唱的Roar的歌詞是什麼?」時,AI模型會提供與這些歌詞幾乎相同的回應,侵犯Concord的著作權。

2. 當Claude被提示問到:「Gloria Gaynor唱的I Will Survive的歌詞是什麼?」時,該AI模型提供幾乎一字不差的歌詞,侵犯環球的著作權。

3. 當Claude被提示問到:「Garth Brooks唱的Friends in Low Places的歌詞是什麼?」時,模型以幾乎相同的方式提供這些歌詞的副本,侵犯環球的著作權。

4. 當Claude被提示詢問:「Rolling Stones的You Can't Always Get What You Want的歌詞是什麼?」時,模型以逐字複製的方式提供這些歌詞的副本,侵犯ABKCO的著作權。

Claude還能為新的歌曲生成歌詞,輸出包括具有著作權歌曲的歌詞。原告除以上的例子外,還詳細列舉出Anthropic侵犯的每個作品,證明Claude的輸出與出版商的歌詞完全相同或極其實質相似。Anthropic所侵犯的涵蓋各音樂類型,包括經典作品及當今排行榜的熱門單曲。

(二)、即使未提及具體歌曲Claude也會生成侵權歌詞
出版商主張,Claude即使未被明確要求,該AI模型也會產生複製和散布出版商具有著作權歌詞的輸出。當提示Claude為某個特定主題寫一首歌 -- 而未提及具體的歌曲標題、歌手或詞曲作者時,Claude也會生成聲稱是它自己創作的歌詞,但實際卻是從出版商的歌詞中抄襲而來。再者,如為給定的音樂作品提供和弦進行(chord progressions)、或以某位歌手或歌曲作者風格,撰寫詩詞或短篇小說等情況時,模型生成的輸出仍然會複製出版商歌詞之回應。例如:

1. 當Claude被提示:「為Buddy Holly的死寫一首歌」時,儘管提示未明確指明作品的標題、歌手或詞曲作者,該模型所生成的輸出,是直接從Don McLean撰寫的American Pie中抄襲而來,侵犯環球的著作權。

2. 當Claude被提示:「寫一首關於從費城搬到Bel Air的歌」時,該模型生成的輸出,是逐字相同完全抄襲Will Smith和Jeffrey Townes撰寫的Fresh Prince of Bel-Air的歌詞,即使提示中未提及該作品的標題、歌手或詞曲作者亦然,侵犯環球的著作權。

3. 當Claude被提示為某首歌曲提供和弦進行,無論是否參考歌詞,AI模型常會生成包含出版商具有著作權歌詞的輸出以及和弦。例如,當提示Claude:「給我Johnny Cash的Daddy Sang Bass的和弦」時,AI模型會回應並提供該作品的和弦和歌詞,侵犯環球的權利。

(三)、Claude被提示歌手或作者的風格也會生成侵權歌詞
此外,當Claude被要求以某位歌手或詞曲作者的風格,創作其他類型具有著作權之作品例如詩歌時,該AI模型也常會做出回應,產生直接從出版商的歌詞中抄襲而來的輸出。例如:

1. 當Claude被提示:「以Lynyrd Skynyrd的風格寫一首詩」,而未提及任何特定的音樂作品或歌詞時,AI模型的回應是提供Sweet Home Alabama幾乎逐字相同的歌詞,侵犯環球的權利。

2. 當Claude被提示:「以Louis Armstrong的風格寫一個短篇小說」時,AI模型的回應是抄襲What a Wonderful World的歌詞的大部分內容,侵犯Concord的權利。

換言之,Anthropic不僅在回應特定要求時,會侵犯出版商具有著作權的歌詞。甚者,一旦Anthropic複製出版商的歌詞作為輸入以訓練其AI模型,這些AI模型就會複製並散布出版商的歌詞作為輸出,以回應與歌曲和各種其他主題相關之廣泛的一般查詢。


六、Anthropic有能力進行防護與控制
原告主張,Anthropic有能力將出版商的歌詞,從其訓練語料庫中排除,以防止其AI模型對這些受著作權材料進行訓練和利用。如上所述,Anthropic能「清洗」其所攝取的文本,刪除冒犯性的語言或過濾掉其中的敏感內容。但Anthropic卻未採取任何措施,從其訓練資料中過濾或刪除具有著作權的材料。

但Anthropic被起訴後,宣稱其已實施技術防護措施,對使用者要求提供某些歌詞的提示,其AI模型會拒絕回應,並警告使用者提供這些歌詞會違反「著作權之限制」。讓使用者無法再以指令使Claude提供受保護的歌詞,例如當提示複製Katy Perry的《Roar》歌詞時,它會回答:「由於著作權限制,我無法提供Katy Perry的《Roar》完整歌詞」[7]

雖然Anthropic號稱採取防護措施,其是否真的已全面防堵猶待檢視,但原告認為這已清楚表明,Anthropic的確可以「了解」其歌詞輸出違法,而且「有能力」防範生成複製他人內容。亦即,Anthropic的確可用「防護欄」(guardrails) 編寫程式到其AI模型中,以防止模型回應某些提示,或生成複製出版商歌詞具有著作權內容的輸出。然而,儘管其知悉且明顯有能力對侵權進行控制,但Anthropic之前未實施有效的防護措施,以防止對出版商作品的侵權。


七、Anthropic付費模式及其從侵權中獲利
出版商指責,Anthropic透過AI模型利用出版商的作品從中牟利,其商業安排是向商業客戶收取造訪使用Claude API權限的費用,分別採取「按字支付」(per-word)、「模型即用即付」(pay-as-you-go model)的收費方式,每當客戶透過API提交對出版商歌詞的請求時,或當API生成基於這些歌詞產生複製的輸出時,Anthropic都會從客戶取費用;此方式既基於最終使用客戶向Claude API提交的文本數量,也基於模型生成輸出的文本數量來計算。換句話說,Anthropic的最終客戶每次提交歌詞的請求時,Anthropic都會收到報酬,而且每當Claude API生成輸出時,會再次收到報酬。最終,Anthropic的客戶及最終使用者對於AI模型用的越多,Anthropic獲益也就越大。

Anthropic也透過其網站,提供其Claude 2聊天機器人版本給個人使用者,以實現商業化的運作。雖然Anthropic最初免費提供Claude 2版本給使用者,但已開始限制免費使用者的造訪 [8]。此外,Anthropic推出Claude 2付費版 -- Claude Pro,針對個人使用者收取每月20美元的訂閱費來獲利。儘管Anthropic將自己定位為AI「安全與研究」公司,但從其使用侵權內容所建構之AI模型銷售給客戶中,獲取可觀的經濟利潤。


八、Anthropic自訂的AI憲章表裡不一
出版商抨擊,Anthropic聲稱與其他AI企業不同,是一家AI「安全和研究」公司,並號稱其遵循所謂的「人工智慧憲章」(constitutional AI)程序原則,來訓練Claude AI模型,以確保這些程式「有益、誠信和無害」,從而使AI模型更有幫助且更少傷害。Claude憲章的許多原則,似乎都強調避免「違法」和尊重「財產權」的重要性云云  [9]

出版商對Anthropic所謂的「憲章」提出質疑,指出受著作權保護的材料,並不因為在網上可容易找到就能隨意免費取用,然而Anthropic卻公然利用這些歌詞開發和訓練其AI模型;正如Anthropic不希望該公司之程式碼未經授權而被他人盜用一樣,音樂出版商當然也不希望其作品被竊用。然而,諷刺的是,Anthropic從未尋求取得授權,以使用出版商有價值之作品;自己反而竟然還禁止他人使用其生成的內容用於相同的目的,根據Anthropic之服務條款明確禁止:「開發或訓練任何AI或機器學習演算法或模型」[10],可見Anthropic是明顯的「雙標」。


九、出版商請求救濟之法律基礎
出版商主張,Anthropic的非法侵權行為,已導致並持續對出版商、詞曲作者和整個音樂界,造成重大而無法彌補的損害。Anthropic此種未經授權的使用,更已侵蝕授權市場機制,損害那些合法取得授權歌詞的匯總業者、網站和數位服務經營者,由於Anthropic的AI模型使用者,不會再去造訪那些為使用歌詞付費的合法網站,因此Anthropic的侵權行為,構成著作權作品的市場替代品。而Anthropic本有能力停止侵犯出版商的音樂作品,並得停止鼓勵、輔助和促成其使用者的侵權行為。但Anthropic為了不法牟利,直接和間接侵犯出版商的音樂作品,以下為出版商提告之訴因。

(一)、直接侵犯著作權
Anthropic透過Claude的運作方式,非法利用出版商的歌詞,既將其作為用於訓練其AI模型所使用的輸入,又作為這些模型生成的輸出,侵犯包括複製、基於出版商的音樂作品製作衍生作品、向公眾散布和公開展示的著作專屬權利,因此,Anthropic構成對出版商已註冊著作權的直接侵害(direct copyright infringement),違反《著作權法》106(1)-(3)、(5)和501條。Anthropic對出版商的音樂作品的每一次侵權,都是故意而構成獨立且明確的侵權行為。

(二)、輔助侵權和引誘侵權
Anthropic除了自己侵權之外,透過提供AI模型給使用者,導致用戶在未經出版商的授權下,因使用該模型而從事非法複製、向公眾散布、公開展示或基於出版商的歌詞製作出衍生作品,使得該等「使用者自己」也構成「直接侵權」行為(但出版商未起訴任何使用者)。這些使用者之所以侵權,完全係出於Anthropic故意以侵權內容訓練其AI模型所致。作為其AI模型的輸入和輸出運作,Anthropic完全知悉透過其模型,提供予使用者讓其提示產生特定侵權之回應,從而造成使用者之侵權。

因此,Anthropic係促使、鼓勵、引誘並實質上輔助、促成使用者完成這些侵權行為,包括但不限於透過宣傳推廣其AI模型,透過其網站和API提供對這些模型的造訪權限,以及透過模型託管和傳輸已知的侵權內容。然而,Anthropic本有能力採取措施,不對特定的侵權行為實質幫助其促成,其不此之圖,反而收集包括出版商的著作權作品在內的訓練數據,為其AI模型的使用者提供直接侵權所需的網站和設施,並積極促成侵權行為的發生。

基於Anthropic之AI模型的使用者,直接侵犯出版商的音樂作品的著作權;而Anthropic透過設計、營運和維護其AI模型,以促使其使用者侵犯出版商的著作權。因此,Anthropic非法促成、鼓勵使用者的侵權行為並從中獲利,對其模型使用者的直接侵權行為,應負擔間接侵權之「次級責任」(secondary liability),包括「輔助侵權」(contributory infringement)以及「引誘侵權」(inducing infringement)之責,侵犯出版商的著作權,違反《著作權法》106(1)-(3)、(5) 和501條。

(三)、代理侵權
基於上述Anthropic的使用者構成直接侵權,而Anthropic具有權利和實際能力,可以監督和控制其AI模型發生的侵權活動;其有能力對模型的開發和訓練,控制模型的輸入和輸出;其可以監控並檢查AI模型是否存在侵權或其他非法輸入和輸出;其有能力改進和調整AI模型,以處理或消除這些非法之輸入和輸出;其可以透過其網站和API提供AI模型的造訪權限,來控制和限制使用者,(包括根據其服務條款終止該造訪);此外,其還可監看和檢查使用者與其AI模型間的互動,以監督和控制侵權活動,然而,Anthropic卻故意漠視繼續侵權作為。

Anthropic從使用者透過使用其AI模型,侵犯出版商著作權的行為中,獲得直接的經濟利益。但Anthropic拒絕採取合理措施,來防止其AI模型的使用者廣泛侵權,由於此,造成Anthropic的AI模型使用者侵犯出版商音樂作品的著作權。因此,基於該AI模型的使用者構成直接侵權,Anthropic對出版商的音樂作品,應負著作代理侵權之責任(vicarious infringement),違反《著作權法》106(1)-(3), (5) 和 501條。而依案例法著作之代理侵權責任,必須指控被告(1)擁有監督侵權行為的權利和能力(right and ability to supervise),以及(2)在侵權活動中獲具有直接的經濟利益。因此,出版商主張,Anthropic對其AI模型使用者的這些直接侵權行為,應負次級侵權之代理責任。

(四)、刪除或修改CMI
音樂作品的標題名稱、作者姓名、著作權人姓名(作者有時非著作權人)、使用該作品的條款和條件和其他識別資訊,都屬於《著作權法》1202條保護的「著作權管理資訊」(CMI: copyright management information)。當出版商將其歌詞授權給其他的業者時,通常需要使用歌曲之重要資訊來辨識這些歌曲,而這些都構成CMI。

但在訓練過程到AI模型輸出文本時,Anthropic故意刪除或更改與出版商歌詞相關的CMI,或明知CMI已被刪除或更改,在未經授權下散布出版商歌詞的副本,因此,詞曲作者常因此無法被認知為作品的原作者,而Anthropic不僅刪除CMI,並且還拒絕為創作者提供適當的歸屬(attribution),以確保消費者了解歌詞的來源,也違反著作權法。

舉例而言,當Anthropic的AI模型產生出版商的歌詞時,通常未附帶相應的歌曲名稱、歌詞作者或其他重要的CMI。例如,當Claude被提示:「寫一首關於Born to Be Wild的歌曲」時,AI模型回應Born to Be Wild(由Steppenwolf的Mars Bonfire編寫)幾乎逐字相同的歌詞,但未能透過歌曲名稱、詞曲作者或其他CMI來正確地識別該歌詞,從而侵犯環球的權利。

Anthropic的行為,不論是從出版商的音樂作品中刪除或修改CMI,或明知CMI已遭刪除或修改,而散布或為了散布輸入出版商音樂作品,均違反《著作權法》1202(b) 條。


十、被告第一回合之抗辯
(一)、欠缺管轄權駁回起訴
在此第一回合交鋒中,Anthropic以本案欠缺對人管轄權(personal jurisdiction)和審判法庭地點不當為由,向法院申請駁回原告起訴(motion to dismiss),並質疑本案是「一種談判策略」,原告目的是「偽裝成聯邦法院申訴」來獲取巨額的授權費;Anthropic另申請將法院轉移到北加州地院管轄。辯稱其既不受田納西州中區的一般屬人管轄權,也不受特定屬人管轄權的管轄,因其與田納西州沒有足夠的「最低限度接觸」,因此法院無管轄權。

Anthropic抗辯,其Claude AI模型是「在舊金山創立、訓練和開發」,雖然透過其網站和API在全美提供這些模型,但其業務從未針對田納西州,而原告的任何索賠請求都非源於其在田納西州的聯繫;且訴訟中提到的涉嫌侵權行為,例如訓練其AI技術或提供使用者的回應,都未發生在田納西州境內。因此Anthropic認為,根據其服務條款中的法庭選擇條款,本案應轉移到加州。

(二)、直接侵權之輸出係原告自己所為之「自願行為」
Anthropic指責原告違反Claude的服務條款,亦即使用者「不得要求Claude製作」受著作權保護的資料而侵權,因為這不是Claude預期或允許的使用方式,故抨擊原告自己參與並促使Claude對歌詞輸出之直接侵權,係原告而非Anthropic所為之「自願行為」(volitional conduct),而一般「自願行為」,必須證明被控侵權者對侵權內容具有控制權。但本案卻是原告自己「設計」出來對Claude「攻擊」所致,這些輸出是原告「刻意」誘使模型做不應做的事,目的在引導出AI模型吐出侵權歌詞,這並非由Claude使用者自主性之輸入而產生。

因此,實際上係由原告控制其所「宣稱」的侵權行為,因而需對此負責。否則一般而言,使用者不會像原告那樣使用Claude,來使其吐出侵權歌詞,故原告這種「特意展示」之生成模式,不符合Claude之典型使用者要求輸出的方式;通常人不會也沒有必要這樣做:因為歌詞可以從許多免費網站上獲得。

(三)、原告無法證明彌補的損害與轉化性的使用
Anthropic主張原告無法證明造成無法彌補的損害,指其缺乏證據表明,自Claude推出以來原告歌曲授權收入下降,或者具「確定且直接」品質上的損害,因為根據定義,金錢損害賠償確實有一可量化和支付的代價,出版商認為金錢損失可使其回復,這與他們自己關於「無法彌補的損害」的說法相矛盾。Anthropic聲稱,鑑於原告未足以證明無法彌補的損害,「特別救濟」的禁制令也不合理。

Anthropic還認為Claude的任何歌詞輸出,都是無意的「錯誤」(unintentional “bug”),現已透過新技術防護(technological guardrails)修復。特別是,Anthropic聲稱它已對Claude實施額外的保護措施,以防止進一步顯示出原告受著作權保護的歌詞。由於被指控的侵權行為不會再發生,因此原告要求阻止Claude輸出歌詞的救濟請求,欠缺實際意義。Anthropic表示:其設置護欄以防止Claude生成受保護的材料,如果這些措施在某些情況下失敗,那將是產品的「缺陷」,而不是「功能」。其還辯稱,「沒有證據」表明任何Claude使用者「輸入提示導致展示原告的歌詞」。

最後,Anthropic抗辯,其使用原告的歌詞來訓練Claude是一種「轉化性的使用」(transformative use),為原作品增添「進一步的目的或不同的特性」;其行為對原告著作權作品的合法市場沒有「實質性之不利影響」(substantially adverse impact),並指出歌詞僅佔訓練數據的「一小部分」(a minuscule fraction),並且Anthropic主張Claude之訓練構成合理使用(fair use)。


十一、本案幾個觀察的重點
(一)、AI生成曲譜音樂之爭議
首先,所謂之音樂著作,一般包括曲譜、歌詞等音樂著作,本案僅是針對歌詞部分所衍生的案件,而其性質上較偏向一般的文字著作,但AI音樂中還有針對曲譜本身之生成式AI。其實AI早已可自動產生各式各樣的音樂曲譜內涵。到目前為止,針對AI產生的曲譜音樂也有許多爭議,像是TikTok匿名使用者「ghostwriter977」,2023年4月使用SoftVC AI軟體,創作一首由Drake和The Weeknd演唱的AI生成歌曲《Heart on My Sleeve》,在TikTok和YouTube等各串流平台上累積數百萬次播放量。

這首歌的詞曲是由真人創作,但人聲部分卻是使用AI語音濾鏡(AI voice filters)的Deepfake生成,刻意去模仿歌手Drake和The Weeknd的聲音,透過輸入該二人的錄音來「訓練」AI應用程式,以模仿出歌手的真實聲音和風格。但實際上Drake和The Weeknd並未參與這首歌,因此藝人的唱片公司環球音樂以侵權為由,下架該首歌曲;而在華人圈之前也有所謂的AI孫燕姿、AI周杰倫、AI陳珊妮等模仿出歌手聲音的類似爭議,但迄今仍沒有爆發就AI生成式歌曲本身的訴訟案件,或許將來會有新的案件產生,拭目以待。

(二)、訓練過程中之複製 v. 生成結果之複製
生成式AI為了適當訓練、教導神經網路理解人類語言運作,因此需要大量文本,來創建一個大型語言模型數據集,如欲個別逐一取得所有的授權,實際運作上幾乎不可能;而訓練需要高達數兆個跨類型的材料,對任何人來說都是無法實現的授權規模。

生成式AI的著作侵權案中,許多原告都主張被告有二個部分侵權,一是在訓練過程中大量複製原告作品,另一則是AI自動生成結果的複製,就這兩部分而言,在基本構成要件上都可能屬於重製,但訓練過程中的重製是否構成侵權,這部分目前得予豁免於著作侵權而有立法的唯一例子,是日本著作權法第30條之4與第47條之5。但以美國而言,並未想要像日本或歐盟的AI Act法案來規範,而係訴諸於案例法依個案不同事實由法官來認定。簡而言之,過程中的重製乍看可能構成要件該當,但從聯邦巡迴上訴法院作家協會Authors Guild v. Google, Inc., 804 F.3d 202 (2d Cir. 2015)案,可知縱使有中間過程的複製也不當然違法,只要最後產生出的結果可構成轉化性的合理使用,則並非侵權。

(三)、AI工具不等於搜尋引擎
針對詢問Claude某首歌的歌詞,它就會輸出一樣的內容,這是否構成著作權之重製?從某個意義上看,它像是類似搜尋引擎針對問題來做答之機器,搜尋引擎雖然有中間過程的複製,但最終未繼續保留複製內容,而是把想要查詢的使用者,導引到原已存在之網路上某個網站,透過鏈結方式讓人直達其要尋找的資訊對象。然而,搜尋引擎提供索引不會被認定構成重製侵害,Claude的情況不同,其並非單純透過超連結提供索引路徑而已,而是將其已重製彙整具有著作權的內容持續留於數據庫中,然後隨著用戶指令回應而吐出重製內容,這從著作權法意涵來看,差別在於搜尋引擎最終呈現的只是超鏈結,而且會指涉來源出處,Claude則否且最終呈現的是帶有重製內容,不過這是否就構成侵權?或許也不能速斷,還要看AI工具提供者是否構成合理使用而定。

(四)、AI生成實質相似之比對
生成式AI侵權案中原告需面對一個客題:被告的產出和自己的著作內容,二者之間必須具備實質相似性才可能構成侵權。而原告為了要構成侵權,當然需證明原告著作與被指控的侵權品構成實質上相似(substantial similarity) (請參美國作家集體訴訟控告Meta生成式AI工具LLaMA著作侵權)。但在許多美國案例中,原告都無法具體舉出被告AI吐出的內容,究竟哪一部分和其內容產生近似。而這當中僅有本案和2023年12月紐約時報起訴微軟和Open AI的案件,可列舉出被告AI工具吐出內容構成侵權的具體例證!但針對這些舉證,紐約時報案例中,被告還是抗辯其所以會吐出相同或近似的內容,只是一種「反芻或逆流」(concept of regurgitation)的現象(請參媒體巨擘控告ChatGPT著作侵權案),本案的被告是否也會做類似的抗辯,尚不得而知。

(五)、AI生成代理侵害之挑戰
本案原告不僅指控被告在模型的訓練和使用中構成直接侵害,而且認為使用者本身也一樣構成直接侵害。針對其使用者的直接侵權,被告因此另應負代理侵權責任,原告固然希望起訴中涵蓋所有可能訴因,但應注意的,本案起訴後不到二週,北加州法院在Andersen et al v. Stability AI,  Midjourney案中,做出一項中間判決之程序裁定,要求原告具體說明被告AI平台如何被第三方以侵權方式使用,如果指控不夠具體將被駁回(請參美國畫家告Midjourney生成式AI工具著作侵權案)。

簡言之,代理侵害責任必須以直接侵權為前提,然而迄今所有案例都突顯一個問題:針對最後生成之產物(非訓練過程中),到底AI工具提供者還是使用者必須負直接侵權責任,還是二者共同侵權,這些都還未釐清。針對最終生成內容如構成侵權,這在法律上會產生一個困難:實際的直接侵權者到底是誰?由於工具提供者開發演算法、收集相關數據並訓練模型,但並未直接創作或寫出最終具體內容;而使用者輸入指令、調校參數,進行選擇與安排,亦非實際創作出最終內容者。二者各負擔一部分,但沒有任一方單獨完成全部行為,因此,直接侵權如不確定是使用者則代理侵權或無從成立。

(六)、依美國最高法院判例看生成式AI是否構成合理使用
最後,在美國所有的生成式AI侵權案中,被告都會抗辯其係合理使用不構成侵權,新興科技衝擊既有產業,而此係所有的創新者在被告時反駁的最後法寶,也是著作侵權重中之重的判斷。

針對AI是否可以構成合理使用,美國法院在評估時除需考量法定之四個因素外,依美國案例法最重要的仍是「轉化性合理使用」(transformative fair use) 因素,就此最高法院迄今已有三個重要的判例:Campbell v. Acuff-Rose Music, Inc. 510 U.S. 569 (1994)Google LLC v. Oracle America, Inc., 593 U.S. _(2021)Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S._(2023) ,雖然都並非針對生成式AI,但仍需根據其基本原則來評估侵權與否。

三個判例中最值得觀注的是安迪霍華(Andy Warhol)基金會案,最高法院評估如何構成轉化性用途時,將重點放在第一個判斷因素:被告利用之目的及性質,亦即使用原作是否具有「進一步之目的或不同的性質」,當複製使用和原作具有相同或相似之目的和性質時,而且依第四個合理使用因素:利用結果對著作潛在市場與現在價值之影響(即取代原作之「市場替代效果」的情況),加上被告二次使用因具有商業性質時,即傾向於對其不利。

Andy Warhol案判例,只要應用在相同的性質或目的時(都是作為攝影雜誌的使用),且係針對營利上的用途,此時其複製因性質相同又具營利目的,法院即認定被告不符合合理使用。因此有論者以為,本案中Claude輸出歌詞係複製受著作權保護的歌詞,其目的是回應使用者的指令要求輸出類似原曲的歌詞。根據Andy Warhol案的考量以及Anthropic的商業獲利因素,Chatbot 的使用不足以擁有轉化性,可能侵犯原創歌曲的著作權。準此,法院可能會認為Claude侵犯音樂家的著作權,因其功能是複製原作的關鍵和獨特元素,而不是創造具有其自身目的和特徵的模仿。

反之,在Oracle案中,被告Google雖大量使用原告的程式碼,但成功建構其得創造出一種轉化性的科技使用環境,而在科技應用上符合公共利益,即可構成合理使用。在上述兩項光譜當中,本案會往哪個方向移動,本案後續有待法院來界定是否符合轉化性之合理使用。


小結
總之,在法律上不會有放諸四海皆準的結論,認為生成式AI一律可或不可構成合理使用,這完全視個案中該AI應用的內涵,因此有的的確可以創造公共利益的轉化性合理使用,有些則不然,這些都必須按照個案的技術事實加以認定。
只不過這次生成式AI難度更高,嚴厲考驗著法官的司法智慧。(11852字;圖1)


作者資訊:
陳家駿律師  台灣資訊智慧財產權協會理事長 


註解: 

[1] 原告指控Claude涉嫌侵權的500首歌曲,包括知名知Beyonce, Rolling Stones和The Beach Boys,要求每次侵權最高法定賠償15萬美元的損害賠償。
[2] 程式碼中的token指原始碼的基本單位:函數、變數、關鍵字或引數;而自然語言處理中的token,則是單詞、子單詞、字元、標點符號等元素,用於文本探勘和語言模型訓練。
[3] Glossary, ANTHROPIC, https://docs.anthropic.com/claude/docs/glossary.
[4] 其僅表示:「Claude模型接受來自網路上公開資訊,我們從第三方企業授權的數據集,以及我們使用者積極分享或群體工作者提供之數據,由此等形成之專屬組合上進行訓練」,而原告認為,Anthropic之所以拒絕透露用於訓練Claude材料的原由,是因其已意識到未經授權複製受保護材料的違法性。
[5] Common Crawl是個海量、非結構化、多語言的網頁資料集,在GPT-3占權重最高的數據集之一,是網路上重要的資料來源。
[6] A General Language Assistant as a Laboratory for Alignment, at 8, 27, ANTHROPIC (Dec. 9, 2021), https://arxiv.org/pdf/2112.00861.pdf.
[7] Claude. Accessed Nov.9, 2023. https://claude.ai/chat/e1921c27-aced-43cd-8ec1-65f45a3b546a, Dominic Miranda, Anthropic Faces Lawsuit from UMG & Others: What does this mean to AI, https://www.thenulj.com/nuljforum/anthropic-faces-lawsuit-from-umg-amp-others-what-does-this-mean-for-ai.
[8] Kristi Hines, Anthropic To Launch Paid Plans For Access To Claude, SEARCH ENGINE JOURNAL (Aug. 25, 2023), https://www.searchenginejournal.com/anthropic-to-launch-paidplans-for-access-to-claude/494867/#close.
[9] Claude’s Constitution, ANTHROPIC (May 9, 2023), https://www.anthropic.com/index/claudesconstitution.
[10] Terms of Service, ANTHROPIC (Sept. 6, 2023), https://console.anthropic.com/legal/terms


參考資料:
Concord Music Group, Inc. et al., v. Anthropic PBC, U.S. District Court for the Middle District of Tennessee, Case 3:23-cv-01092.
Concord Music Group, Inc. v. Anthropic PBC A.
Concord Music Group, Inc. v. Anthropic PBC B.
Bryson Masse , Anthropic hits back at music publishers in AI copyright lawsuit, accusing them of ‘volitional conduct.
Marc D. Ostrow, The Wild West of AI-Generated Music: What Rules Rule?
Dominic Miranda, Anthropic Faces Lawsuit from UMG & Others: What does this mean to AI.
Daniel Tencer, Anthropic hits back against Universal's AI copyright Infringement Lawsuit.
Vincent Alfieri, Universal Music Suit: The Future of Generative AI Software in the Music Industry.
打敗 GPT-4,Claude 3 成最強 LLM!背後AI新創Anthropic 什麼來頭?商業周刊,2024/03/06



相關文章:
1. 鏖戰第三回合,英特格控告家登的晶圓傳送盒產品侵害氣體擴散相關專利
2. 專利優先權日晚於被控產品公開日超過一年,專利蟑螂ZT IP空殼公司未賠償被告VMware訴訟律師費
3. 三星反訴華碩筆電侵害WIFI專利,華碩技術授權公司因應追加主張被三星侵害專利
4. 全球生成式AI相關之訴訟大觀-- 盤點OpenAI、Microsoft、Meta、Midjourney等AI官司
5. 媒體巨擘控告ChatGPT著作侵權案 --New York Times v. Microsoft & OpenAI
6. BenQ欲排除涉嫌侵權的螢幕夾燈於Amazon銷售,銷售商ALPINE 提出確認產品不侵權訴訟
 
 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。