大型出版商聯手控告AI服務商Cohere侵犯其著作權及商標權
科技產業資訊室(iKnow) - 袁如陵 發表於 2025年2月18日

圖、大型出版商聯手控告AI服務商Cohere侵犯其著作權及商標權
本訴訟是由康泰納仕 (Condé Nast)、《大西洋月刊》(The Atlantic)、《富比士》(Forbes)、《衛報》(The Guardian) 和《Politico》等多家大型出版商,共同對加拿大AI新創Cohere所提起。
Cohere成立於2019年,主要產品是Command Family模型,包括Command、Command R和Command R+。Cohere的主要投資者包括Oracle、NVIDIA和Salesforce等大型企業科技公司,目前公司的估值已經超過50億元。
原告指控Cohere「系統性地侵犯其著作權和商標權」。他們聲稱Cohere未經許可,抓取了他們受著作權保護的文章來訓練其大型語言模型(LLM)。值得注意的是,許多本案中的原告,都已經與OpenAI、Perplexity、Meta等 AI公司簽訂過內容授權,以獲取授權金或廣告分潤。因此不難猜測,出版商似乎正在將這些授權作為錨點,嘗試透過訴訟向其他AI開發商獲取類似的授權收入。
本案件與之前的AI著作權案件較不同的是,此次出版社除了主張訓練資料使用了其資料(如同紐約時報訴OpenAI一案),還特別聚焦在Cohere會依據使用者的輸入,搜尋出版商在網路上的文章,再利用「檢索增強生成」(RAG)技術將內容提供給客戶,因此更容易輸出與原告文章幾乎完全相同的內容。
RAG是一種利用外部資料來源的LLM增強技術。當使用者提出問題時,RAG系統會先檢索相關的文件或資訊。這些資訊可能來自網頁、資料庫或其他知識庫。然後系統會將檢索到的資訊與使用者的提問結合,來生成更準確、更相關的回答。
針對相關指控,Cohere公司則回應稱,這起訴訟是「被誤導且輕率的」,並表示他們「長期以來一直優先考慮控制措施,以減輕智慧財產權侵權的風險,並尊重權利持有者的權益」。
模型訓練期間的資料重製
Cohere的CEO過去曾聲稱,Cohere已將數十億本電子書和網頁資料(包括WordPress、Tumblr、Stack Exchange、Genius、BBC、Yahoo!和紐約時報)送至模型進行訓練。Cohere也使用C4(Common Crawl的一個子版本)來訓練其模型。Common Crawl爬取網際網路,並免費向公眾提供內容,而C4(Colossal Clean Crawled Corpus)則是Google從Common Crawl資料集中所開發出的一個AI訓練子集。然而C4中就包含了原告擁有之著作權資料。舉例來說,洛杉磯時報、衛報、和富比士網站的內容分別在C4中排名第五、第六和第八。此外,Cohere還另外爬取其他值得信賴及具有高度新聞價值的網站。在起訴書的EXHIBIT B中,原告提供了75個Cohere產生與原作相似內容的範例。

圖1、起訴書EXHIBIT B。Cohere生成的內容與原始新聞內容幾乎完全相同。
提供回應給使用者時,會製作另一個副本
Cohere在行銷其服務時,時常強調它能夠利用網路搜尋功能來提供「最新新聞」,以與其他AI服務做出市場區隔。雖然Cohere從網路上複製大量文本來訓練其模型,但由於模型只有Cohere進行訓練時的資料,所以資訊很快會過時。因此Cohere的解決方法是依賴RAG技術,將原告網站上的資料作為回答問題的內容來源。
實際上,開啟RAG功能後,通常會傳回出版商受著作權保護的內容,包括當天的新聞報導和逐字副本。在使用者介面上,用戶甚至可以開啟一個被稱為Under the Hood的功能,來直接查看Cohere用於回答查詢的特定來源。雖然這些來源被Cohere稱為「程式碼片段」,但實際上通常就是每個來源的完整文本。

圖2、本案起訴書。使用者可以直接在 Under the Hood 選項中閱讀原文內容。
Cohere也會自動針對新文章製作副本
以下為原告提出的一個範例,一篇文章在上午11:08發布於Business Insider 網站,在下午1:14時,Cohere服務收到提示,就可以輸出幾乎整篇文章(除了一些單字和標點符號差異)。從Uder the Hood中可以看到,這個副本是在下午12:55製作完成。有趣的是,輸出內容中還包括了以下段落:「此報導僅適用於 Business Insider訂閱者。成為Insider並立即開始閱讀」,但使用者卻可以在Cohere上觀看此文章內容。另外,大西洋月刊、多倫多星報、富比世、及康泰納仕等網站都透過robots.txt指示Cohere的機器人不要爬取其網站,但被Cohere所無視。

圖3、本案起訴書。Business Insider這篇付費文章,在上線後幾個小時內就被Cohere所爬取。
Cohere會提供錯誤資訊
Cohere的RAG功能可以被關閉,但這時常會造成Cohere產生幻覺。例如在引述一篇衛報的報導時,Cohere不僅弄錯文章的發表時間,也將不同的事件搞混,並捏造了部分細節。實質上,這提供的已經不是衛報文章的原始內容,對出版商的聲譽自然有相當大的影響。
原告認為Cohere嚴重傷害其商業利益
原告指出:
- Cohere未經授權使用出版商的作品,吸引走出版商現有和潛在的客戶,破壞了訂閱、廣告和電子商務等將內容變現的商業模式。
- Cohere提供過於完整的文章以及摘要,使得用戶不再需要到出版商的網站瀏覽或訂閱文章。使用者甚至有可能為了避免支付訂閱費而選擇透過Cohere閱讀文章。
- Cohere破壞了現有的授權市場,使得數位媒體不再需要從出版商取得授權內容。企業也可能不再訂閱出版商的網站和出版物。
- Cohere的行為會影響到出版商與AI公司的授權業務,也會阻礙出版商開發自有AI聊天機器人的市場。
- Cohere輸出錯誤的內容,並將問題歸咎於出版商,嚴重影響了原告的聲譽。
因此,原告的提告內容包括:
- 著作權之直接侵權:Cohere的每次侵權,都是分離且獨立的侵權行為,且Cohere的侵權行為是蓄意且有目的的。
- 著作權之間接侵權:Cohere可能會將責任轉嫁給其用戶來逃避責任,此時原告將要求 Cohere為次要責任負責。例如Cohere知道自己以侵犯出版商作品的輸出回應用戶,並且透過該服務將侵權副本傳輸給用戶,因此對侵權行為做出重大貢獻,形成共同侵權;Cohere積極推廣產品,因而誘導其用戶的直接侵權行為,造成引誘侵權;Cohere可以監督和控制此類侵權行為,但沒有採取合理的防範措施,因此構成代理侵權。
- 商標侵權:Cohere向客戶提供其模型,並使用與出版商之註冊商標近似的標誌,造成大眾認為Cohere 提供的虛假文章與出版商相關。
本案觀察重點
過往創作者或著作權人在控告AI公司著作權侵權時,會試圖證明AI輸出的文字與原作品實質相同,但由於大型語言模型中混合了相當多資料,因此在比對上相當困難,許多原告的指控都是如此而法院判定證據不足。
在先前紐約時報控告OpenAI一案中,紐約時報曾經提出了詳盡的比對,證明ChapGPT可以產生幾乎與原文完全相同的文字,被視為一大突破,雖然後續被質疑是經由操縱提示詞來達成,但至少證明了ChatGPT的訓練資料的確使用了紐約時報的內容。而本次訴訟中,出版商提出的資料,相較紐約時報也不惶多讓。在許多範例中,皆能看出Cohere能夠生成幾乎完全一樣的文字。更重要的是,讓用戶能閱讀到最新的新聞是Cohere的主要目標,而為了讓訊息夠準確,減少幻覺,Cohere只能大量地引用出版社這些經過人工審核、編輯的高品質報導。因此在侵權的判定上,似乎比起其他訴訟案要更難脫身。
過去幾年AI公司所涉及的著作權訴訟,大部分仍在不斷修改訴狀,或是討論證據開示(discovery)內容的階段。近期較大進展為Meta在法庭文件中暴露出其曾經使用盜版資料,而湯森路透則取得對法律新創Ross Intelligence的勝利。從本案可觀察到,著作權方逐漸從訴訟中開始學習,以提出更全面的指控及相關證據。話說雖此,這些案件的結果,仍會取決於個案事實以及「合理使用」的判定。
從一兩年前開始,AI公司已陸續開始與大型出版商簽訂資料授權協議,例如華爾街日報母公司新聞集團與OpenAI的內容授權協議,總值就超過2.5億美元。出版商嘗到甜頭後,勢必會向潛在的被授權方進行接洽,或是以訴訟為手段與對方達成和解。這樣的動作,是否會造成AI公司的營運成本顯著上升,值得繼續觀察。(2755字;圖4)
參考資料:
ADVANCE LOCAL MEDIA LLC et. Al., V. COHERE INC., Case 1:25-cv-01305, USCourts. 2025/02/13.
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。
|