大型出版商聯手控告AI服務商Cohere侵犯其著作權及商標權

關鍵字：；；；；；；()；()；

瀏覽次數：2391｜歡迎推文：

科技產業資訊室(iKnow) - 袁如陵發表於 2025年2月18日

圖、大型出版商聯手控告AI服務商Cohere侵犯其著作權及商標權

本訴訟是由康泰納仕 (Condé Nast)、《大西洋月刊》(The Atlantic)、《富比士》(Forbes)、《衛報》(The Guardian) 和《Politico》等多家大型出版商，共同對加拿大AI新創Cohere所提起。

Cohere成立於2019年，主要產品是Command Family模型，包括Command、Command R和Command R+。Cohere的主要投資者包括Oracle、NVIDIA和Salesforce等大型企業科技公司，目前公司的估值已經超過50億元。

原告指控Cohere「系統性地侵犯其著作權和商標權」。他們聲稱Cohere未經許可，抓取了他們受著作權保護的文章來訓練其大型語言模型(LLM)。值得注意的是，許多本案中的原告，都已經與OpenAI、Perplexity、Meta等 AI公司簽訂過內容授權，以獲取授權金或廣告分潤。因此不難猜測，出版商似乎正在將這些授權作為錨點，嘗試透過訴訟向其他AI開發商獲取類似的授權收入。

本案件與之前的AI著作權案件較不同的是，此次出版社除了主張訓練資料使用了其資料（如同紐約時報訴OpenAI一案），還特別聚焦在Cohere會依據使用者的輸入，搜尋出版商在網路上的文章，再利用「檢索增強生成」(RAG)技術將內容提供給客戶，因此更容易輸出與原告文章幾乎完全相同的內容。

RAG是一種利用外部資料來源的LLM增強技術。當使用者提出問題時，RAG系統會先檢索相關的文件或資訊。這些資訊可能來自網頁、資料庫或其他知識庫。然後系統會將檢索到的資訊與使用者的提問結合，來生成更準確、更相關的回答。

針對相關指控，Cohere公司則回應稱，這起訴訟是「被誤導且輕率的」，並表示他們「長期以來一直優先考慮控制措施，以減輕智慧財產權侵權的風險，並尊重權利持有者的權益」。

模型訓練期間的資料重製

Cohere的CEO過去曾聲稱，Cohere已將數十億本電子書和網頁資料（包括WordPress、Tumblr、Stack Exchange、Genius、BBC、Yahoo!和紐約時報）送至模型進行訓練。Cohere也使用C4（Common Crawl的一個子版本）來訓練其模型。Common Crawl爬取網際網路，並免費向公眾提供內容，而C4(Colossal Clean Crawled Corpus)則是Google從Common Crawl資料集中所開發出的一個AI訓練子集。然而C4中就包含了原告擁有之著作權資料。舉例來說，洛杉磯時報、衛報、和富比士網站的內容分別在C4中排名第五、第六和第八。此外，Cohere還另外爬取其他值得信賴及具有高度新聞價值的網站。在起訴書的EXHIBIT B中，原告提供了75個Cohere產生與原作相似內容的範例。

圖1、起訴書EXHIBIT B。Cohere生成的內容與原始新聞內容幾乎完全相同。

提供回應給使用者時，會製作另一個副本

Cohere在行銷其服務時，時常強調它能夠利用網路搜尋功能來提供「最新新聞」，以與其他AI服務做出市場區隔。雖然Cohere從網路上複製大量文本來訓練其模型，但由於模型只有Cohere進行訓練時的資料，所以資訊很快會過時。因此Cohere的解決方法是依賴RAG技術，將原告網站上的資料作為回答問題的內容來源。

實際上，開啟RAG功能後，通常會傳回出版商受著作權保護的內容，包括當天的新聞報導和逐字副本。在使用者介面上，用戶甚至可以開啟一個被稱為Under the Hood的功能，來直接查看Cohere用於回答查詢的特定來源。雖然這些來源被Cohere稱為「程式碼片段」，但實際上通常就是每個來源的完整文本。

圖2、本案起訴書。使用者可以直接在 Under the Hood 選項中閱讀原文內容。

Cohere也會自動針對新文章製作副本

以下為原告提出的一個範例，一篇文章在上午11:08發布於Business Insider 網站，在下午1:14時，Cohere服務收到提示，就可以輸出幾乎整篇文章（除了一些單字和標點符號差異）。從Uder the Hood中可以看到，這個副本是在下午12:55製作完成。有趣的是，輸出內容中還包括了以下段落：「此報導僅適用於 Business Insider訂閱者。成為Insider並立即開始閱讀」，但使用者卻可以在Cohere上觀看此文章內容。另外，大西洋月刊、多倫多星報、富比世、及康泰納仕等網站都透過robots.txt指示Cohere的機器人不要爬取其網站，但被Cohere所無視。

圖3、本案起訴書。Business Insider這篇付費文章，在上線後幾個小時內就被Cohere所爬取。

Cohere會提供錯誤資訊

Cohere的RAG功能可以被關閉，但這時常會造成Cohere產生幻覺。例如在引述一篇衛報的報導時，Cohere不僅弄錯文章的發表時間，也將不同的事件搞混，並捏造了部分細節。實質上，這提供的已經不是衛報文章的原始內容，對出版商的聲譽自然有相當大的影響。

原告認為Cohere嚴重傷害其商業利益

原告指出：

Cohere未經授權使用出版商的作品，吸引走出版商現有和潛在的客戶，破壞了訂閱、廣告和電子商務等將內容變現的商業模式。
Cohere提供過於完整的文章以及摘要，使得用戶不再需要到出版商的網站瀏覽或訂閱文章。使用者甚至有可能為了避免支付訂閱費而選擇透過Cohere閱讀文章。
Cohere破壞了現有的授權市場，使得數位媒體不再需要從出版商取得授權內容。企業也可能不再訂閱出版商的網站和出版物。
Cohere的行為會影響到出版商與AI公司的授權業務，也會阻礙出版商開發自有AI聊天機器人的市場。
Cohere輸出錯誤的內容，並將問題歸咎於出版商，嚴重影響了原告的聲譽。

因此，原告的提告內容包括：

著作權之直接侵權：Cohere的每次侵權，都是分離且獨立的侵權行為，且Cohere的侵權行為是蓄意且有目的的。
著作權之間接侵權：Cohere可能會將責任轉嫁給其用戶來逃避責任，此時原告將要求 Cohere為次要責任負責。例如Cohere知道自己以侵犯出版商作品的輸出回應用戶，並且透過該服務將侵權副本傳輸給用戶，因此對侵權行為做出重大貢獻，形成共同侵權；Cohere積極推廣產品，因而誘導其用戶的直接侵權行為，造成引誘侵權；Cohere可以監督和控制此類侵權行為，但沒有採取合理的防範措施，因此構成代理侵權。
商標侵權：Cohere向客戶提供其模型，並使用與出版商之註冊商標近似的標誌，造成大眾認為Cohere 提供的虛假文章與出版商相關。

本案觀察重點

過往創作者或著作權人在控告AI公司著作權侵權時，會試圖證明AI輸出的文字與原作品實質相同，但由於大型語言模型中混合了相當多資料，因此在比對上相當困難，許多原告的指控都是如此而法院判定證據不足。

在先前紐約時報控告OpenAI一案中，紐約時報曾經提出了詳盡的比對，證明ChapGPT可以產生幾乎與原文完全相同的文字，被視為一大突破，雖然後續被質疑是經由操縱提示詞來達成，但至少證明了ChatGPT的訓練資料的確使用了紐約時報的內容。而本次訴訟中，出版商提出的資料，相較紐約時報也不惶多讓。在許多範例中，皆能看出Cohere能夠生成幾乎完全一樣的文字。更重要的是，讓用戶能閱讀到最新的新聞是Cohere的主要目標，而為了讓訊息夠準確，減少幻覺，Cohere只能大量地引用出版社這些經過人工審核、編輯的高品質報導。因此在侵權的判定上，似乎比起其他訴訟案要更難脫身。

過去幾年AI公司所涉及的著作權訴訟，大部分仍在不斷修改訴狀，或是討論證據開示(discovery)內容的階段。近期較大進展為Meta在法庭文件中暴露出其曾經使用盜版資料，而湯森路透則取得對法律新創Ross Intelligence的勝利。從本案可觀察到，著作權方逐漸從訴訟中開始學習，以提出更全面的指控及相關證據。話說雖此，這些案件的結果，仍會取決於個案事實以及「合理使用」的判定。

從一兩年前開始，AI公司已陸續開始與大型出版商簽訂資料授權協議，例如華爾街日報母公司新聞集團與OpenAI的內容授權協議，總值就超過2.5億美元。出版商嘗到甜頭後，勢必會向潛在的被授權方進行接洽，或是以訴訟為手段與對方達成和解。這樣的動作，是否會造成AI公司的營運成本顯著上升，值得繼續觀察。(2755字；圖4)

參考資料：
ADVANCE LOCAL MEDIA LLC et. Al., V. COHERE INC., Case 1:25-cv-01305, USCourts. 2025/02/13.

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------