谷歌、OpenAI 用新聞練人工智能竟不付費

PCMag 編輯獨立地選擇和審查產品。

如果您通過聯盟鏈接購買,我們可能會賺取佣金,這有助於支持我們的測試工作。

“我們的工作表明,關鍵的大型語言模型訓練數據集在比例上失衡,主要由新聞和媒體網站的商業出版商所擁有的高質量內容組成,”該研究稱。“在該技術的短暫歷史中,主要的大型語言模型公司在訓練最重要的大型語言模型時,在數量方面優先選擇了這些內容。”

Ziff Davis 是 PCMag 的母公司。這項研究由該公司的首席人工智能律師喬治·烏科森(George Wukoson)和首席技術官喬伊·福圖納(Joey Fortuna)進行。它對人工智能公司承認使用的數據集的開源複製品進行了檢查,包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承認會給其認定爲高質量的數據集賦予更多權重,包括新聞媒體、有版權的書籍以及熱門 Reddit 帖子中嵌入的鏈接。這是對語言模型從網絡上抓取的所有內容進行排名的一種方式,其目的是爲用戶提供更優質的答案。

例如,在訓練 GPT-3 時,儘管 WebText2 僅佔 3.8%的標記量,但其卻被賦予了 22%的權重。WebText2 中近 13.5%嵌入的 URL 來自 15 家頂級媒體出版商,包括新聞集團、《紐約時報》、甘尼特、齊夫戴維斯、Vox 媒體、阿克塞爾施普林格、奧爾登資本、赫斯特、《華盛頓郵報》、BuzzFeed、Future、IAC 和 Bustle。

數據集的內容也會隨着時間而變化。例如,OpenAI 在 OpenWebText 中對來自《華盛頓郵報》的內容高度重視,但在發佈 OpenWebText2 時降低了這部分內容的重要性。

Ziff Davis 表示,這些發現量化了新聞媒體對於 AI 聊天機器人未來的重要程度,但沒有義務爲此向其付費。這種“對高質量出版商內容的長期利用(對 LLM 公司而言利潤極高)意味着一些世界上最具價值的公司失去了許可收入。”

若內容沒有報酬,出版商可能會停業,威脅着人工智能時代高質量信息的持續流通。

據路透社報道,在這一報告發布之前,一名聯邦法官駁回了 Raw Story 和 AlterNet 對 OpenAI 的訴訟,這兩家公司稱,該人工智能公司未經許可使用它們的內容來訓練大型語言模型。《紐約時報》提起的相關案件仍在處理當中。OpenAI 還與許多頂級媒體公司簽署了許可協議。

OpenAI 最新推出的產品ChatGPT 搜索,現在除了總結其中的內容,還引用了一些出處。