☰

谷歌、OpenAI 用新聞練人工智能竟不付費

PCMag 編輯獨立地選擇和審查產品。

如果您通過聯盟鏈接購買，我們可能會賺取佣金，這有助於支持我們的測試工作。

“我們的工作表明，關鍵的大型語言模型訓練數據集在比例上失衡，主要由新聞和媒體網站的商業出版商所擁有的高質量內容組成，”該研究稱。“在該技術的短暫歷史中，主要的大型語言模型公司在訓練最重要的大型語言模型時，在數量方面優先選擇了這些內容。”

Ziff Davis 是 PCMag 的母公司。這項研究由該公司的首席人工智能律師喬治·烏科森（George Wukoson）和首席技術官喬伊·福圖納（Joey Fortuna）進行。它對人工智能公司承認使用的數據集的開源複製品進行了檢查，包括 Common Crawl、C4、OpenWebText 和 OpenWebText2。

OpenAI 承認會給其認定爲高質量的數據集賦予更多權重，包括新聞媒體、有版權的書籍以及熱門 Reddit 帖子中嵌入的鏈接。這是對語言模型從網絡上抓取的所有內容進行排名的一種方式，其目的是爲用戶提供更優質的答案。

例如，在訓練 GPT-3 時，儘管 WebText2 僅佔 3.8%的標記量，但其卻被賦予了 22%的權重。WebText2 中近 13.5%嵌入的 URL 來自 15 家頂級媒體出版商，包括新聞集團、《紐約時報》、甘尼特、齊夫戴維斯、Vox 媒體、阿克塞爾施普林格、奧爾登資本、赫斯特、《華盛頓郵報》、BuzzFeed、Future、IAC 和 Bustle。

數據集的內容也會隨着時間而變化。例如，OpenAI 在 OpenWebText 中對來自《華盛頓郵報》的內容高度重視，但在發佈 OpenWebText2 時降低了這部分內容的重要性。

Ziff Davis 表示，這些發現量化了新聞媒體對於 AI 聊天機器人未來的重要程度，但沒有義務爲此向其付費。這種“對高質量出版商內容的長期利用（對 LLM 公司而言利潤極高）意味着一些世界上最具價值的公司失去了許可收入。”

若內容沒有報酬，出版商可能會停業，威脅着人工智能時代高質量信息的持續流通。

據路透社報道，在這一報告發布之前，一名聯邦法官駁回了 Raw Story 和 AlterNet 對 OpenAI 的訴訟，這兩家公司稱，該人工智能公司未經許可使用它們的內容來訓練大型語言模型。《紐約時報》提起的相關案件仍在處理當中。OpenAI 還與許多頂級媒體公司簽署了許可協議。

OpenAI 最新推出的產品ChatGPT 搜索，現在除了總結其中的內容，還引用了一些出處。

谷歌、OpenAI 用新聞練人工智能竟不付費

相關資訊