衆多公司對加州人工智能訓練法態度曖昧

週日,加利福尼亞州州長加文·紐瑟姆簽署了一項法案,即 AB-2013,要求開發生成式人工智能系統的公司公佈其用於訓練系統的數據的高級摘要。其中,摘要必須涵蓋數據的所有者、獲取或授權方式,以及是否包含任何受版權保護或個人信息。

很少有 人工智能公司願意表明自己是否會遵守。

TechCrunch 聯繫了人工智能領域的主要參與者,包括 OpenAI、Anthropic、微軟、谷歌、亞馬遜、Meta 以及初創公司 Stability AI、Midjourney、Udio、Suno、Runway 和 Luma Labs。但迴應者不到一半,其中一家供應商——微軟——更是明確拒絕置評。

只有 Stability、Runway 和 OpenAI 告訴 TechCrunch 他們將遵守 AB-2013。

“OpenAI 在我們所運營的司法管轄區遵守法律,這其中就包括這一個,”OpenAI 的一位發言人說道。

Stability 的一位發言人表示,該公司“支持經過深思熟慮的監管,這種監管既能保護公衆,同時又不會扼殺創新。”

平心而論,AB-2013 的披露要求並非立即生效。雖然它們適用於 2022 年 1 月或之後發佈的系統——比如 ChatGPT 和 Stable Diffusion 等——但公司要到 2026 年 1 月纔開始公佈培訓數據摘要。該法律也僅適用於向加利福尼亞人提供的系統,留了一些餘地。

供應商在這件事上保持沉默可能還有另一個緣由,這與大多數生成式人工智能系統的訓練方式有關。

培訓數據常常源自網絡。供應商從網站上抓取大量的圖像、歌曲、視頻等,並以此訓練他們的系統。

幾年前,人工智能開發者通常會在模型發佈時附帶的技術論文中列出其培訓數據的來源,這是常規操作。例如,谷歌曾透露,它在公共的LAION數據集上訓練了其圖像生成模型家族Imagen的早期版本。許多較舊的論文提到了 The Pile,這是一個包括學術研究和代碼庫的開源培訓文本集合。

在當今競爭激烈的市場中,訓練數據集的構成被視作一種競爭優勢,公司把這列爲其不披露的主要原因之一。但訓練數據的細節也可能讓開發者面臨法律風險。LAION 鏈接了受版權保護的和侵犯隱私的圖像,而 The Pile 包含一個包含斯蒂芬·金和其他作者作品的盜版庫。

已經有許多有關訓練數據濫用的訴訟,而且每個月都有更多的訴訟被提起。

作者和出版商聲稱,OpenAI、Anthropic 和 Meta 使用了受版權保護的書籍——有些來自 Books3——進行訓練。音樂廠牌已把 Udio 和 Suno告上法庭,指控它們在未給音樂家補償的情況下用歌曲進行訓練。藝術家們已提起集體訴訟,指控 Stability 和 Midjourney 的數據抓取行爲相當於盜竊。

不難看出 AB-2013 對於試圖避免法庭糾紛的供應商來說可能存在問題。該法律要求公開一系列有關訓練數據集的潛在有罪的規格,包括一份通知,說明數據集首次使用的時間以及數據收集是否正在進行。

AB-2013 的涵蓋範圍相當寬泛。任何對人工智能系統進行“實質性修改”(即微調或重新訓練)的實體也必須公佈他們用於此操作的訓練數據的信息。該法律存在一些豁免條款,但它們主要適用於網絡安全和國防中使用的人工智能系統,例如用於“國家空域中飛機的運行”的那些。

當然,許多供應商認爲被稱爲合理使用的原則提供了法律保護,並且他們在法庭上主張這一點,同時在公開聲明中也是如此。 一些公司,如 Meta 和谷歌,已經更改了其平臺的設置和服務條款,以允許他們獲取更多用戶數據用於訓練。

在競爭壓力的刺激下,並且打賭合理使用的辯護最終能夠獲勝,一些公司在受知識產權保護的數據上進行了大量訓練。路透社的報道顯示,Meta 曾一度使用有版權的書籍進行人工智能訓練,儘管其自己的律師發出了警告。有證據顯示,Runway 獲取了 Netflix 和迪士尼的電影來訓練其視頻生成系統。據報道,OpenAI在創作者不知情的情況下轉錄了 YouTube 視頻用於開發模型,其中包括GPT-4。

正如我們之前所寫,存在一種結果,即生成式人工智能供應商能夠逍遙法外,無論是否披露系統訓練數據。法院最終可能會支持合理使用的支持者,並認定生成式人工智能具有足夠的變革性——而不是像《紐約時報》和其他原告所聲稱的抄襲引擎。

在更爲戲劇性的情形下,AB-2013 可能導致供應商在加利福尼亞州扣押某些型號,或者爲加利福尼亞人發佈僅依據合理使用和授權數據集訓練而成的型號版本。一些供應商可能會認爲,對於 AB-2013,最安全的行動方案是避免做出會導致妥協以及引發訴訟的披露。

假設該法律既未受到質疑,也未被暫停,從現在起一年多一點,等到 AB-2013 的截止日期,我們就能有一個清晰的認識。