ChatGPT興起,竟致在線問答公共知識共享減少?
一項發表於《PNAS Nexus》的新研究顯示,大型語言模型(LLM)(如 ChatGPT)的廣泛採用,導致像 Stack Overflow 這樣的平臺上的公共知識共享大幅減少。該研究指出,相較於限制訪問 ChatGPT 的類似平臺,在 ChatGPT 發佈後的六個月內,這個熱門的編程問答網站的用戶活動減少了 25%。
“LLM 如此強大,具有如此高的價值,並對世界產生了巨大影響。人們開始思考其未來,”第一作者瑪麗亞·德爾·里奧-查諾納(Maria del Rio-Chanona)說道,她是複雜性科學中心(CSH)的副教授。
“我們的研究假設,人們不再於像 Stack Overflow 這般的公共平臺發佈問題並獲取答案,畢竟在那裡人人都能看到並從中學習,而是在 ChatGPT 上私下問詢。然而,像 ChatGPT 這樣的 LLM 也是基於這種開放和公共數據進行訓練的,它們在某種程度上正在取代這些數據。那麼,這將會發生什麼呢?”德爾·里奧-查諾納補充道,她也是倫敦大學學院的助理教授,牛津馬丁學院新經濟思維研究所和劍橋大學貝內特公共政策研究所的副研究員。
“從我們的研究結果來看,我們發現,自 ChatGPT 發佈以來,Stack Overflow 上的問題和答案越來越少。這產生的影響相當大。這意味着未來可能沒有充足的公共數據用於訓練模型,”德爾·里奧-查諾納警告道。在這項研究中,她與來自慕尼黑路德維希馬克西米利安大學的納德澤亞·勞倫採娃,以及布達佩斯考文紐斯大學的 CSH 教員兼教授約翰內斯·瓦克斯展開合作。
“Stack Overflow 是一個任何有互聯網連接的人都能訪問的極具價值的知識數據庫。全世界的人們都從其他人發佈的問題和答案中學習,”瓦克斯說。
事實上,就連像 ChatGPT 這樣的人工智能模型也是以人類生成的內容(比如 Stack Overflow 上的帖子)爲訓練基礎。諷刺的是,人工智能對人類內容創作的取代,會讓未來人工智能模型的訓練愈發困難。通常認爲,用人工智能生成的數據來訓練新模型,效果往往不好,這一過程就好比複印一份複印件。
德爾·里奧 - 查諾納及其同事解釋道,研究結果還指出了一些情況,這些情況不單單是技術變革,還觸及到了我們的經濟和社會結構。隨着用戶更多地與像 ChatGPT 這樣的大型語言模型進行交互,他們可能不太願意爲開放知識平臺做出貢獻,從而導致有價值的數據從公共存儲庫轉移到私人擁有的人工智能系統中。
研究人員指出:“這代表着知識從公共領域向私人領域的重大轉移。”
德爾里奧 - 查諾納及其同事發現,Stack Overflow 上內容創作的減少對從新手到專家的所有經驗水平的用戶都產生了影響。
他們還觀察到,通過用戶反饋來衡量,帖子的質量並未顯著降低,這意味着低質量和高質量的貢獻均被大型語言模型所替代。
此外,該研究表明,某些編程語言(如 Python 和 JavaScript)的發佈量下降幅度顯著高於該平臺的平均水平。
“結果表明,人們確實在 ChatGPT 上詢問關於 Python 和 JavaScript 這兩種最常用編程語言的問題,而不是在 Stack Overflow 上,”德爾·里奧 - 查諾納說道。