產業追蹤/合成資料 推進人工智慧

人工智慧快速發展,高品質訓練數據被視爲推動技術進步的關鍵。但要獲得這些數據,從技術、成本到法律與道德層面都存在諸多限制。在此背景下,合成資料(Synthetic Data)透過算法創造的虛擬數據,提供一條新的解決途徑。根據Gartner(2022年)預測,到2024年,將有60%的用於AI和數據分析的數據將是合成資料。

合成資料是通過深度學習技術如生成對抗網絡(GANs)或變分自編碼器(VAEs)模擬生成。這些數據在統計特性上與真實世界數據相似,但不涉及真實個人或事件的具體信息,避免與真實數據收集相關的隱私和法律問題。想像一下,有一個虛擬工廠能生產看起來、聞起來、感覺像真實事物的複製品,但這些都是通過電腦程式創造出來。這正是合成資料的魅力,可以隨意設計和生成數據,爲各種應用提供豐富而多樣的數據集,從而促進AI技術的發展。

合成資料的優勢包括隱私保護、成本效益和多樣性。例如能在不泄露任何個人信息下提供數據資源,避免隱私侵權的法律風險;真實數據的收集和標註非常昂貴,合成資料的生成成本較低,且可無限制生成數據;合成資料能涵蓋現實數據中難以收集的邊緣案例,提高模型的泛化能力和公平性。

例如OpenAI和Stability AI積極應用合成資料。OpenAI在其語言模型GPT系列廣泛應用合成資料,透過生成對抗網絡生成的合成文本數據訓練模型,提高語言理解和生成的精確性,同時降低成本和時間。Stability AI專注於視覺AI領域,利用先進的圖像生成技術,創建高質量的合成圖像訓練圖像識別模型,有效模擬現實世界中的場景和物體。這使模型能在不接觸實際數據的情況下,學習到正確的圖像識別和分類方法。

合成資料的應用已擴展到多個產業,並推動創新和效率提升。一、零售產業:Target使用合成資料來模擬和預測不同顧客行爲,改善產品佈局和市場策略。透過生成對抗網絡(GANs),Target能夠創建多種購物情境,分析不同產品擺放和促銷活動對購買行爲的影響。此外,這些數據還被用來訓練機器學習模型預測季節性銷售趨勢和客戶偏好,從而優化庫存管理和定價策略。

二、金融產業:Citibank利用合成資料進行壓力測試和風險評估,以模擬不同經濟情境下的市場反應。合成資料允許該銀行在不涉及真實客戶數據的情況下,測試其金融模型對於市場崩潰、利率變動和其他經濟變數的敏感度。這些模擬幫助銀行優化其風險管理策略,提高應對突發經濟事件的能力。

三、健康產業:Johns Hopkins Hospital使用合成資料生成各類醫療影像,以訓練和提升AI診斷系統的精確度。合成資料包括但不限於X光、MRI和CT掃描,這些影像數據被用於模擬罕見疾病的病例,增強醫生對這些病例的識別和診斷能力。此外,合成資料還用於訓練模型辨識早期疾病徵兆,對於提高疾病的早期發現率極具價值。

四、製造產業:Tesla使用合成資料來訓練其自動駕駛系統。合成資料生成軟體能夠創造各種道路情境、天氣條件以及意外狀況,這些數據用於測試和改善車輛的反應和決策過程。這種做法不僅減少了在真實環境中的測試需求,還大大提高了數據收集的安全性和效率。

五、娛樂產業:Netflix使用合成資料來改善其推薦引擎。透過模擬不同用戶的觀看習慣和偏好,生成合成用戶數據,能更精確預測哪些內容最可能吸引特定用戶羣。不僅提高用戶滿意度,還增強個性化服務的質量。

AI技術持續進步,合成資料的應用將愈來愈廣泛,這不僅能增強模型訓練,也爲數據驅動的創新提供無限機會。這些應用案例顯示合成資料在未來科技創新中扮演關鍵作用,爲遵循道德和法律規範提供可行解決方案。透過這些技術的進步和應用範圍擴展,合成資料將在未來的數據策略中佔重要的地位。(作者是商研院人工智慧綜合服務中心主任)

商研院

財團法人商業發展研究院於2007年12月成立,致力於服務業環境、行銷與消費、經營模式、人才發展、國際化

與科技應用相關研究,擘劃服務產業政策,爲國內唯一提供服務業全面解決方案之資源整合平臺。