30分鐘音檔打造 AI 分身! 宏正 COMPUTEX 秀臺語合成器

OpenAI推出更高性能、更高效AI技術模型GPT-4o。(美聯社)

OpenAI日前推出新模型GPT-4o,能即時以語音互動,AI威力更上層樓,用戶也能自由選擇AI回覆聲音,但隨即被爆出有一個聲音選項類似女星史嘉蕾.喬韓森,最後OpenAI受到壓力下架該聲音,也讓語音互動AI的語料來源合法性受到市場重視。

宏正自動科技(6277)此次Computex將展出最新產品「AI Voice優聲學」,除國語外,首度發表臺語合成器,宏正主管表示,語音合成是去合成類似人類自然談話的音調內容,至於說的資料由客戶提供,可以訓練學習當事人腔調語氣,跟大語言模型LLM不同是後者訓練AI去了解客戶問的意思,並找出最佳答案回覆。

語音素材除客戶提供外,宏正也有聘請聲優,能夠透過短短30分鐘比較少的語調錄音檔,就能產生出符合該人特色語氣的產品,宏正指出,相對於微軟跟OPEN AI用超大量資料去訓練建立類似人類說話的AI模型,宏正則是用較少的資料就能產生非常接近特定人說話口氣的演算法,最低門檻是30分鐘音檔大概1,000句語句,但若要更逼真可以提供更多音檔。

「宏正不是要跟OpenAI競爭,我們是做不一樣的事。」宏正主管表示,透過客戶來錄音30分鐘或提供現成音檔,宏正會針對該語調進行標記,然後做AI訓練,最終成品取決於資料涵蓋量,而優聲學可說是業界中文類需要資料量最小的語音演算法。

「臺語比我們想像中的難!」宏正主管透露,因爲臺語沒有太多中文稿件,同時變調非常多,所以若沒有抓出變調的方法,AI讀稿就會變得很奇怪,「小雨傘,沒有人會一個字一個字念(都念三聲),第二個字讀音會變二聲,這就是免費版跟收費版的差別。」宏正指出,合成器的重點就在正確性,目前也已開發1~20個模型,並有客戶合作中。

宏正指出,2016年預見AI將會成爲未來重要趨勢,內部就已開始投資研發,2018年初正式成立AI研發中心,鎖定聲音AI的開發,宏正並將在內部成立「AI工廠」,從聲線分析、文本設計、錄音工程、修整與標記、訓練與驗證,建立標準化AI服務與AI模型管理流程。