☰

OpenAI新模型來了 GPT-4o能講故事、算數學特別感謝黃仁勳

OpenAI發表會於13日登場，由該公司技術總監穆拉蒂（Mira Murati）主持，揭曉了三項ChatGPT的更新，其一是一般用戶將可以免費造訪GPT Store，另外是推出適用於Mac電腦的桌機版App以及新模型「GPT-4o」。

其中尤以GPT-4o最爲受到矚目，GPT-4o爲GPT-4的進階版本，改進了GPT-4的能力，可透過文字、圖像、音訊的任意輸入組合來進行推理，並將即時生成文字、圖像、音訊的組合輸出內容，大大地改善了使用者體驗，讓對話更像與真人交談。

OpenAI執行長奧特曼（Sam Altman）更發文表示，與電腦交談從來沒有真正自然過，現在卻可以了。

穆拉蒂在演示時指出，相比於GPT-4 Turbo，GPT-4o的速度快了兩倍、成本降低了50％，而API速率限制、即用戶可發出的請求數量則提高了五倍。此外， GPT-4o最快可在232毫秒的時間內迴應音訊輸入，而其平均反應時間也僅有320毫秒，與人類在對話中的反應時間相似。

在先前的GPT-3.5和GPT-4模型中，OpenAI使用三個獨立的模型實現對話，包含一個將音訊轉換爲文字的模型、一個接收並輸出文字的模型，最後則是一個將文字轉換回音訊的模型，上述過程會使GPT失去大量訊息，因而無法直接觀察音調、多個說話者或背景噪音，亦無法輸出笑聲、歌唱或表達情感。

該公司在GPT-4o模型對此進行了調整，其所有輸入和輸出都由同一神經網路處理，因此延遲時間縮短，且能夠以自然、聽起來像人類的聲音進行對話，也能模仿機器人說話，甚至還能高歌一曲。

值得一提的是，新模型能依指令改變語調，擬人講睡前牀邊故事，或以歌唱方式說故事。此外，該模型更可「聽聲翻譯」，穆拉蒂與Mark Chen分別以義大利文和英文交談，最後新模型成功將內容翻譯成更自語言，OpenAI團隊也展示新模型解決數學方程式、輔助編寫程式碼的能力。

OpenAI稱，GPT-4o爲該公司第一個結合所有模式的版本，目前仍只在淺嘗並探索該模型的功能及侷限性。

穆拉蒂在活動上宣佈，GPT-4o模型將開放所有用戶免費使用，自今日起支援ChatGPT，一般用戶可免費使用，並針對付費用戶提供5倍的容量上限。未來幾周將會爲ChatGPT Plus的用戶推出具新版語音模式的GPT-4o alpha版。

OpenAI本次發表會的另外一項更新是宣佈增添桌面版ChatGPT App，將優先適用於Mac電腦，至於Windows電腦的版本則會於今年稍晚推出。此外，GPT Store將改爲向一般用戶開放，不再僅限於付費用戶。

對於GPT-4o模型的問世，穆拉蒂除了感謝OpenAI專業團隊之外，更點名黃仁勳及輝達團隊提供的先進GPU，使GPT-4o模型演示成真。

OpenAI新模型來了 GPT-4o能講故事、算數學 特別感謝黃仁勳