OpenAI發佈新模型o1,更像理科生,不會多模態但推理能力超強

9月13日消息,去年,OpenAI通過推出GPT-4,實現了人工智能領域的一次重大突破。週四,該公司宣佈了一個標誌着其研究方向轉變的全新模型:OpenAI o1。

OpenAI o1具備獨特的邏輯“推理”能力,能夠解決許多現有模型(包括OpenAI目前最強大的模型GPT-4o)無法處理的複雜問題。與傳統大語言模型通常一步給出答案不同,OpenAI o1像人類一樣,通過逐步推理,最終得出正確的結論。

OpenAI首席技術官米拉·穆拉蒂(Mira Murati)在接受採訪時表示:“我們將其視爲人工智能模型發展的新範式,特別是在處理複雜推理任務時,展現出了前所未有的優勢。”

OpenAI o1的內部代號爲“草莓”,並非旨在取代GPT-4,而是對其的補充。

穆拉蒂還透露,OpenAI目前正在構建下一代主模型GPT-5,其規模將遠超前代。儘管公司依然認爲擴大模型規模能帶來新的突破,GPT-5預計將融合本次展示的推理技術。“我們有兩個發展方向,一個是規模擴展,另一個是推理能力提升,我們希望最終將兩者結合,”穆拉蒂說道。

大語言模型通常依賴龐大的神經網絡和海量數據進行訓練,展現出卓越的語言和邏輯能力,但在處理基本推理問題(如簡單的數學題)時,表現不佳。

穆拉蒂指出,OpenAI o1採用了強化學習技術,通過對正確答案給出正反饋、錯誤答案給出負反饋,逐步提升模型的推理策略。她補充說:“這個模型不僅提升了思維的敏銳度,還微調了它用於解決問題的策略。”強化學習已經幫助計算機在遊戲和複雜任務(如芯片設計)中取得了超凡表現,同時也是開發高效、友好的聊天機器人的關鍵技術。

OpenAI研究副總裁陳信翰(Mark Chen)展示了OpenAI o1的能力,解決了GPT-4o無法處理的多個問題,包括複雜的化學題和一個棘手的數學推理題。陳信翰表示:“新模型不再只是模仿人類思維方式,而是學會了獨立思考。”

OpenAI稱,新模型在多個領域(如編程、數學、物理、生物和化學)的測試中表現出色。在美國數學邀請賽(AIME)中,GPT-4o平均解答率爲12%,而OpenAI o1的解答率則高達83%。

不過,OpenAI o1的速度不如GPT-4o,且其優勢並非在所有情況下都明顯,部分原因在於它無法搜索網絡,也不具備多模態功能,無法處理圖像或音頻數據。

近年來,提升大語言模型的推理能力一直是研究熱點,競爭對手也在積極探索。谷歌今年7月宣佈了AlphaProof項目,結合了語言模型和強化學習,專注於解決複雜的數學問題。儘管AlphaProof能夠通過正確答案學習數學推理,但面臨的挑戰在於現實問題並非總有明確答案。

OpenAI表示,其新推理系統具備更廣泛的適用性。陳信翰認爲:“我們在這一領域取得了突破,這也是我們的優勢所在。該系統在各個領域的推理任務中表現出色。”

斯坦福大學教授諾亞·古德曼(Noah Goodman)曾發表過關於提高大語言模型推理能力的研究,他認爲,通過精心設計的提示性語言模型結合手工優化數據,可能是實現推理能力提升的關鍵。古德曼還表示,如果能在速度和準確性之間取得平衡,將是“意義重大的進步”。

麻省理工學院助理教授Yoon Kim指出,大型語言模型的推理機制仍顯得神秘,儘管它們能夠逐步推理,但與人類思維或存在本質差異。這種差異在技術被廣泛應用時可能會變得至關重要。他說:“這些系統可能會做出影響衆多人的決策。更大的問題是,我們能否信賴它們的決策機制?”

OpenAI新技術或許還有助於確保AI模型的“良性行爲”。穆拉蒂表示,新的推理模型可以通過對結果的推理,避免產生不良或有害的輸出。她說:“就像教育孩子一樣,一旦他們理解爲什麼要做某件事,他們就能更好地遵守規範、行爲準則和價值觀。”

華盛頓大學名譽教授、人工智能專家奧倫·埃齊奧尼(Oren Etzioni)指出:“讓大語言模型具備多步驟推理、使用工具和解決複雜問題的能力至關重要,單靠規模擴展難以達成這一目標。”他補充說,即使推理能力得到提升,幻覺和事實驗證問題依然存在。

陳信翰透露,該公司開發的新推理方法表明,人工智能的發展並不一定需要龐大的算力支撐。“這一變革令人振奮。我們相信它能以更低的成本實現智能輸出,而這正是我們公司核心願景的一部分。”(小小)