☰

熱點速遞- OpenAI o1模型：強化學習提升推理能...

一、前言

北京時間2024年9月13日凌晨，全球AI產業領頭羊OpenAI正式發佈一系列旨在專門解決複雜任務的全新AI推理大模型o1，即之前醞釀已久的草莓模型。根據OpenAI官方推特，o1系列模型將包括o1、o1-preview和o1-mini，其中o1-preview已開放使用，ChatGPT Plus和Team的用戶以及API使用等級達到5級（API付費超1000美元）的開發者已獲得該模型訪問權限，企業版和教育版的用戶預計將從9月16日起獲得該模型訪問權限。與此前The information、The medium等媒體報道基本一致，o1模型在功能、推理和性能表現上基本符合預期。

市場普遍認爲，OpenAI新一代AI推理模型o1系列的發佈標誌着AI在處理複雜任務領域進入新的發展階段。此次發佈的模型在推理能力和性能上取得了顯著提升，有望加速AI技術在各個領域的應用，包括自然語言處理、醫療診斷、自動駕駛等。AI技術在實際應用中的落地將顯著提速，特別是在企業級應用和教育領域。此舉將進一步激發AI技術在行業中的創新潛力，推動商業和學術領域對AI的更深入探索和開發，進而帶動AI產業鏈上下游企業的共同發展。相關產品人工智能AIETF（515070）及其聯接基金（008585/008586）。

二、OpenAI o1模型發佈：強化學習提升推理能力，應用前景與成本優化引關注

（1）模型機理及評測效果：強化學習加持下編碼/數學/推理能力提升顯著

根據OpenAI技術博客，o1模型在訓練過程中引入了大規模強化學習算法，從而加強了其執行復雜推理任務的能力。而根據“Reinforcement learning: An introduction”（Sutton），強化學習起源於上世紀60年代，旨在通過獎懲機制讓智能體在複雜環境中最大限度獲得長期全局最優收益。強化學習主要包括定義問題、選擇策略、學習價值函數（如Q學習）、模型控制和策略優化等步驟。此前谷歌圍棋機器人AlphaGo的核心技術即爲強化學習。在應用該項技術後，o1系列模型的輸出過程與GPT系列模型存在顯著不同：o1系列模型會先用至多20~30秒產生較長的思維鏈再進行輸出，即先將複雜任務拆解爲子任務進行分析，在彙總子任務結果後輸出最終結果，而非GPT系列模型立即開始生成的模式。根據OpenAI官網，o1模型在理科測試、數學、編程等絕大多數推理任務中表現明顯優於GPT-4o，甚至在部分推理密集型基準測試中o1模型的表現與人類專家相媲美。例如，在國際奧林匹克資格考試中，o1正確解答了83%的題目，而GPT-4o僅正確解答13%；在PhD水平科學問答測試中，o1和o1-preview表現均優於人類專家與GPT-4o。

（2）市場定位：安全性與推理能力顯著提升有望解鎖應用，模型成本有待優化

根據OpenAI官方技術博客，思維鏈可有效提升模型的安全和對齊水平：1）思維鏈可清晰的展示模型思維；2）將模型行爲策略整合到推理模型的思維鏈中，可以高效、穩健地教導人類價值觀。我們認爲，目前AI產業的主要矛盾是推理能力不足和成本過高導致的爆款應用匱乏。而在安全性有保障的前提下，推理能力的顯著提升使得o1有望逐步解鎖應用。但由於龐大的推理算力需求導致的高成本和純文字反饋的輸出形態，我們預計短期內o1的應用場景仍將集中於編程和科研等特定高價值生產力場景，OpenAI官方亦推出了更加擅長編程的且更便宜的推理模型o1-mini。根據OpenAI官網，o1-preview定價爲輸入端15美元/百萬token，輸出端60美元/百萬token；o1-mini的定價爲輸入端3美元/百萬token，輸出端12美元/百萬token；GPT-4o的定價爲輸入端1.25美元/百萬token，輸出端爲5美元/百萬token。

（3）趨勢展望：推理階段有望遵循Scaling Law，多模型配合值得關注

在研發o1模型時，OpenAI發現給予模型更多的推理時間可有效提高模型的性能，即推理階段的Scaling Law。這一發現在一定程度上意味着推理端的算力需求有望迎來蓬勃增長。同時目前o1系列模型的訪問限制也從側面證明了模型算力需求之旺盛。根據OpenAI官網，目前o1-preview使用限制爲每週30條，o1-mini爲每週50條。此外，我們認爲，應用層面的多模型配合亦值得關注。根據“Merge, Ensemble, and Cooperate! A Survey on Collaborative Strategies in the Era of Large Language Models”（Jinliang Lu, Ziliang Pang, Min Xiao等），多模型協作具有整體性能提升、多任務處理能力增強、計算效率提升、錯誤與幻覺減少、知識共享與能力遷移等優勢。多模型協作既可發生在大模型之間，也可發生在大模型與小模型之間。多模型協作策略可分爲融合、集成和合作三種，其中合作方法下不同模型兼容度最高最爲靈活，可創造出更加全面高效的AI系統，因此具備相當潛力。

三、OpenAI引領大模型迭代，國產大模型加速商業化進程

OpenAI引領下，大模型領域迎來新一輪迭代，國產大模型商業化進程備受關注。近期，國產大模型在更新迭代上取得顯著進展，國內廠商紛紛發佈新版模型或推出新應用產品，不斷完善模型性能，拓展應用場景。目前，大模型技術已逐漸融入效率辦公、創意創作、智能搜索、實時互動等日常生產生活中，爲用戶提供更豐富的功能與服務。從模型性能的角度看，國內大模型與國際領先模型的差距正在逐步縮小。根據SuperCLUE的最新數據，國內外TOP1模型的差距比例已從2023年5月的30.12%縮小至8月的1.29%。這一變化表明，國內大模型在中文領域的通用能力正在不斷趕超國際水平。在OpenAI o1模型的引領下，國產模型有望加速技術迭代，進一步提升性能和應用廣度，爲商業化開闢更廣闊的空間。國產大模型的快速發展不僅有助於推動AI技術在國內各行業的廣泛應用，也將爲全球AI產業的發展注入新的動力。在OpenAI1模型的引領下，國產模型有望加速迭代進程，持續打開商業化空間

相關產品：

1、人工智能AIETF(515070)及其聯接基金(008585/008586/021580)

人工智能AIETF跟蹤中證人工智能主題指數（指數代碼：930713.CSI，指數簡稱：CS人工智) 數選取爲人工智能提供基礎資源、技術以及應用支持的公司中選取代表性公司作爲樣本股，反映人工智能主題公司的整體表現。

數據來源：Wind，中信證券，廣發證券，截至2024.9.18，以上個股不作投資推薦。

熱點速遞- OpenAI o1模型：強化學習提升推理能...

相關資訊