姚期智院士大模型新研究:思維圖DoT,用數學理論確保AI邏輯一致
姚期智院士領銜,推出大模型新推理框架,CoT“王冠”戴不住了。
提出思維圖(DiagramofThought),讓大模型思考更像人類。
團隊更是爲這種推理過程提供了數學基礎,通過拓撲斯理論(Topos Theory)正式化(formalize)DoT,確保其邏輯一致性和合理性。
相比CoT將推理過程表示爲線性序列,DoT更能捕捉人類推理的複雜性。
相比引入分支結構ToT和GoT,DoT不需要依賴外部控制機制或多個模型協作,訓練部署更簡單。
秘訣就在於,DoT將LLM中的迭代推理建模爲在單一模型內構建有向無環圖(DAG)。
DAG由代表命題、批評、精煉和驗證的節點組成,邊表示它們之間的邏輯關係或依賴關係,邊都有方向,不存在任何循環路徑。
這種無環的特性確保推理過程不受循環依賴的影響,能更真實反映合理的邏輯推導。
9.11和9.8哪個大、strawberry中有幾個“r”等問題在DoT的幫助下全都迎刃而解了。
要知道,大模型最新“頂流”OpenAI o1目前被訓練得原生具備生成CoT的能力,現在更強的DoT來了,是不是也可以通過強化學習內化到模型裡,如此一來……
這項研究提出後得到了不小的關注。
網友紛紛表示這是一種正確的路徑。
具體來看看DoT長啥樣。
如前所述,DoT將邏輯推理過程建模爲在單個LLM內構建有向無環圖(DAG)。
其框架內部管理三個關鍵角色:
這三個角色通過使用特殊token,如
,在模型的輸出中被明確定義。LLM在生成過程中在這些角色之間無縫切換,利用其自迴歸能力根據上下文預測下一個token。
推理過程始於提議者引入一個命題,向DAG添加一個節點。
然後,由評論者評估驗證或提供批評。如果提供了批評,將添加一個新節點,並在該命題和批評之間建立一個邊。
基於批評,提議者生成一個精煉改進過的命題,表示爲DAG中的一個新節點。
這一過程重複進行,命題不斷被精煉直到得到驗證。
一旦建立了足夠有效的命題,總結者就會綜合這些推理,對DAG進行拓撲排序以產生一個連貫的思維鏈。
通過讓模型接觸正確和錯誤的推理,DoT允許LLM從錯誤中學習,隨着時間的推移不斷精煉其推理,這也更像人類解決問題的方式。
這種方法不僅捕捉了推理的非線性和迭代特性,還通過自然語言批評提供了比二元信號更豐富的反饋。
DoT的訓練涉及使用格式化爲DoT結構的訓練樣例,包括角色特定token和DAG表示。在推理過程中,模型基於上下文線索和角色特定token生成命題、批評和總結。
這種方法簡化了部署,消除了對多LLM協作或外部控制機制的需求,同時與標準LLM訓練範式保持一致,便於集成到現有工作流程中。
作者還爲DoT框架提供了嚴格的數學基礎,利用Topos Theory對推理過程進行了形式化描述。
在這個框架中,命題被建模爲拓撲中終端對象的子對象,邏輯關係和推理步驟表示爲態射,批評和改進過程分別對應到子對象分類器的態射和命題間的態射。
通過引入PreNet範疇,他們還成功捕捉了推理過程的動態和併發特性。
這種數學基礎不僅確保了推理過程的邏輯一致性和完備性,還爲設計下一代專門用於推理的AI模型提供了概念框架。
這篇論文由清華交叉信息研究院姚期智、袁洋領銜,論文第一作者爲張伊凡。
張伊凡
張伊凡2021年本科畢業於於北京大學元培學院,現爲清華大學交叉信息學院博士研究生,師從袁洋助理教授。
他的主要研究方向爲基礎模型(大語言模型)的理論和算法、自監督學習、可信人工智能。
袁洋
袁洋是清華大學交叉信息學院助理教授,博士生導師。
2012年畢業於北京大學計算機系;2018年獲美國康奈爾大學計算機博士學位;2018-2019年前往麻省理工學院大數據科學學院做博士後。
他的主要研究方向是智能醫療、AI可解釋性、AI大系統,在非凸優化理論、神經網絡優化理論、機制設計等領域有頗多研究成果。
姚期智
姚期智是中國科學院院士、清華大學交叉信息研究院院長;同時也是“圖靈獎”創立以來首位獲獎的亞裔學者、迄今爲止獲此殊榮的唯一華人計算機科學家。
姚期智教授2004年從普林斯頓辭去終身教職回到清華任教;2005年爲清華本科生創立了計算機科學實驗班“姚班”;2011年創建“清華量子信息中心”與“交叉信息研究院”;2019年再爲清華本科生創立了人工智能學堂班,簡稱“智班”。
如今,他領導的清華大學交叉信息研究院早已聲名遠播,姚班、智班都隸屬交叉信息院。
姚期智教授研究方向有算法、密碼學、量子計算等,是這方面的國際先驅和權威。
一年前的差不多同一時間姚期智院士領銜提出了累積推理(Cumulative Reasoning,CR)的方法。
DoT是對CR的進一步深化。
當時CR協調了一個涉及不同專業化大語言模型的迭代過程,由不同模型承擔了提議者、驗證者和報告者角色。
而DoT直接在單一模型內構建有向無環圖,不依賴於外部控制機制或多個模型,訓練和部署更簡單。
且在DoT中,模型生成的批評反饋是自然語言形式的,而不是像CR那樣只給出二值信號。這使得模型可以接收到關於錯誤的詳細解釋,有助於更有效地改進命題。
這次DoT還有了強有力的數學基礎,闡明瞭DoT推理過程與範疇邏輯的關係,從理論上確保了推理的一致性和可靠性。
論文鏈接:https://arxiv.org/abs/2409.10038
參考鏈接:[1]https://x.com/omarsar0/status/1835882277563179512[2]https://hub.baai.ac.cn/users/16897[3]https://hub.baai.ac.cn/users/19790