o1醫學領域大勝GPT-4,性能暴漲!頂尖華人團隊激動發文:離AI醫生越來越近了

新智元報道

編輯:LRS

【新智元導讀】OpenAI的o1模型在通用語言任務上展現了顯著的性能,最新測評展現了o1模型在醫學領域的表現,主要關注理解、推理和多語言能力,結果大幅超越以往的模型!

大語言模型在剛發佈的時候,以其任務、領域通用性和流暢的文本生成能力成功破圈,不過當時的技術還只能應用在一些比較簡單的任務上。

而隨着思維鏈等提示技術出現,尤其OpenAI最新發布的o1模型更是第一個採用強化學習策略的內化思維鏈技術的,把大模型解決複雜問題和推理能力提高了全新的高度。

雖然o1模型在各種通用語言任務上表現出了驚人的強大能力,但其在醫學等專業領域的表現仍然未知。

來自加州大學聖克魯茲分校、愛丁堡大學和美國國立衛生研究院的華人團隊共同發佈了一篇報告,對o1在不同醫療場景下進行了全面的探索,考察了模型在理解(understanding)、推理(reasoning)和多語言(multilinguality)方面的能力。

論文鏈接:https://arxiv.org/pdf/2409.15277

數據鏈接:https://ucsc-vlaa.github.io/o1_medicine/

該評估涵蓋 6 個任務,使用來自 37 個醫學數據集的數據,其中包括兩個基於《新英格蘭醫學雜誌》(NEJM) 和《柳葉刀》專業醫學測驗的高難度問答任務。

與MedQA 等標準醫學問答基準相比,這些數據集與臨牀聯繫得更緊密,可以更有效地應用於真實世界的臨牀場景中。

對o1模型的分析表明, LLMs推理能力的增強更有利於模型理解各種醫療指令,也能夠提升模型在複雜的臨牀場景進行推理的能力。

值得注意的是,o1模型在19個數據集和兩個複雜問答場景中的準確率平均超過了之前GPT-4 6.2% 和 6.6%

與此同時,研究人員發現模型能力和現有評估協議中存在一些缺陷,包括幻覺、多語言能力不一致以及評估指標不一致。

全面評估大模型的醫學能力

在提升模型推理能力上,思維鏈(CoT)提示是一種常用的提示策略,利用模型內部的推理模式來增強解決複雜任務的能力。

o1模型更進一步,將CoT過程嵌入到模型訓練中,整合了強化學習,展現了強大的推理性能;不過o1模型尚未經過專業領域數據的評估,其在特定任務上的性能仍然未可知。

現有的醫學領域LLM基準測試通常只會評估模型的特定能力,比如知識和推理、安全性和多語言,彼此之間的測驗比較孤立,無法對o1這樣的高級模型進行全面評估。

爲了確保全面評估,研究人員收集了涵蓋上述方面的各種醫學任務和數據集,並在流程中探索了三種提示策略,包括:

1. 直接提示,指導大型語言模型直接解決問題

2. 思維鏈,要求模型在生成最終答案之前逐步思考

3. 少樣本提示,爲模型提供了幾個示例,以便在運行中學習輸入輸出映射。

最後,使用適當的度量標準來衡量生成的回覆與真實答案之間的差異。

側重點和任務

研究人員利用35個現有的數據集,併爲評估創建了2個額外的具有更高難度的數據集,然後將所有37個數據集分類爲3個方面6個任務,以便更清晰地進行評估和分析,能夠了解模型在特定領域的表現如何。

理解(understanding),指的是模型利用其內部醫學知識來理解醫學概念的能力。

例如,在概念識別(concept recognition)任務中,模型需要從文章或診斷報告中提取或詳細闡述醫學概念;在文本摘要中,模型需要理解複雜文本中的概念以生成簡潔的摘要。

推理(reasoning),測試模型進行多步驟邏輯思考以得出結論的能力。

在問答任務中,模型需要遵循提示指令根據問題中提供的醫學信息進行推理,從多個選項中選擇正確的答案。

除了常見的問答數據集,研究人員還收集了來自《柳葉刀》、《新英格蘭醫學雜誌》(NEJM)和Medbullets的真實世界臨牀問題,以更好地評估LLMs的臨牀效用。

在臨牀建議任務中,模型需要根據患者的信息提供治療建議或診斷決策。在AI Hospital和AgentClinic數據集中,模型需要充當醫療智能體;在MedCalc-Bench數據集中,模型需要進行數學推理並計算答案。

多語言(Multilinguality),輸入指令和輸出答案的語言不同。

XMedBench數據集要求LLMs用六種語言回答醫學問題,包括中文、阿拉伯語、印地語、西班牙語、中文和英語;在AI Hospital數據集,模型需要使用中文進行問答。

評估指標

準確率(Accuracy),用於直接衡量模型生成的答案與真實答案完全匹配的百分比。

主要用於真實答案是一個單詞或短語的情況,包括多項選擇問題數據集、MedCalcBench數據集以及臨牀建議和概念識別數據集。

F1分數,精確度和召回率的調和平均值,用於模型需要選擇多個正確答案的數據集。

BLEU和ROUGE,衡量生成回覆與真實答案之間相似性的自然語言處理度量標準,對評估中所有自由形式生成任務使用BLEU-1和ROUGE-1

AlignScore,衡量生成文本事實一致性的度量標準,對所有無指定格式生成任務使用AlignScore來評估模型幻覺的程度。

Mauve,衡量生成文本和人類編寫文本分佈之間差異的度量標準,用於所有無指定格式生成任務,指標的數值範圍爲0到100,數值越高表示模型輸出的質量越高。

實驗結果

提示策略

對於知識問答任務、智能體任務、醫學計算任務和多語言相關任務,使用直接提示評估方法;

對於其他來自MedS-Bench的任務,遵循基準設置中的三樣本提示策略。

根據OpenAI的聲明,常見的提示技術,如思維鏈(CoT)和上下文中的示例,對於提升o1性能來說幫助並不大,因爲模型已經內置了隱式的CoT。

爲了進一步驗證這一說法,研究人員在評估中增加了幾種高級提示的效果,包括CoT、自我一致(Self Consistency)和Reflex

除了選擇GPT-3.5、GPT-4、o1模型進行評估外,研究人員還選擇了兩個開源模型:一個是用醫學中心數據訓練的大型語言模型MEDITRON-70B,以及目前最新和最強大的開源大型語言模型Llama3-8B

主要結果

o1在臨牀理解方面的能力得到了增強

o1模型在發佈時,OpenAI主要強調了其在知識和推理能力方面的顯著提升,如數學問題求解和代碼生成,從實驗結果中也可以觀察到,這種能力也能夠遷移到特定的臨牀知識理解上。

可以看到,在大多數臨牀任務的理解方面,o1的表現優於其他模型,例如,在5個使用F1作爲度量的概念識別數據集上,o1的平均上分別比GPT-4和GPT-3.5高出7.6%和26.6%,在常用的BC4Chem數據集上平均提高了24.5%

在摘要任務上,o1在ROUGE-1得分上比GPT-4和GPT-3.5分別提高了2.4%和3.7%,證明了其在現實世界臨牀理解方面的增強能力,結果也證實了大型語言模型在通用自然語言處理能力方面的進展可以有效地轉化爲醫學領域的增強模型理解。

o1模型在臨牀診斷場景中強大的推理能力

在推理相關的任務上,o1模型也展現出了其在現實世界診斷情境中的優勢。

在新構建的、具有挑戰性的問答任務NEJMQA和LancetQA中,o1在各自的數據集上平均準確率比GPT-4(79.6%)和GPT-3.5(61.5%)分別提高了8.9%和27.1%

o1在數學推理能力上的另一個值得注意的改進是,將MedCalc-Bench的基線提升到了34.9%,比GPT-4高出顯著的9.4%

在涉及多輪對話和環境模擬的更復雜的推理場景中,o1在AgentClinic基準測試中的表現超過了GPT-4和GPT-3.5,在MedQA和NEJM子集上分別獲得了至少15.5%和10%的準確率提升,得分分別爲45.5%和20.0%

除了更高的準確率外,o1的答案也更簡潔、直接,而GPT-4則會於在錯誤的答案旁邊生成幻覺性的解釋。

研究人員認爲o1在知識和推理方面的改進主要歸因於訓練過程中使用增強的數據和基礎技術(如CoT數據和強化學習技術)。

基於上述樂觀結果,研究人員在論文中激動地表示:有了o1模型,我們距離一個全自動AI醫生已經越來越近了。

參考資料:

https://arxiv.org/abs/2409.15277