文科考上一本理科不及格,大模型“高考”爲啥偏科?

隨着各地高考出分,各家大模型回答高考題的能力也有了一個更加客觀的衡量標準。

根據極客公園使用高考新課標Ⅰ卷的評測,GPT-4o以562分排名文科總分第一。國內產品中,字節跳動旗下的豆包拔得頭籌,成績是542.5分,其後依次是百度文心一言4.0的537.5分、百川智能“百小應”的521分。本次大模型高考評測與河南省考卷完全相同,而河南高考錄取分數線顯示,文科本科一批錄取分數線爲521分,上述三款國產AI成功衝上一本線。

相比之下,大模型的理科成績要差很多,最高分還不到480分,多數大模型的理科總分在400分以下。

從具體的科目來看,英語是大模型表現最優異的學科,九個大模型的平均分高達132分(滿分 150),大部分大模型都可以做到客觀題接近滿分。其次是語文,但不論中外大模型語文的得分都要略差於英語,得分較高的大模型分數能夠達到120分。

在數學試卷中,9款大模型產品中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分)。重點考查實驗探究能力的化學和物理試卷,各模型平均分更是隻有34分和39分(滿分爲100和110)。

而在另一個機構司南評測體系對高考全國新課標I卷“語數外”三個科目的評測也呈現類似的趨勢,7款參與評測的大模型英語和語文的成績較高,數學成績均不及格。

雖然不同評測機構的標準有所差異,但一個非常明顯的趨勢是,大模型更擅長回答文科試題,而不太擅長回答數學、物理等理科題目。

在一些人的印象中,數學一直都是計算機的強項,大模型在數學等理科試題上表現糟糕讓他們有些意外。但一位大模型技術專家告訴界面新聞,這可能是普通人對大模型最大的誤解,因爲大模型和計算機完全是兩個不同的體系。

這位大模型技術專家表示,大模型理科表現不好,本質上都來源於數學能力的欠缺。這個和大模型本身的next-token prediction(下一個詞預測)有關。

據界面新聞了解,在大語言模型中,next-token prediction是非常關鍵的一個環節。當模型處理輸入的文本序列時,它會基於已有的信息和學習到的語言知識,對下一個最可能出現的詞(token)進行預測。模型通過對大量文本數據的學習,理解了不同詞之間的概率分佈和關聯關係。在預測時,模型會計算每個可能的下一個詞出現的概率,並選擇概率較高的詞作爲預測結果。

這種逐詞預測的方式使得模型能夠生成連貫的文本輸出。通過不斷地進行下一個詞預測,模型可以生成一段完整的文本內容。爲了提高預測的準確性,模型的訓練過程會不斷調整參數,以更好地捕捉語言的模式和規律。同時,模型也會考慮上下文信息,包括前面已經生成的詞以及整個輸入文本的語義和語法結構,來更精準地進行下一個詞預測。這有助於生成更符合邏輯和語義的文本,增強語言模型的表現和生成能力。

當大語言模型學習了海量知識數據,天然就適應考驗記憶能力和語言運用的文科考試。但理科考試主要考驗推理和計算,比如一道數學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%。

高考試題評測非常直觀地顯示出大模型的上述能力特點。如果是文科題目,回答是一段話,閱卷評分的時候其實主要看的還是整段話的意思是否符合要求,可能有一兩次不準確,或者用了一些同義詞,都不影響評分。但如果是數學題目,假設模型前面輸出了32103,下一個token輸出一個2還是小數點,都會對最終結果造成決定性的影響。

目前的大模型回答理科試題時只能正確推理步驟相對簡單的問題。比如,在高考新課標Ⅰ卷的評測中,豆包大模型能準確運用求導公式和三角函數定理,但是面對較爲複雜的推導和證明問題就很難繼續得分。而在物理試題中,有一道送分題是選擇位移隨時間變化的正確圖像,人類考生根據“時間不會倒流”可以排除所有錯誤選項,但大模型則幾乎全軍覆沒。

理科語料比較稀缺也是大模型在理科答題能力上不如文科的重要原因之一。另一位大模型技術專家告訴界面新聞,理科語料稀缺的問題從普通人日常的感知中也能理解。在日常生活中,普通人接觸的語料較大比例是文字語料,數學、物理等數字、符號語料較少,而用於大模型訓練的語料同樣是這種分佈。

上述大模型技術專家表示,在普通人認知中很厲害的計算軟件和大模型是完全不同的技術原理。計算軟件並不是基於概率預測下一個token,而是基於提前寫好的專家規則,專門用於計算某類數學問題。

看起來,要學會像人類一樣思考和解決問題,大模型還有很長的路要走。在上述大模型技術專家看來,即使在文本推理上,大模型目前也只是達到了勉強能用的水平,還有非常大的提升空間。比如,在研報、技術文檔分析等準確度要求更高的場景下,大模型的能力還很難達到正常使用的水平。

目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一個目標就是提高推理和計算能力。

但學界對大模型的推理和計算能力還存在爭議。有觀點認爲,next-token prediction本身就包含了推理,計算也是一種推理。只要scaling law(規模法則)生效,大模型性能持續提升,推理和計算能力就能夠提升;但也有反對者認爲,大語言模型缺乏真正的規劃推理能力,其涌現能力實際上是上下文學習的結果,主要體現在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現AGI?對於這個問題,目前還沒有定論。