你的大學,AI來定?Science子刊:幾分鐘算出你的7種個人品質
目前,許多大學都秉承全面綜合審查的理念。
在美國大學招生諮詢協會(NACAC)最近的一項調查中,70% 的招生官表示,在選擇申請者時,他們認爲個人品質是一個重要的因素。
然而,現實中的審查並不能確保公平,並且招生工作也受到相關資源的限制。
爲應對上述挑戰,賓夕法尼亞大學 Benjamin Lira 領導的研究團隊訓練了一個名爲“Robustly Optimized BERT Pretraining Approach(RoBERTa)”的語言模型,用於審查入學申請者課外或工作中的論文,並尋找其中蘊含的 7 種個人品質。
研究結果表明,基於人工評分訓練的 AI 模型能在幾分鐘內生成數百萬個個人品質分數,精確地複製人工評分,而且具有可解釋性和公平性。
相關研究論文以“Using artificial intelligence to assess personal qualities in college admissions”爲題,已發表到 Science 子刊 Science Advances 上。
然而,研究團隊也強調:“沒有算法能夠決定大學入學過程的目標,或者哪些個人品質最重要,在自動化審查過程之前需要大學明確其入學目標。”
在許多大學中,全面綜合審查已經成爲一種廣泛採用的招生評估方法,該方法將個人品質視爲至關重要的考量。人們認爲該方法可以促進公平,因爲它允許申請者展示非認知技能和品格,而這些在標準化考試中無法反映出來。
然而,歷史上的案例顯示,綜合審查制度也可能帶來不公平,特別是在評估標準不明確、缺乏解釋或披露的情況下。當前的綜合審查缺乏透明度,招生官員主要依賴個人陳述來評估申請者的品質,但這些細節對於申請者和公衆來說仍然不清晰。
改進綜合審查的方法包括採用更透明和系統化的評估方法,使用結構化的評分標準,以及進行多次獨立的評估。這些建議體現了心理測量原則的應用,可以提高評估的可靠性、有效性和可解釋性,從而減少潛在的偏見。
然而,現實中依然存在問題,主要包括大學招生官面臨不斷增加的申請數量,時間和資源的限制。如果資源無限,那麼可以更好地優化評估,實現更大的公平性。
在這項研究中,團隊藉助 AI 技術開發了一種能更好地評估個人品質的方法。首先,他們選取了去標識化的 309594 份大學申請樣本,每份申請都包括一篇 150 字的論文,描述申請者選擇的課外活動或工作。
接下來,研究人員和招生人員選取了其中的 3131 篇論文用來訓練語言模型——RoBERTa。他們在申請者的論文中尋找他們是否具有以下 7 種品質:學習能力、毅力、目標追求、團隊合作、內在動力、領導能力和利他目標,而這些品質可以幫助確定哪些申請者最有可能在大學中成功。
最後,研究人員將這些微調的模型用於審查另外 306463 篇文章,併爲每篇文章打分。
結果發現,研究人員和招生人員在每篇文章中都找到了七種個人品質中的證據。有些個人品質比其他更常見。例如,他們分別在 42% 和 44% 的文章中識別出了“領導能力”;相比之下,他們只在 19% 和 21% 的文章中識別出了“毅力”。
然而,這項研究也存在一定的侷限性。
首先,研究未包括 Common Application 所要求的個人陳述,這限制了研究的廣度。未來的研究應考慮包括這一要素,尤其是考慮到近期申請人的個人陳述是以 PDF 附件形式提交的。
其次,數據集中的高中 GPA 僅基於一小部分申請人,這可能影響研究的代表性。未來的研究需要更多關注如何獲取更多可用數據。
第三,個人品質對大學畢業的預測效應在適度程度上較高,但這只是相對於標準化考試成績來說。長期生活結果的預測具有複雜性,需要考慮多種因素。未來研究可以探索其他未考慮的因素,如學費支付、學術準備和支持等。
第四,研究僅關注大學畢業作爲結果,而未考慮其他成功方面,如 GPA、課外活動和社區貢獻。這需要更廣泛的共識,優化大學入學決策的目標和實施方式。未來的研究可以考慮更多方面的成功和其對個人品質的影響。
因此,本次研究對全面審查和選擇性入學的當前狀況帶來了批判性的觀點。未來的研究和實踐應該集中於在自動化流程之前明確全面審查的目標。
另外,研究還發現,坎貝爾定律表明,在高風險決策中(與低風險研究相對),對評估賦予的權重越大,就越容易引發扭曲的動機。例如,申請者可能會嘗試塑造自己的論文,也許使用 AI 工具(如 ChatGPT),來迎合招生官和訓練的算法的要求。
值得注意的是,算法也會犯錯,特別是在尋找模式方面。例如,該研究微調的 RoBERTa 模型爲句子“I donated heroin to the children’s shelter”(我向兒童收容所捐贈了海洛因)賦予了極高的社會目標分數。
因此,該研究建議使用 AI 來輔助而不是替代人工判斷。沒有算法能夠決定大學入學流程的目標,或者哪些個人品質最爲重要。將算法視爲人工判斷的補充而不是替代,也可以應對算法迴避的問題,即在有矛盾證據的情況下,人們更傾向於信任人工決策者而不是算法。