探秘生物標誌物檢測的數據高效基礎模型
人工智能(AI)系統的使用在醫學領域展現出前景,其表現取決於人工智能的訓練成效。
一種新的多任務人工智能訓練方法能夠更快、更經濟高效地訓練基礎模型,而且所需數據量更少。研究人員正在採用這種方法來彌補醫學成像中數據的短缺——並最終拯救生命。
據世界衛生組織(WHO)稱,全球癌症病例顯著增加。清晰的指標,也就是所謂的生物標誌物,是實現可靠診斷和成功治療的關鍵。人工智能系統可以幫助在病理圖像中識別這類可測量的參數。
弗勞恩霍夫數字醫學研究所 MEVIS 的研究人員與亞琛工業大學、雷根斯堡大學和漢諾威醫學院合作開發了一個用於此的基礎模型。這個資源高效的模型僅憑藉通常訓練數據的一小部分,就能快速且可靠地分析組織樣本。
標準的基礎模型,像用於 ChatGPT 的大型語言模型,是通過大量多樣化的數據集來訓練的,並且在學習過程中進行自我監督。但對於醫學圖像分析,數據通常稀缺,事實上,臨牀研究中可用的少量數據對人工智能的使用構成了重大挑戰。
此外,臨牀中心在病理製劑的處理方式以及患者羣體方面存在差異——甚至在考慮疾病的具體形式和特徵之前就是如此。
所有這些因素都使得可靠檢測現有模式以及與之相關的具有診斷意義的特徵變得更加困難。爲了有效地訓練人工智能,這通常意味着需要來自不同來源的大量訓練圖像。但每個組織的橫截面圖像通常大小達幾個千兆字節,包含數千個不同的細胞,但僅反映了存在的變異性的一小部分。
弗勞恩霍夫 MEVIS 基於監督式預訓練設計出了一種解決方案。“我們正在爲基礎人工智能開發一種訓練策略,其模式是病理學家所接受的訓練。他們在每種情況下都不必重新學習細胞核是什麼。這是教科書知識。一旦涵蓋了這些概念,它們就作爲基礎存在,並可以應用於各種疾病,”弗勞恩霍夫 MEVIS 的專家約翰內斯·洛茨博士解釋說。
以大致相同的方式,他們的人工智能模型接受基礎訓練,從通過各種任務創建的大量組織切片圖像中學習被稱爲組織概念的一般特徵和規律。將這些任務結合起來,產生了訓練強大的大型人工智能模型所需的大量數據。
隨後,在第二步裡,把學到的組織概念運用到特定任務當中。
通過這種方式,算法能夠識別出能區分不同類型腫瘤的生物標誌物,比如說——所有這些所需的數據量都少得多。
在我們的解決方案裡,每個數據集都由經過專門培訓的人員依據需要學習的信息做了標註,
我們給我們的模型提供圖像,同時也提供答案。並且我們運用多任務方法,同時爲衆多不同的任務這麼操作。
這種方法能夠讓從組織研究(比如免疫組織化學染色)中自動生成帶有註釋的訓練數據成爲可能,進而使用標記抗體來將蛋白質或其他結構可視化。
爲了達成這個目的,該方法整合了來自多個組織病理學圖像的信息。專家們把這些自動生成的註釋納入到模型的訓練當中,這加快了數據收集的速度。
與不涉及監督訓練的模型相比,弗勞恩霍夫研究人員的方法僅用 6%的訓練數據就取得了類似的結果。“由於在深度學習中,訓練數據量與訓練所付出的努力以及處理能力相關,我們發現只需要約爲通常所需資源的 6%即可。
“此外,我們只需要大約 160 小時的訓練,這是一個關鍵的成本因素。這意味着我們能夠以少得多的努力來訓練一個等效模型,”洛茨解釋道。
弗勞恩霍夫的專家參加國際 SemiCOL(用於結直腸癌檢測的半監督學習)癌症分類和分割競賽,充分展示了這些預訓練模型具有多麼良好的通用性。
該團隊在無需對其模型進行昂貴調整的情況下贏得了挑戰的分類部分,最終在九個參賽團隊中排名第二。
交互式圖像分割測試(即對圖像中的組織結構進行自動檢測和測量)也表明,這種方法具有很大的潛力。該模型僅需幾個樣本圖像切片,就能拓展其已學到的概念。
但不止於此。“基於我們的解決方案的模型使開發新的交互式醫療人工智能培訓工具成爲可能,這些工具讓專家能夠直接與人工智能解決方案互動,並快速訓練相關模型,即使沒有任何技術背景知識,”舍費爾說。
研究人員在各類平臺上發佈了預訓練模型以及用於進一步學習的代碼。這使得專家能夠將其用於非商業目的,開發自己的解決方案。該團隊還與臨牀合作伙伴合作,使該解決方案獲得醫療應用的批准,並對其進行系統驗證。
弗勞恩霍夫 MEVIS 的專家確信,一旦在日常臨牀實踐中使用,涉及他們基礎模型的系統將減少病理學的工作量,並提高治療的成功率。