技術創新助力AI更“懂醫”
對於醫學領域的自然語言文獻,例如醫學教材、醫學百科、臨牀病例、醫學期刊、入院記錄、檢驗報告等,這些文本中蘊含大量醫學專業知識和醫學術語。將實體識別技術與醫學專業領域結合,利用機器讀取醫學文本,可以顯著提高臨牀科研的效率和質量,並且可服務於下游子任務。但要想讓機器“讀懂”醫學數據,核心在於讓計算機在大量醫學文本中準確的提取出關鍵信息,這就涉及到了命名實體識別、關係抽取等自然語言處理技術。
日前,騰訊天衍實驗室獲得了中文醫學信息處理評測競賽“中文醫學文本命名實體識別”賽道冠軍、“中文醫學文本實體關係抽取”賽道亞軍。
據瞭解,命名實體識別和關係抽取是信息抽取的兩大核心任務。命名實體識別旨在抽取所需實體,以醫療領域爲例,需要從非結構化醫學文本中找出醫學實體,如疾病、症狀的過程;實體關係抽取則需要同時提取出醫學實體及實體間的關係信息,即實體關係三元組。
在醫療領域,電子病歷、生物醫療文獻中存在大量的非結構化文本,採用信息抽取技術對醫療文本進行結構化,提取其中的疾病,症狀,部位等實體,並對實體之間的關係進行判斷,進而利用這些信息構建醫療知識圖譜,不僅有利於人工智能更好地學到領域內的專業知識,更進一步提升導診、輔診、疾病預測等下游醫療任務的性能。
如在AI導診場景中,當用戶輸入主訴,AI導診小程序可以返回推薦科室。用戶主訴中可能包含多個症狀,不同症狀的時間、部位、嚴重程度、病因誘因可能對應不同的疾病,通過關係抽取技術,可以捕捉到不同症狀的具體屬性,從而有助於更精準的疾病預測和科室推薦。