中國工程院院士、西藏大學教授尼瑪扎西(中):爲西藏搭建信息化橋樑
“祝賀你,你爲西藏爭得了榮譽。”2023年12月5日,西藏自治區黨委書記王君正與新晉院士尼瑪扎西座談,向他表示祝賀。
就在2023年11月23日,中國工程院公佈了2023年院士增選當選院士名單,尼瑪扎西榜上有名。這是繼多吉院士之後,西藏的第二位工程院院士。
在2023年當選院士頒證儀式上,尼瑪扎西作爲新當選院士代表登臺發言。他深情地說:“我是沐浴着新西藏的陽光雨露,在黨和國家的關懷培養下成長起來的。”
30多年來,尼瑪扎西傾盡所學,回饋着養育他的這片大地,爲西藏搭建信息化橋樑。
深耕不輟,藏文信息化讓更多的人受益
本世紀初,手機在全國普及程度已經很高,但對於西藏廣大農牧民來說,還有些遙不可及。原來,當時價格較爲親民的國產手機無法支持藏文輸入,能夠支持藏文輸入的進口手機價格又讓人望而卻步。
“藏文的國際編碼標準都是由我們確立的,我們沒理由生產不出可以支持藏文輸入的國產手機。”尼瑪扎西再一次投入到緊張的研發中。
功夫不負有心人。尼瑪扎西帶領的西藏大學團隊和中國電信西藏分公司等公司共同研發數字移動操作系統藏文版,並推出了基於此的藏文數字移動電話,於2005年首次實現了手持電子通訊設備的藏文信息處理,受到廣大農牧民的歡迎。
尼瑪扎西並不滿足於此。智能手機已經普及,使用藏語文作爲主要溝通語言的人如何更便捷地使用智能手機?
2014年,尼瑪扎西團隊與中國電信西藏分公司、華爲集團合作研發智能移動操作系統藏文版——“漢藏安卓操作系統”,並共同推出基於此的智能移動電話,用戶可以通過藏文方便地使用移動電話各項功能。這一操作系統之後被廣泛應用於我國的國產手機中。
2019年起,尼瑪扎西團隊開始專注於研發國產計算機操作系統多語言支撐技術版。2021年,由西藏大學、國防科技大學和麒麟軟件公司歷時18個月共同開發的“銀河麒麟操作系統(藏文版)V10”正式發佈。尼瑪扎西團隊心無旁騖、馳而不息,深耕藏文信息處理系統技術領域,不斷推出新的研究成果,服務西藏的信息化建設,特別是基層幹部羣衆的工作和生活。
精益求精,藏漢翻譯系統更加“博學”
在文字信息化過程中,最基礎的工作就是“輸入和輸出”。隨着藏文國際編碼標準的確立,通過尼瑪扎西等一批藏文信息處理專家的不懈努力,藏文“輸入和輸出”已不再是問題。
一個新的課題擺在了尼瑪扎西面前,那就是“溝通”。
“如果一個人只會藏文,或者只會普通話,能不能通過機器實現溝通?”想要解決這個問題,“機器翻譯”成爲首選。
尼瑪扎西開始涉獵機器翻譯領域,這對於他來說,又是一個全新的挑戰。
2016年,歷時近5年的艱難探索,由尼瑪扎西主持、近30名成員組成的團隊自主研發的“陽光藏漢機器翻譯系統”正式上線,並免費向公衆提供服務,從前要花費十幾個小時的翻譯工作,通過機器翻譯系統,只需要十幾分鍾就可以完成。
想要讓翻譯更加精準,就必須讓系統足夠“博學”。爲此,尼瑪扎西主持研發了藏文文獻資源數字化平臺和全文檢索技術,數字化各類藏文文獻資源,構建了藏文文獻資源庫。
“這個系統就像一個牙牙學語的稚童,要不停地教給它各領域各行各業的知識,它纔可以說出更漂亮的句子來。”尼瑪扎西團隊成員、機器翻譯項目成員仁青東主這樣形容“陽光藏漢機器翻譯系統”。
如今,經過團隊成員的共同努力,“陽光藏漢機器翻譯系統”歷經多次升級,不僅將準確率提升至90%以上,系統的最高日訪問量更是達到11萬餘次。在此基礎上研發的語音翻譯、圖文識別等系列技術和軟件系統將逐步應用於社會生活的方方面面,服務西藏信息化建設和數字經濟發展。
對於尼瑪扎西團隊來說,這些遠遠不夠。
“藏文是中國文化的瑰寶,已有1300多年的歷史,是世界上古老的文字之一。我們希望能收錄更多更專業的藏文文獻,讓那些流傳千百年的以藏文承載的文化遺傳得到準確地翻譯。”仁青東主說,目前,團隊依然在不斷擴充大規模高質量藏文數據資源,努力提升漢藏機器翻譯系統在藏醫藥、文學和古籍等專業性更強的領域的翻譯準確率。
攻堅克難,發力藏文古籍文獻數字化
藏文古籍文獻種類繁多,卷帙浩繁。我國存世藏文古籍總數約在百萬函以上,其中,約三分之二收藏於西藏。2012年,尼瑪扎西團隊又開拓了全新的領域——藏文古籍文獻深度數字化。
要想將古籍數字化,最先要攻克的難題就是圖像識別技術。圖像識別可以將藏文文檔圖片識別成計算機可以閱讀的文檔,這樣就有可能利用信息技術對古籍內容進行檢索、翻譯、分析和理解等進一步的處理和利用。
藏文屬於拼音文字,字形無定長、無定寬、字符形態變化大。古籍存在版式多樣、圖文混排、結構緊密等現象,不同抄錄人的筆跡、書寫習慣也不盡相同,導致識別難度高,藏文古籍文獻的數字化技術研發和全文數據庫的建設極爲複雜。
通過承擔國家重點研發計劃重點專項,尼瑪扎西帶領團隊應用新一代人工智能技術集智攻關,攻克了藏文古籍文獻掃描識別、數字化無損採集、數字化協同工作、全文數據庫構建和檢索等制約藏文古籍文獻數字化保護和利用的系列技術瓶頸,研發了藏文古籍版面分析與多字體文字識別系統,工程化應用於藏文古籍數字化保護和利用、藏醫藥知識工程技術研發等諸多領域,實現了藏文古籍保護和利用的重要突破。
2022年,尼瑪扎西團隊“藏文古籍文獻數字化技術研發和應用”榮獲西藏自治區科學技術獎一等獎。
“目前,研發成果已經在西藏圖書館、布達拉宮古籍數字化保護中得到了廣泛應用。”尼瑪扎西團隊成員、西藏大學信息科學技術學院教授擁措介紹說,在該項研發成果的基礎上,團隊還承擔了自治區有關圖文識別研究項目,通過利用前沿的人工智能算法,對多場景多字體識別技術做了更進一步的研究,包括古籍和其他場景下的多字體文字識別技術。
如今的西藏,信息化高速發展,當選中國工程院院士的尼瑪扎西並沒有停下奮鬥的腳步,他和團隊又把目光瞄準了人工智能領域。“要讓技術賦能民生改善,利用人工智能技術研發語言技術,使農牧區羣衆在醫院看病、在銀行辦事等社會生活中更加方便,使所有人都能感受到國家經濟發展和信息技術進步帶來的便捷生活。”尼瑪扎西說。(記者湯銘明 索朗羣培 康潔白姆 次仁平措 晉巴次成 洛桑平措 對本文亦有貢獻)