廣東科技向“新”力丨華南理工大學徐向民、賈奎:顛覆水下作業,讓機器人在渾濁水下也看得清
南方財經全媒體記者吳佳楠 廣州報道
如今,我們正步入大模型賦能千行百業的智能化時代,這也意味着對海量數據抓取、計算的使用需求增加。比如在視覺計算方面,需要解決高質量圖像增強、海量數據快速計算、複雜場景視覺分析等問題。
但由於複雜大模型的參數空間大、大數據帶來大計算量、精準感知能力不如人腦,視覺數據的高效率處理挑戰巨大,加上海量數據計算也帶來巨大的開銷,這些進而成爲大模型全面覆蓋的瓶頸。
近日,2023年度廣東省科學技術獎揭曉,華南理工大學的視覺智能計算項目——基於認知機理與物理規律的視覺計算理論與方法,獲得廣東省自然科學獎一等獎。
據瞭解,爲解決上述視覺計算難題,該項目在視覺計算模型中加入物理規律和認知機理的知識,限定模型優化邊界,減少複雜度同時提升性能,爲人工智能模型的發展提供借鑑,從而推動大模型的落地應用,目前,項目成果已進入示範應用與產業化推廣階段。在獲獎之際,項目第一完成人、華南理工大學徐向民教授以及第二完成人賈奎教授接受了包括南方財經全媒體記者在內的媒體採訪。
他們表示,視覺計算有衆多應用前景,未來將在工業具身智能、遠程醫療與健康服務、教育與數字文娛等領域發揮更大的作用。對人工智能的發展,建議接下來要加強基礎研究,加大對AI基礎理論和算法的研究投入,鼓勵原創性研究,以推動AI技術的長期發展;同時,加強區域間的產學研合作,利用粵港澳大灣區的產業化和商業化,加速技術成果的轉化。
項目已應用在實際產業中
南方財經:開展這個項目的初衷是什麼?該項目有何技術創新點?
徐向民:我們團隊多年來一直專注於視覺計算,早期的視覺計算方法遠不如人腦的視覺感知。因此,我們的思路就是借鑑人腦的認知機理來設計視覺計算方法,以期取得性能的突破。在研究過程中,也意識到借鑑認知機理的視覺計算本質上是融入認知相關的機理,而視覺數據在計算機中的呈現是受客觀的物理規律限制的,因此,我們也把物理規律加進來。
該項目有三個主要的技術創新點。一是針對霧霾等多變環境導致成像質量退化,我們融入成像物理規律進行建模,讓圖像從“看不清”變成“看得清”。二是針對中層特徵。中層特徵是視覺計算中中間層次的信息,是進一步獲取高層語義的中間步驟。海量的視覺數據分佈差異巨大且噪聲複雜,使得模型對不同環境條件的數據難以保持穩定性能。我們基於低複雜度的認知機理,添加低複雜度約束,使海量數據的中層特徵從“難算”變得“易算”。三是針對圖像、視頻數據內容複雜,高層語義感知困難的問題,模擬人腦的多通路認知過程,建立高層語義感知模型,使得視覺語義從“難知”變成“可知”。
南方財經:在你看來,當前視覺數據處理面臨的最大挑戰是什麼?團隊是如何克服挑戰的?
徐向民:當前,隨着數據量的增加和模型表達能力的增強,各類視覺處理算法的性能持續在提升,我認爲視覺數據處理面臨的最大挑戰是可靠性問題。很多時候,模型在已構建的數據集有很好的效果,但是在一些新的未知數據可能出現意想不到的錯誤。這是由於數據驅動的方法是靠挖掘數據的統計規律,而數據覆蓋不全面就有可能導致挖掘出來的統計規律只是局部正確。而人在應對不同情況時有很好的泛化性,這是由於人可以基於知識去進行遷移和泛化。因此,我們研究的特點是融入知識,也就是數據驅動和知識引導。項目所採用的物理規律和認知機理,都是某種形式的知識,提出成像物理規律認知約束下的底層圖像恢復方法,是項目的一大亮點。該方法基於深度學習模型刻畫物理規律的思想,深刻地影響了像素級圖像增強領域的發展,啓發了一系列基於深度學習的圖像增強研究,如圖像去霧、去雨、去模糊、去噪、超分、低光增強等,目前在部分行業龍頭公司進行示範應用。
視覺計算擁有衆多應用場景
南方財經:這項技術如何改變行業發展?
徐向民:以水下作業機器人爲例,水下成像存在模糊問題,影響水下機器人作業效果。本項目技術可用於解決水下機器人作業時看得清的問題。我們在水下環境光估計部分,通過深度模型估算透射率爲零點的RGB三通道亮度值,作爲環境光成分,同時實現水下成像的去模糊和白平衡。目前,該成果使得水下成像看得清,大大提升了水下機器人的可靠性,也在行業龍頭公司的水下作業機器人示範應用。
另外,服務機器人要與人互動,同樣要解決看得清的問題。在光照條件不好的地方,成像質量下降,會影響機器人的決策判斷。低光增強與大氣成像具有相似的物理模型,其主要差別在於空氣中霧的大氣光使得畫面變白,低光成像中環境光照低導致畫面變黑。所以我們在項目中運用環境光估計方法,可通過深度模型估算的環境光照,從而實現低光增強,使得服務機器人在光照條件不好的地方也能看得清。
南方財經:目前該技術的應用情況如何?視覺計算在日常生活中已有哪些應用?
賈奎:我們將本項目視覺感知技術與具身智能技術相結合,創立了跨維智能,實現通用機器人操作,已爲工業、物流和醫療等行業提供了成熟、高性能、便於集成的標準化產品。跨維智能已完成戰略輪融資。
徐向民:目前,此項目基於深度模型刻畫物理規律的思想,解決了水下和低光環境的成像質量差的問題,有效提升成像效度,在相關行業龍頭公司的水下作業機器人、服務機器人以及安防產品中示範應用。成果吸引了相關行業龍頭公司開展產學研合作,實現了高效的跨模態人體特徵提取方法。目前,視覺計算技術在日常生活中的應用已經非常廣泛。視覺增強可以提升拍照效果和惡劣天氣下的監控成像效果。視頻智能安全監控可以實時監測和預警安全事件的發生。無人駕駛技術使用視覺計算來識別道路標誌、紅綠燈、行人和其他車輛,以確保安全駕駛。以圖搜圖的檢索,讓我們可以通過對一個物體拍照來找到購物網站上類似的商品。在醫療領域,視覺計算技術可以輔助醫生進行圖像診斷,如分析X光、CT和MRI圖像,提高診斷的準確性。
南方財經:展望未來,你希望這項技術還能在哪些領域發揮更大作用?對於大灣區乃至全國的人工智能產業發展有哪些建議?
徐向民:視覺計算有衆多應用前景,未來將在遠程醫療、教育娛樂中發揮更大的作用,如通過對錶情、動作的識別分析人的心理健康狀態,運動姿態輔助分析,虛擬現實交互中人體動作分析與內容生成等。推動粵港澳大灣區人工智能產業發展,一是要加強基礎研究,加大對AI基礎理論和算法的研究投入,鼓勵原創性研究,以推動AI技術的長期發展。二是要進行跨學科合作,促進AI與其他學科如醫學、材料、心理學等領域交叉融合,以解決更復雜的問題。第三,要建立完善的人才培養體系,從基礎教育到高等教育,要培養不同層次的AI人才,適應各崗位對AI人才的需求。最後,要加強區域間的產學研合作,利用粵港澳大灣區的產業化和商業化,加速技術成果的轉化。