搜狗斬獲ICPR 2020人臉關鍵點檢測挑戰賽冠軍,計算機視覺技術持續領先
(原標題:搜狗斬獲ICPR 2020人臉關鍵點檢測挑戰賽冠軍,計算機視覺技術持續領先)
作爲3D 人臉重建、人臉識別、表情遷移及美化等應用的核心基礎技術,人臉關鍵點檢測算法一直是工業界和學術界的研究熱點。
近日,在第25屆國際模式識別大會(ICPR 2020)舉辦的人臉106關鍵點檢測挑戰賽中,搜狗AI團隊榮獲冠軍,彰顯其在計算機視覺領域的核心技術實力。
ICPR 2020大會是模式識別領域的頂級國際會議,由國際權威學術組織---國際模式識別協會(The International Association for Pattern Recognition,IAPR)主辦,在本屆大會組織的人臉識別領域競賽單元-人臉106關鍵點檢測比賽中,搜狗AI 團隊在預賽驗證和決賽測試兩階段均取得第一,擊敗OPPO研究院、美團視覺中心、東南大學、西安交大等多支強隊,最終一舉摘得桂冠。
圖1本屆挑戰賽決賽階段前五名結果
ICPR人臉106關鍵點檢測挑戰賽是什麼?
人臉關鍵點檢測算法的研究重點是在不同表情、性別、年齡、姿態、光照條件下,準確定位人臉輪廓及五官關鍵點,近年來偏向實用的人臉關鍵點檢測的國際評測陸續舉辦,國際頂級計算機會議ICME 2019就曾舉辦人臉關鍵點檢測的比賽。
人臉106關鍵點檢測挑戰賽(Grand Challenge of 106-p Facial Landmark Localization)是ICPR 2020舉辦的八項比賽之一,相較於之前的評測,本次ICPR 2020大會舉辦的評測難度更大。其測試樣本涵蓋大姿態、極端表情、遮擋等多種高難度、複雜的情況,且訓練樣本少,對算法的泛化能力、準確性及魯棒性等多個方面提出了巨大的挑戰,在比拼檢測精度的同時,更加追求技術的實用化程度,對模型複雜度做了更加嚴格的要求,模型大小需要低於20 MB,運算複雜度不超過1GFLOPs,希望推動更加高效並且魯棒的輕量級人臉關鍵點檢測算法的技術進步,因此極富學術和實用價值,吸引了數十家企業和高校的參賽隊伍參賽。
搜狗本屆比賽奪冠的技術優勢是什麼?
作爲本屆賽事的冠軍隊伍,搜狗AI團隊在人臉關鍵點檢測技術上有三個重要突破。
首先,採用基於HRNet基礎模型的改進版本,利用不同分辨率之間特徵全融合的方式,有效學習不同尺度圖像的語義信息,同時爲了保證算法的精度,搜狗增加了HRNet不同分辨率分支的通道數,從而在人臉關鍵點檢測任務上表現出了出色的效果;
其次,在卷積層部分採用組卷積,並且把其中的瓶頸層(BottleNeck)改換爲MobileNet V2中的逆殘差結構(Inverted Residuals),設置逆殘差結構的擴展參數爲1,從而有效的降低了模型的複雜度;經典殘差結構:1x1(壓縮)->3x3(卷積)->1x1(升維),逆殘差結構:1x1(升維)->3x3(dw conv+relu)->1x1(降維+線性變換),這對基於移動端設計的小模型有廣泛的效果提升作用。
圖4殘差結構圖
最後,除了使用常規的平移、旋轉等數據增強策略,還使用了PDB(Pose-based Data Balancing)策略。該策略統計訓練數據集中的不同姿態的圖片的數量,然後通過簡單的複製數量較少的姿態的圖片,從而解決了不同的姿態的數據不均衡的問題,對大姿態下關鍵點的預測起到有效的作用。
表1本屆比賽使用的網絡結構
最終搜狗的算法在模型大小12MB,模型計算複雜度0.887GFLOPs的基礎上,取得了本次比賽中最好的性能,模型累計誤差分佈曲線面積指標(AUC)達到80.52,歸一化平均誤差(NME)爲1.58,預測失誤率(FR@0.08)只有0.05。
圖5人臉關鍵點的累計誤差分佈圖
(曲線與橫軸圍成的面積越大算法性能越優異)
圖5搜狗AI的比賽測試結果樣例
堅持技術創新與應用落地並重,搜狗核心AI技術持續領先
搜狗在自然交互與知識計算的人工智能戰略指引下,堅持以語言爲核心的人工智能研究,近年來在語音、計算機視覺、問答、翻譯、對話等核心技術領域取得突破性進展。
在技術創新方面,搜狗在計算機視覺領域一直保持着強勁實力。通用技術方向,於2018年在CVPR WAD自動駕駛視覺競賽中奪得道路目標檢測任務第一名;在國際自動駕駛領域權威評測集Cityscapes實例分割評測任務中同樣拿到第一名的好成績。OCR方向,於2019年11月刷新了ICDAR 2019 ArT檢測、識別、端到端三項單元的新記錄;人臉識別方向,於2018年11月在人臉識別頂級評測 MegaFace 的Face Identification(人臉識別)任務中,基於百萬規模級別的人臉數據庫以99.939% 的識別準確率斬獲大賽第一名;本次ICPR 2020人臉106關鍵點檢測挑戰賽中又一次取得技術突破獲得冠軍,證明了搜狗在計算機視覺領域的領先實力。
在應用落地方面,搜狗自研的人臉相關技術已經應用於搜狗核心產品及解決方案中,其中,領先行業的數字人解決方案-搜狗分身已大量使用了自研的人臉關鍵點檢測、識別以及生成技術,技術的不斷突破有力確保了搜狗分身的領先優勢;搜狗首創的基於模態注意力機制的語音+脣語的多模態識別技術,強噪聲場景下識別準確率提升36%;搜狗最新發布的搜狗AI錄音筆-E2在語音能力之外新增了視覺能力,能夠支持文檔圖像識別OCR等技術,後續會陸續擴展人臉識別等相關應用。本次參賽的技術以應用落地爲導向,已具備了大規模部署的能力,不久的將來會與搜狗分身、AI硬件、多模態識別等能力產生聯動效應,進一步提升搜狗AI創新產品的用戶體驗。
未來,搜狗將持續在計算機視覺領域推動核心技術研發及創新,不斷擴展技術成果的應用落地,帶給用戶更多差異化的優質體驗。