「整數智能」,AI大模型重構數據標註生產效率

整數智能發展於浙江大學計算機創新技術研究院,致力於爲人工智能企業及科研院所提供一站式數據管理服務。其提供的智能數據工程平臺(ABAVA Platform)與數據集構建服務(ACE Service),能夠滿足自動駕駛、AIGC、智慧醫療等數十個應用場景的數據需求。

目前,公司已合作國內外頂級科技公司與科研機構數百家,擁有知識產權數十項,多次參與人工智能領域的標準與白皮書撰寫。

整數智能創始人林羣書爲浙江大學計算機博士生,聯合創始人趙子健爲浙江大學法學碩士生,目前均處於休學創業中。

林羣書認爲,正如人工智能公司OpenAI的聯合創始人Ilya Sutskever所說,“Training data is technology”,OpenAI訓練的GPT-3大模型,有1750億參數。作爲AI領域的基礎設施,數據工程是人工智能時代絕對值得All in的機會。

他告訴36氪,數據標註正在從人力密集型向自動化標註過渡。以Tesla爲例,在2018年,一段clip數據需要花費500小時的人工標註。隨着Tesla通過對數據引擎及自動化標註能力的重點建設,到2021年,一段clip數據的標註只需要花費0.5小時的算力標註+0.1小時的人工標註即可。

針對人工智能行業發展的大趨勢,整數智能推出了智能數據工程平臺(ABAVA Platfom),對人工智能所需的數據標註工具套件進行了全域覆蓋,包含圖像、點雲、文本、音頻等多模態標註工具。

林羣書表示,行業當前的自動化標註,更多依賴算法工程師打磨特定場景的自動化標註算法,通用性有限。跨行業或跨場景時,如果算法自動化標註的精度下降,會需要工程師花費額外的時間精力,對自動化標註算法進行手動升級。

而ABAVA平臺,其內置的AI Power系統通過結合AI大模型與小模型各自的優點,能夠快速在新行業或新場景進行自動化標註,並且不斷提升自動化標註的精度,使得獲取高質量數據的時間成本與人力成本不斷降低。

簡單來說就是,能夠跨越不同行業、不同場景實現自動化標註;同時還能利用標註好的數據來迭代算法模型。“使用時間越長,沉澱數據越多,自動化標註水平也就越高。”林羣書說道。

4D標註工作界面 圖源整數智能

此外,整數智能針對自動駕駛場景,推出了4D標註工具,即在三維空間數據的基礎上疊加時間維度的序列信息進行場景重建,目前已能支持視覺重建與點雲重建。據林羣書介紹,其4D標註工具可以把原本需要數十幀的標註工作,極限壓縮到一幀來進行,將數據標註的效率提升數十倍。

4D標註工具的研發難點在於,其一需要使用算法融合多幀數據進行場景重建,重建的質量尤爲重要,直接影響後續的投影精度;其二在於重建後的點雲密度非常高,給Web端點雲工具的性能優化帶來巨大挑戰;其三在於完成標註後的結果如何精確的投影回2D空間,需要做大量的算法優化。

總的來看,林羣書告訴36氪,人工智能時代獲取「數據能源」將經歷人工標註、自動標註、合成數據三個發展階段。整數智能能夠通過自動標註大幅降低獲取數據的成本。

隨着AI大模型時代到來,整數智能也在探索合成數據的模式。比如通過AI合成數據,可以解決自動駕駛缺乏Corner case場景數據的問題。

整數智能認爲,AI大模型時代,數據消耗的速度將遠遠大於數據自然產生的速度,通過合成數據的技術路徑,可以帶來「數據能源」獲取方式的一次革命。“AIGC(即AI生成內容,如AI生成圖片)的技術爆炸,技術效果和效率會遠遠超過自動化標註。”