我在淘天做算法:十年拍立淘,一部視覺算法技術演變史
在人類歷史長河中,每一次技術革命無不成爲產業升級的強勁推手。計算機視覺(Computer Vision)的工作原理與人類視覺類似,但需要機器依靠攝像頭、數據和算法在很短的時間內完成任務。
從上世紀60年代起始,計算機視覺經歷了以特徵工程和傳統機器學習方法爲代表的技術發展。從2012年開始,以卷積神經網絡(CNN)爲代表的深度學習的廣泛應用,更是給計算機視覺帶來了突破性進展。
在淘天集團,依託於計算機視覺技術原理的拍立淘上線已整十年,恰好經歷了視覺算法技術的發展演變。
脫口秀演員付航近日在短視頻中所說的“拍甚”,正是剛剛過完十年生日的淘寶拍立淘產品。
△拍立淘產品照片
回想起十年前的2014年,拍立淘在淘寶App首頁上線,打開了人們通過圖像搜索進行購物的窗口,帶來了視覺搜索領域創新變化。
十年後的2024年,拍立淘深耕AI着力於用多模態技術升級,日均訪客量突破5000萬,視頻虛擬試衣也即將上線,旨在讓AI更好理解生活消費場景。拍立淘技術迭代的背後,離不開一羣對技術不斷追逐且精於探索的程序員——他們就是淘天集團拍立淘算法團隊。
△拍立淘的核心算法模塊
柯思,淘天集團拍立淘算法負責人,是身材瘦弱但卻工作上“霸得蠻”的湖南人。在柯思看來,每一項技術從實驗階段走向產業階段都並非易事,基於商品理解的拍立淘也不例外,不僅要具備深厚的技術積澱,還需要恰逢其時地遇到能夠發揮技術潛力的應用場景。
自嘲記性不好的柯思卻清晰記得拍立淘技術原點——深度學習技術突破性進展。早在2012年,阿里巴巴率先着手讓深度學習在圖像搜索上得以探索應用,比亞馬遜早了整整5年。當年,阿里巴巴也成爲全球電商領域第一個在圖搜領域“吃螃蟹”的公司。
在中國科學院大學就讀期間,柯思就在深度學習技術領域鑽研,特別是視覺算法領域,爲日後在阿里巴巴從事拍立淘技術奠定了深厚的理論基礎。
回想起拍立淘項目早期那段充滿挑戰的日子,柯思回憶說:“與側重於廣泛視覺應用場景下的圖像檢索方案不同,拍立淘選擇了一條更爲專精的道路——專注於實現同款商品圖片搜索功能。這就要求我們在算法設計上達到前所未有的精準度。”
萬事開頭難,當時在工業界和學術界並沒有圖像搜索的應用先例,技術團隊面臨最大難題在於加快突破圖像搜索技術邏輯。文本語言與視覺語言有着天然的區別,視覺符號往往比文字更能呈現出直觀、形象的視覺體驗效果。遇到無法用簡短抽象的語言來描述的物理世界當中的物品,人們天然喜歡用畫出來的形式來表達。
爲了推出圖像搜索,當時的阿里巴巴iDST視覺團隊在電商領域對圖像分類、目標檢測以及圖像表徵技術進行了深入且富有成效的研究。圖像分類技術使得系統能夠準確識別出圖片中的商品類別;目標檢測則幫助定位並識別圖片中具體商品的位置與邊界;而圖像表徵技術則是通過學習高維特徵向量來表達每一張圖片的獨特性,從而支持高效精準的相似度匹配。這三項核心技術相輔相成,共同構建了圖像檢索引擎。這些研究爲拍立淘應用場景提供了技術基礎。
經過一系列嚴謹的研發、測試以及迭代優化,“拍立淘”終於在2014年正式面世。在此之前,傳統的文本搜索方式往往難以滿足消費者對於特定外觀或風格商品的需求,尤其是當他們不知道如何用文字準確描述想要尋找的商品時。
“拍立淘”的出現解決了這個問題:只需簡單地拍攝或上傳一張照片,拍立淘就能迅速從海量商品庫中找到最接近該圖片樣式的商品信息,包括價格、評價等關鍵信息。
摸着石頭過河
在拍立淘剛起步那會兒,商品搜索信息的精準性,是圖像搜索面臨的最大挑戰。然而,當時的深度學習領域仍處在一個在非常不成熟的發展狀態。
在巨大挑戰面前,算法工程師們摸着石頭過河。他們一邊緊盯着最前沿的研究成果,一邊又把最新知識和實際工作場景結合起來。通過不斷的迭代優化與技術升級,拍立淘算法變得越來越“聰明”,也越來越貼近用戶的需求。
2013年,主流搜索引擎公司推出了圖像搜索產品,讓用戶們眼前一亮,但電商領域的圖像搜索則需達到更高水平的精確度,以準確匹配用戶心中所想購買同款商品的需求。據柯思回憶,那時候用戶通過手機上傳的照片質量真是五花八門。有的照片看起來就像是一團模糊的影子;有的背景複雜得像是在集市上拍的,各種雜物和人影亂入。
這些因素給圖像數據的準確性帶來了很大挑戰。算法工程師們不僅要提升算法的“視力”,還要學會如何在各種奇怪的拍攝環境下保持冷靜。有一次,一個用戶上傳了一張在夜市攤位前拍的照片,背景中有各種小吃、人羣和霓虹燈,而商品卻只佔了照片的一小部分。爲了準確識別出這個商品,團隊成員們費盡心思,最終成功地解決了這個問題。團隊成員們戲稱自己是圖像搜索界的福爾摩斯。
即便是在2014年,淘寶商品庫也已擁有超過1億件商品。在這樣浩大的商品庫中實現精準的圖像搜索技術,無異於“大海撈針”。這不僅需要算法團隊對計算機視覺、機器學習和深度學習這些尖端技術有深刻的理解,還得把這些高深的技術變得簡單易用,化繁爲簡。比如,用戶上傳了一張在昏暗燈光下拍的鞋子照片,算法工程師們就要通過一系列複雜的計算和分析,從海量商品中準確地找出那雙鞋。用柯思的話來說,這個過程就像是在“海底撈月”,但最終的目標是讓用戶感受到“心有靈犀一點通”的個性化推薦體驗。
面對重重挑戰,算法工程師們攻克了一個又一個技術難關:他們構建了一套深度學習訓練與推理引擎,讓複雜的算法得以高效運行;掌握了大規模數據訓練的技巧,使其成爲精準模型的滋養之源;爲了確保算法能夠穩定可靠地服務於廣大用戶,工程師們還實現了高性能在線服務部署佈局;他們搭建起了大規模向量索引引擎架構,提高了信息檢索的速度,使得內容匹配變得更加精準。
2017年,Facebook所開源的向量索引庫FAISS,成爲工業界向量搜索領域標杆,但是拍立淘算法團隊在內部開發了超越FAISS的向量索引庫,不僅在速度上實現了對FAISS的十倍超越,實現了相較於前代技術四分之一的資源消耗,提升了能效比與成本效益,爲推動向量計算領域的發展樹立了新的里程碑。
這件事讓整個技術團隊都感到十分振奮自豪。慶祝晚宴上酒過三巡,算法工程師們都感慨:“我們做到了想都不敢想的事情,像是定義了電商圖像搜索新時代!”
2021年,多模態成爲學術界、工業界的研究前沿熱點。然而受限於數據與計算能力,當時拍立淘的核心模塊依然是單圖像模態模型,即針對商品分類構建多個模型,通過對比用戶圖片與數據庫中的圖片實現檢索。隨着用戶對圖搜需求的飛速提升與商品數據量的巨幅增長,單圖像模態模型已然捉襟見肘。
在多模態技術框架下探索算法創新,成爲了擺在拍立淘算法團隊面前的一道必答題。“我們集中精力,全力以赴推動多模態算法在拍立淘平臺上的落地應用。”蕭峰說。
2018年,蕭峰在上海交通大學完成碩博連讀後,加入了阿里巴巴,熱衷於對視覺算法技術和人工智能探索和實踐。大學時期,蕭峰曾多次研讀美國物理學家理查德·費曼的書籍,“正如費曼教授所倡導的那樣,事實和真相是科學絕對的要求。無論是面對科研還是日常工作中的挑戰,力求從一個更加批判而富有創造性的視角出發,尋找問題的本質並尋求最優解。”
△拍立淘多模態商品理解模型示意圖
爲了能夠讓淘寶的圖搜更快、更精準,蕭峰等人對拍立淘圖搜AI技術進行了全鏈路重構。這項算法技術被賦予了一個新的稱謂:大規模多模態同款搜索AI技術。2021年,算法團隊在行業內率先將核心召回和相關性向量表徵等模塊由單模態升級到多模態,並置於圖文對齊預訓練的技術統一框架下。不同於文本搜索的關鍵詞匹配和召回,圖像搜索的唯一召回方式只能是通過將Query和商品映射到高維向量空間下,進行向量的近鄰搜索。向量表徵是圖像搜索中最核心的技術。
2021年雙11年度大促活動前夕,算法工程師們決定以多模態相關性模型承接較大流量,同時提升搜索準確性。“當時線上有六七個模型,我們嘗試用一個模型進行替代,走了一條還未驗證過的路。”蕭峰說,“這個過程並非易事,需要不斷反覆實驗驗證。”
如何更高效地利用多種模態信息、建模淘寶數百億圖文數據是提升淘寶搜索準確性的關鍵。團隊開創性地應用大規模多模態分類的方法,從離線驗證到線上部署,一步步驗證效果,最終成功地升級了線上的模型。在2021年度的產品體驗相關性評測中,同款率絕對值顯著提升了12個百分點,這是拍立淘上線以來在商品匹配精準度方面提升幅度最大的一年。
2022年底,多模態大模型驚豔亮相。多模態大模型雖然效果出衆,但是資源消耗和運行耗時也是非常高。拍立淘算法團隊通過應用知識蒸餾技術來解決這一瓶頸問題。在知識蒸餾過程中,通過技術手段,將教師模型的強悍能力遷移到學生模型身上,蒸餾過後,小模型即可以小很多的運行成本達到接近大模型的能力。算法團隊首先將此應用到了Query和商品理解上。
業餘時間,蕭峰喜歡到杭州附近山區爬山。他說:“爬山總能給我帶來很多思考,就好像技術上的一座座山,總會有難度,但是爬過去就感覺不難了。”
與AI碰撞出了新風口
進入2024年, Sora的出現意味着視頻生成初步成熟可用,拍立淘算法團隊也感到觸動並隨之“神經敏感”起來。迎着風口,團隊開始嘗試讓AIGC在拍立淘中得到技術運用。
林夕是團隊當中爲數不多的女孩子,生活中是喜歡跳舞、喜歡彈吉他、能打架子鼓的e人,工作敲代碼時就變成沉穩內斂的i人。女孩子天生愛美,也善於敏銳發現拍立淘在服飾方面的微妙變化。
在多次調研中,林夕就發現,拍立淘已經能很好地滿足用戶搜索同款服飾的需求,但是該如何搭配服飾以及體驗試穿效果依然是非常核心但未被完全解決的問題。受限於經濟成本、知識成本和店鋪商品數量,服飾商家們並不具備提供豐富多樣且前沿的跨店搭配能力,個性化的試穿能力就更爲困難。
林夕說:“我們團隊長期以來在服飾類目積累的多模態理解能力和AIGC生成能力,恰恰爲這兩個痛點提供瞭解決方案。經過一番思考討論,團隊一致認爲通過AIGC低成本大規模製作個性化服飾內容具有可行性。”
然而,現實很骨感,AIGC在電商服飾上的探索研究並不多,受限於以往的算法技術和有限的開源數據集,相關學術研究也都基本僅限於平鋪圖片輸入,少量簡單服飾款式和單一的模特動作以及場景,無法滿足用戶多樣性需求。
△試衣算法支持各種困難姿態以及實景拍攝的搭配上身
基於商品理解感知體系和同款表徵能力,背靠淘天內部海量業務數據加上自研算法架構,林夕等人很快設計完成了一套能真正支撐商業應用的試衣算法解決方案。該方案不僅可以支持單件和搭配上身,適應簡單和複雜背景及多種姿勢,還能夠保持服飾真實美觀,精準控制穿法和上身狀態,呈現搭配效果,突出服飾風格。
林夕興奮地說:“試衣算法解決方案就好比讓我們找到了指南針。”他們不斷優化方案,不僅讓衣服試穿更準確,還增加了配飾、臉部和身形的定製功能。現在,這些算法能力已經用在淘寶系搭配上,提升商品搭配多樣性和美觀度。他們即將推出的拍立淘搭配產品,用戶只需要上傳自己的照片和身材信息,系統就會根據選擇的衣服推薦其他搭配,並展示出整體效果。基於這些成果,團隊還在ECCV和ACM MM國際頂級會議上發表了兩篇論文。
在之前的積累和經驗之上,算法團隊將圖像試衣的能力也拓展到了視頻上,並提出了業內第一個基於diffusion框架的視頻試衣方案,將視頻試衣的效果提升到了一個全新的水平,爲其商業落地創造可能。不同於之前的算法方案,現有方案適用於所有服飾類目,支持複雜實拍場景,同時能處理各種拍攝運鏡和人物在畫面中的動作和空間變化,使得生成視頻結果更加自然豐富且生動,符合頭部商家對模特視頻的質量要求。
從創建之初每天僅有數百位訪客,到現在日均訪問量突破5000萬,這不僅僅是用戶基數的增長,更是廣大用戶對拍立淘技術實力的認可。十年來,拍立淘算法團隊堅持自研技術,與時間賽跑推陳出新,從最初的圖像視覺搜索,到如今將視頻作爲信息傳播的載體,團隊用十年時間跑出了一部屬於自己的演變史。
正如柯思所說,拍立淘雖然實現了從0到1的突破,但如果原地踏步就會被落下,要時刻保持技術創新,纔是真的「拍甚」!