“天貓精靈之父”創業打造「鼻尖上的GPT」,掃射豆包、Kimi盲區
智東西作者 三北編輯 漠影
擁有一款“鼻尖上的GPT”是一種什麼體驗?
近期,杭州李未可科技公司推出了首款AI眼鏡Chat,支持用戶通過語音與眼鏡中的智能助手進行交互,比如答疑解惑、日程安排、語音導航、英語翻譯等,都不在話下。
同時,這款AI眼鏡背後的多模態AI大模型平臺WAKE-AI也隨之開放。據悉,這是國內首個面向AI眼鏡等可穿戴設備的大模型平臺,既支持李未可科技內部團隊做開發,同時也爲廣大AI開發者夥伴提供技術共享。
當下,市面上已經有豆包、Kimi等多款支持大模型語音交互的平臺,但它們大多以匹配PC、手機爲主;WAKE-AI則率先切入AI眼鏡這一新形態,試圖爲用戶帶來更自然的交互、更人性化的陪伴、更場景化的精準服務。
李未可科技創立於2021年10月,創立之初便聚焦“AI+AR”眼鏡賽道,公司成立僅三個月便拿下字節跳動的融資,其創始人茹憶曾是阿里AI實驗室智能終端負責人、天貓精靈硬件&產品總經理,也是這波大模型浪潮中最具代表性的創業者之一。
▲李未可科技創始人兼CEO茹憶
當下,隨着Ai Pin、Rabbit R1等AI新硬件產品在國外嶄露頭角,掀起大模型智能終端的新風口,國內“天貓精靈之父”帶隊的新銳團隊也交出了答卷,成爲智能硬件產業關注的一個焦點。
AI智能眼鏡是否會成爲一種主流的AI新硬件?面向“AI+終端”的多模態AI大模型平臺WAKE-AI有什麼過人之處?通過對話李未可科技創始人兼CEO茹憶、AI首席架構師莊博宇,本文對此進行了深入探討。
一、在豆包、Kimi的射程盲區,打造“鼻尖上的GPT”陪伴助手
儘管豆包、Kimi等各種大模型App風靡手機端,但它們卻遲遲未攻入智能眼鏡等可穿戴設備。
背後的一大“攔路虎”是時延問題。莊博宇告訴智東西,用戶在眼鏡上對機器時延的容忍度比在手機上更低,1.8秒是一個容忍時間,如果超過這個時間點,用戶就會感到交互不流暢自然。然而,包括豆包等市面上的多個大模型落地眼鏡都需要5秒左右。
爲此,李未可科技自研了WAKE-AI大模型平臺,試圖爲用戶打造一個隨叫隨到的“鼻尖上的GPT”陪伴助手。
據悉,該平臺專門面向可穿戴設備等終端優化研發,能在500毫秒內快速精準地識別用戶指令,且將大模型實時回答反饋控制在2秒左右,具備文本生成、語言理解、圖像識別及視頻生成等多模態交互能力。
從體驗來說,這意味着用戶將可以在AI智能眼鏡上享受到自然流暢的AI交互,比如讓眼鏡搜索新聞、導航目的地或增加日程,都不會太費功夫。AI智能眼鏡可能取代手機的部分功能,讓用戶真正體驗到AI融入生活。
“技術的一小步,用戶體驗的一大步。”茹憶說。從2016年3月阿爾法狗打敗李世石到2022年的12月份ChatGPT 發佈,中間經歷了六年六個月時間,AI算法架構從CNN、BERT改進到Transformer,模型參數擴展帶來智能涌現,茹憶對此感到很興奮,認爲這將爲語音交互體驗帶來巨大提升。
與在上一波AI浪潮中押準智能音箱風口不同,這一次,茹憶認爲,眼鏡將成爲AI落地的最佳載體之一。這與Meta首席科學家、圖靈獎得主楊立昆的觀點不謀而合,楊立昆在前不久也曾提到:“通過智能眼鏡訪問的AI助手是未來的趨勢。”
面向這一趨勢,李未可科技近期推出的AI智能眼鏡Chat是其小試牛刀之作。
以低至699元的價格讓用戶低門檻地邁入AI體驗大門,Chat可以說非常親民。這款AI眼鏡的外形與日常佩戴的眼鏡幾乎沒有差異,但簡約卻不簡單,一個貼身陪伴助手的雛形已經出現。
二、自研WAKE-AI大模型平臺,三大技術護城河打造交互新體驗
可以預測,大模型未來將重新定義智能眼鏡等可穿戴設備。可穿戴設備將不再只是工具,而是好像有一個真人助理在用戶旁邊,或者一個虛擬人在用戶鼻尖上的眼鏡裡,幫用戶解決各種複雜的問題。
WAKE-AI大模型平臺推出的意義,則是將大模型運用到AI硬件設備上的諸多暢想落地實際,不僅實現更自然的交互,還帶來更人性化的陪伴,更精準的服務。
那麼從技術角度來看,WAKE-AI大模型平臺究竟有什麼過人之處?
據悉,李未可科技通過三種方式提升WAKE-AI大模型平臺的效果:
第一,使用定向優化的分發大模型,幫助AI助手能快速地分發用戶的指令,打造更自然的交互。
第二,基於情感大模型,使用戶和設備產生深度信任,讓AI助手形成更有溫度的陪伴。
第三,針對室外場景需要大量的數據,使用多模態的VQA(視覺問答)模型,讓用戶可以指哪問哪,獲得更精準的服務。
1、分發大模型+Agent,讓交互更自然
作爲一款C端產品,AI智能眼鏡的交互體驗被李未可科技放在首位。WAKE-AI大模型平臺能提供更豐富的交互功能,同時耗時比同行更低。
莊博宇談道,比如當用戶與豆包語音聊天,往往需要2秒才能完成語音交互,時間主要花在語音與文本相互轉化及大模型推理上。但這一交互體驗僅限於聊天,而不能執行網絡搜索、導航等更復雜的任務。
但是,基於WAKE-AI大模型平臺,用戶在AI智能眼鏡上調用大模型的時延大大降低,一般對話時延控制在1.8秒左右、2秒以內;同時,用戶還可以體驗主動搜索、語音導航、眼鏡操控等多樣化的功能,複雜的交互反應也能縮短至3-5秒。
背後,李未可科技團隊使用分發大模型,通過語音輸入來快速分發用戶意圖,爲用戶提供反饋;同時,大模型支持不同的AI Agent的能力,能快速執行用戶的導航、買票、備忘錄等可能存在的剛需意圖。
此外,團隊也在降噪技術、收音、ASR(自動語音識別)技術等方面也做了大量優化,從而使得用戶能與智能助手更絲滑地進行交互。
2、情感大模型+超擬人TTS,讓陪伴更人性化
茹憶和莊博宇都提到了《她》(Her)這部科幻電影,片中的機器人由於與主人公建立了情感連接,從而能進行更有深度的聊天和陪伴,這是李未可科技希望打造的智能助手的一個理想形態。
基於這樣的願景,李未可科技與市面上同行的一大差異化是做情感搭配。
爲了讓AI眼鏡產品具備更擬人化的特徵,李未可科技團隊一是基於情感大模型研發了長記憶系統、情感類的Agent,二是打磨了擬人化的TTS(文本轉語音)技術,以此打造用戶能夠天天使用AI智能眼鏡的核心基礎。
在情感大模型方面,對標國內外的Claude等相關模型,莊博宇及其團隊發現了一個行業核心的問題:大模型的記憶力是有上限的,不利於長時間陪伴用戶。
爲此,李未可科技團隊通過核心記憶和長期記憶,不斷更新用戶的畫像,從而使得智能助手在對話中能夠更充分地理解用戶想要什麼,更懂用戶。
而在打造擬人化的語氣方面,目前市面上能上線情感表述的文本轉語音TTS能力的廠家並不多,因爲它有一個延時的考量,AI抽取、理解和表述會耗費大量的時間,所以速度上面需要優化;第二是成本上的優化,比如豆包雖然在App上能夠提供情感表達,但它並沒有把這個API能力開放出來,智能終端廠商無法獲取。
但是,李未可科技率先將超擬人TTS上線,把它輕量化到時延和成本都可承受的範圍,然後開放出來,供自己的團隊和合作夥伴使用。
3、多模態+LBS能力,讓服務更精準
多模態大模型+LBS(基於位置的服務)會產生什麼樣的化學反應?
李未可科技已經找到了驗證場景。Citywalk(城市漫步)是當下備受年輕人青睞的室外項目,多模態大模型可以讓Citywalk的人做到“指哪兒問哪兒”,比如指着嶽王廟裡的碑問“碑上寫的到底是什麼”,一套精準的智能導覽服務就誕生了。
據悉,李未可科技已經打造了“旅遊助手+城市漫遊系統”,核心是數據內容,以景區作爲核心供給,現在大概有2000多個景區數據。
結合這些景區數據,團隊已經打造了景點遊玩導覽、自動巡航系統、地點彈幕等多個服務,而多模態大模型的加持則讓“指哪兒問哪兒”、自動生成路線、自動生成遊記等更多豐富功能涌現,從而爲用戶提供更精準的服務。
莊博宇告訴智東西,大模型使得原本碎片化的場景走向大一統,從而使精準服務的成本大大降低。一方面,WAKE-AI大模型可以更好地理解和消化海量的景區數據,另一方面,Agent可以對數據進行更加自動化地處理,這使得團隊能夠在精準度和信息數量基礎上提供更好的服務。
可以看到,通過從模型瞭解意圖、搜索資料、轉化風格、分析情緒、轉化聲音的各個環節去做優化,李未可科技試圖打造交互更自然、陪伴更人性化和服務更精準的AI眼鏡設備,從而交出其大模型應用創業的“答卷”。
三、Meta蘋果看中的新賽道,“天貓精靈之父”帶領國產搶跑
當下,已經有不少大廠盯上了“AI+AR”眼鏡賽道。比如Meta與雷朋合作的AI智能眼鏡已經在測試多模態大模型,並在近期宣佈將推出首副“AI+AR”眼鏡;蘋果近期也傳出正研究端側大模型,可能將落地Vision Pro……
與此同時,也有一些知名企業似乎在抽火。比如近期OPPO被傳出了暫停XR探索,相關人員將轉向AI設備方向的開發,或許意味着其“AI+XR”眼鏡業務踩下了剎車。
對此,茹憶認爲這是由於產業發展仍處於初級階段,大家還未形成共識。這就考驗創業者對事情的認知,以及如何與自身優勢做結合。
站在李未可科技的角度來看,“AI+AR”眼鏡的發展已經處於一個臨界點,即將突破用戶體驗差,爲此團隊進行了積極佈局。
李未可科技打法的一大特點是不強行創造出一種產品形態,而是在已存在的產品上進行AI升級,從而在存量市場基礎上拓展出新的增量市場。根據知名數據分析機構Statista數據,2023年全球眼鏡市場總規模超1400億美元,2015-2025年全球眼鏡市場規模從1183 億美元提升至1552億美元。
“未來我們的眼鏡都會智能化,就像手錶智能化一樣。”茹憶說,“它的標誌是體驗成本大大降低,用戶買一副AI智能眼鏡和買一副傳統眼鏡價格也差不多,那爲什麼不買一個AI智能眼鏡?現在手錶就是這樣。”
AI智能眼鏡市場的發展壯大需要生態共融。目前,李未可科技已經將WAKE-AI大模型平臺面向夥伴開放,與夥伴一起來建設AR眼鏡+AI能力、在室外等多個場景的生態。
結語:大模型捲入設備端,AI智能眼鏡或成室外最佳載體
當下,大模型加速落地端側,我們可以看到AI PC、AI手機、AI智能眼鏡以及各色的AI新硬件如雨後春筍般冒了出來。憑藉便攜、可擴展等多重優勢,眼鏡或許成爲大模型在室外落地的一大最佳載體。
現階段大模型在端側落地應用仍處於初級階段。可以預測,未來雲邊端異構架構將發展得更加龐雜,同時多模態交互變得更加豐富,這對速度、性能和成本的平衡會提出新的要求,也將成爲AI硬件賽道玩家需要直面的新挑戰。