聯想集團副總裁毛世傑:大模型在AI PC端可以構建專屬私人助手

毛世傑:AI大模型驅動的行業元宇宙(來源:本站科技頻道)

文/趙芙瑤

12月22日,第十屆以“智能涌現·發現未來”爲主題的本站未來大會,在杭州正式啓動。本次大會由杭州市人民政府和本站公司聯合主辦,杭州市經濟和信息化局、杭州市商務局、杭州濱江區人民政府、北京本站傳媒有限公司及本站(杭州)網絡有限公司承辦。

此次本站未來大會包括主論壇、AGI論壇、汽車科技論壇、靈感論壇、思想之夜、未來局等環節,大會廣邀頂級學者、產業專家和行業精英一道,爲您作答未來科技、人文藝術、時代個人在下一個十年無限精彩變化。

在12月22日的AGI論壇上,聯想集團副總裁、聯想上海研究院院長毛世傑帶來了名爲《AI大模型驅動的行業元宇宙》的主題演講。

首先,毛世傑強調了行業元宇宙在數字經濟與實體經濟融合中的重要角色,解釋了它作爲下一代物聯網發展的高級形態。通過構建數字世界、進行仿真和推演,行業元宇宙旨在提升真實世界中人和機器的決策能力和協作效率。

毛世傑指出,聯想集團的AI策略主要聚焦在三個方面:提供AI內嵌的智能終端,構建AI導向的基礎設施,以及提供AI原生的方案服務。這些策略共同支撐着“全棧智能AI For ALL”的願景,旨在爲不同客戶羣體提供定製化的AI解決方案。

在演講中,毛世杰特彆強調了AI大模型在提升行業元宇宙交互體驗、增強感知能力和內容生成能力方面的應用。例如,通過利用大模型,可以改善XR設備的交互體驗,提高機器人設備的理解和學習能力,以及使用視覺大模型來解決工業環境中的複雜檢測問題。

此外,聯想集團還展示瞭如何使用AI大模型來重構三維空間,併成功地將這些技術應用於多個實際案例中,包括工業檢測、文化遺產保護和數字工廠建設。這些案例不僅展示了AI大模型的廣泛應用潛力,也證明了其在提高生產效率和降低成本方面的巨大價值。

最後,毛世傑強調,儘管聯想不是大模型技術的直接開發者,但通過與行業領先的大模型供應商合作,聯想致力於成爲智能化時代的引領者和賦能者。這一戰略將有助於推動物理世界與虛擬世界的更緊密融合和協同發展。

以下爲毛世傑演講節錄:

各位來賓下午好!感謝本站的邀請有機會跟大家分享這麼一個話題,今天下午的場合各位專家的演講我都聽得非常仔細,我覺得非常有意思,尤其是林院長今天下午的開場,提的第一個問題就是大模型在To C行業應用比較多,To B行業現在面臨很多的困難。

我今天分享的題目就是講To B,我分享的題目是“AI大模型驅動的行業元宇宙”這個行業元宇宙顯然不是指我們遊戲領域的元宇宙,而是真正的面向工業的具體問題。前面的另外一位嘉賓也提到了,工業客戶要的是行業大模型的降本增效。從有到有用到有作用,是我們所面臨的挑戰。所以接下來這個部分,我就跟大家分享一下我的團隊在這方面的探索。

我來自於聯想集團,聯想集團的技術我們錨定在兩個錨點,一個是AI,一個是算力,我們提供的是“全棧智能AI For ALL”,大家會很好奇聯想集團是不是百模戰的一員,我自己定義我們不算是百模大戰的一員,我們跟各位的大模型的廠商有非常大的互動,聯想集團做的是什麼事呢?主要是三個。

第一,提供AI內嵌的智能終端,尤其是最近幾個月大家看到AIGC的新聞非常熱,大家在PC來了以後的變革產生巨大的期盼,越來越呢?大模型的數據在雲端,但是我們每個人PC上有非常多的數據,如何用大模型在本地端就可以運行起來,構建每一個人自己的一個私人助手,這是第一部分。

第二,AI導向基礎設施,反覆提到算力。

第三,AI原生方案服務,最終我們有大模型用給不管是2B還是2C的客戶來改變實際的生活。

我報告題目分爲三個部分:

第一,行業元宇宙切入,它非常重要,它是產業升級新載體。

第二,行業元宇宙過去幾年曾經非常熱,現在非常冷,由於AI大模型讓很冷的問題得到解決,所以我會分享AI大模型到來對於元宇宙、AI有哪些實際關鍵技術解決,讓它的感知能力、決策能力能提升。

第三,我會簡要給一些我們做的實際案例,大家感受一下2B企業應用什麼狀況。

第一個話題,我們受行業元宇宙怎麼理解?大家想到元宇宙就是遊戲?實際上幾個月以前,工信部聯合五部委發佈了《元宇宙產業創新發展三年行動計劃》,其實是數字經濟與實體經濟融合的高級形態,是下一代物聯網的發展,目標是加速製造業的高端化、智能化、綠色化升級,支撐現代化產業的建設,具體來講就是形成標杆的工廠、園區等。

從工信部發的文第一能夠看出國家推出元宇宙這些領域是非常務實的,基本上是以需促實,以需強實的領域,和大家想象遊戲的場景是不同的。

另外看左邊的圖,我們可以看到過去企業都是在做數字化,後面是網絡化然後有一個基礎,把萬物連通在一起,今天更想用場景化,需要根據某個場景提供智能化的解決方案,不管是檢測還是巡檢還是什麼樣企業某方面的任務或者仿真、計算,這方面是我們今天元宇宙面臨的問題。

元宇宙不管怎麼說它首先要構建一個數字世界,我們構建數字世界的目的是什麼呢?一定是在虛擬的世界裡去進行仿真和推演,來實現在真實世界難以實現或者成本非常高的應用。但是後面一句話非常重要,我們最終的目標是提升真實世界人和機器人的決策能力和協作效率。

同樣是在剛纔的《行動計劃》給出了三個清晰的路徑。

(1)我們可以構建產線元宇宙,在產線裡把人、機器、數據進行融合,進行三維自動化質檢、遠程協作等應用。

(2)更擴展一步我們可以面向工廠做工廠的工業信息集成、物流、資金流、信息流的融合以及實現智能巡檢、遠程協作等。

(3)擴展到園區提升園區的建設模式,這就是產業元宇宙的願景圖。

實際上我們做過不少元宇宙的項目,大家經常會說元宇宙是面子工程,有人說只能展示一下沒什麼用,總體來看我們總結了元宇宙的問題其實就是四個。

(1)好看不好用。

(2)構建元宇宙成本很高,目前構建虛擬工廠都是要派模型師的團隊駐廠,要把很多細節建模。

(3)感知能力非常弱。

(4)交互聯動。

我們排除第一個後面的,這三個其實都是跟AI大模型有密切的關係。AI的模型可以在三維重建裡面提供一個自動構建的方式,可以大大提高它的物理感知能力,也能夠提供新的人機交互的這種自然的交互的能力。

所以第二部分我想分享一下AI技術如何解決這幾個問題。從一個框架來講,我們構建元宇宙無非是人、用戶、機器、新型設備、環境、數字空間以及和數據、知識、經驗這些東西大的環境裡去打交道。AI大模型不僅是語言大模型,我們還有視覺大模型、3D大模型,感知是對物理環境的感知,交互是人機提供新型交互方式以及構建它去創建三維的數字資產。

所以接下來我圍繞這三個方面給大家看一下具體的案例。比如說第一個案例就是用大模型提高XR的交互體驗,我們知道AR設備非常大的願景是它解放雙手,但是解放雙手以後發現有一個問題,你怎麼和設備交互呢?那其實主流的方式是用手勢,用手勢的準確性和各方面體驗是非常差的,後來有人用語音,後來我們用自然語言模型來非常方便控制XR設備,當然除了XR設備PC、手機都可以用這種方式,因爲XR設備是解放雙手所以應用空間會更大一些。

另外我們也碰到客戶很明確用多模態大模型接入到已經有的行業知識庫或者專家知識庫,這前面嘉賓也多次提到了。還有一種設備跟大模型相關就是機器人設備,因爲數字化時代除了PC以外我們爲什麼重點看XR和機器人呢?XR是虛實融合的設備,機器人是虛實聯動的設備。

首先,我們也是可以用大模型的Function core解決讓機器人在指令層面非常容易理解的話,比如說告訴往前走十米,這個樓梯爬上去,這樣的指令完全在大模型時代機器人可以理解的。

第二個能力讓機器人去技能學習,很大程度上我們叫具身智能,比如說機器人多次爬樓梯以後根據每次爬樓梯機器人能夠得到反饋,根據得到的反饋訓練他下一次爬樓梯的效能。

第三步,更長遠我們希望機器人對我要去做的任務進行解析,今天的機器人不行,今天的機器人任務全部都是預設的,比如說一個巡檢任務從A點到B點檢查任務都是預設的,但是我們覺得大模型下一步可能有機會讓複雜人物的理解和動作序列的拆解這兩個部分能夠由大模型來完成。

第二部分是視覺大模型增強感知,原來我們由AI是小模型,小模型解決了哪些問題呢?比如說狀態識別、行爲動作識別、異常檢測等,這些應用無數個案例都是過去這些年蓬勃發展的階段,今天視覺大模型出來以後對三個問題都有質的突破。

第一個案例就是用視覺大模型解決Few-Shot的監測技術,這是我們視頻就是真實的案例給吉利路特斯汽車做的檢測項目,它其實像這樣框出後視鏡或者框出前面的Logo,只要一張照片用視覺大模型就可以在後面各種車型、各種燈光環境下把這個找出來,如果用傳統AI的方式,這樣算法的能力是需要幾百張圖片去處理這個算法的,但今天用視覺大模型它可以非常精準提取它的特徵點,然後徹底解決了one-shot和few-shot的檢測,所以對於算法的這種硬性程度有極大的提高效率。

第二個案例也非常有意思,是我們用視覺大模型去解決缺陷樣本生成,在2B領域我們去用視覺做一個缺陷檢測,面臨最大的困難不是算法不夠好,而是副樣本不夠多,因爲出現故障的場景其實是比較少的,所以客戶很難提供足夠訓練小模型的樣本數據,那我們就想到一種非常有意思的方式。

右邊的圖這裡面有很多缺陷的圖,但其中只有2到3張是客戶給的真實缺陷的圖,剩下的圖我們全部用Stable Dffusion這樣的大模型去創建各種各樣缺陷的數據,不光是燈光、破裂、顏色變化,然後再訓練小模型,這個階段小模型的價值在工業領域仍然是不可替代的,但是我們用了非常巧妙的方式引入了大模型的能力來支持小模型的算法,這是非常成功的實踐,我們目前廣泛用這種方式解決一些缺陷檢測的問題。這個階段小模型的價值在工業領域仍然是不可替代的,但我們用一種非常巧妙的方式引入大模型的能力來支持小模型的算法,這是一個非常成功的實踐,我們目前已經廣泛的用這種方式去解決一些缺陷檢測的問題。

第三個案例,也是物理感知。就是異常檢測,異常檢測,我們發現用傳統的計算機視覺的方式,比如這樣的停車場,裡面的東西很多,我也不需要事先標註哪個地方是異常,我只要給它20多張照片或者視頻,讓它看多了這樣的場景。這時候當地上有一灘水時,今天的大模型是立刻能把它捕捉到、報警的。所以今天大模型來解決這種小目標、弱對比度、形狀變化、光照變化等異常檢測,是有非常巨大的空間和能力。

這是第二個部分,提高它的感知能力。

第三個部分,就是內容生成能力。我們之前三維重建,構建一個數字世界傳統就是用三維重建方式,用SFM的重建。這樣重建的效率其實是非常低的,我們去掃描空間,已經恢復空間所需要的代價都是非常高。AIGC出現以後,大家可能非常清楚,AIGC來產生圖片,實際上AIGC在2020年左右出現了NeRF算法,是用來做三維空間建模的。三維空間建模以後,讓我們對於空間建模的成本有數量級的下降,而且產生的數據,比如中間這些視頻也非常的逼真。

前面也有嘉賓提到未來會不會有AI生成的3D內容,目前這個還是屬於學術界研究的範疇,在工業界應用不多,我們會密切關注這個部分領域的應用,但還沒有到實踐當中。目前主要走到第二步,在NeRF重建這樣一個階段。NeRF重建階段,NeRF產生的模型是一個神經網絡模型,它如果用來構建數字工廠或者數字產線的話,是有很多工程問題需要解決的。

我這裡給了一些過去一兩年解決的一些問題。包括與傳統三維模型進行融合渲染,大家仔細看在這個模型裡,這是一個NeRF神經網絡的模型,我們在這裡疊加了虛擬的模型,也疊加了人的模型,所以做成融合渲染,這是一種工程能力。二是我們去現場拍攝的時候會碰到人或者移動物體對三維重建的干擾,這部分也有技術手段去除掉。三是NeRF模型是一段段掃出來的神經網絡,這個視頻是我們把在北京掃的和上海兩個視頻拼接在一起,給神經網絡模型有空間、有尺寸,有這樣的屬性,從而實現模型的拼接和編輯等問題。

總體來說,NeRF這個領域過去這幾年發展的特別快,而且它真正使用的工程上要解決的問題,都在快速解決當中。

這是我們做的其他案例,從辦公室尺寸到大空間尺寸,到古文物保護,到園區的尺寸,我們都做了非常多的三維重建方式,這都是用AIGC來生成三維內容的嘗試。

總體來說,AI在設備的人機交互方面,以及對外部環境的感知方面,以及產生三維內容方面,其實AIGC,尤其是大模型都取得了很多作用。基於此,我們就推出了聯想晨星元宇宙的產品佈局。我們覺得構建一個元宇宙就是這麼三個方式:一是有新型的硬件設備,包括虛實融合、虛實聯動的機器人設備和XR設備;二是需要有一個元宇宙平臺,它來對物理世界進行映射、融合和聯動,構建數字空間;三是結合各個行業的Knowhow形成不同的解決方案。一個正常的平臺包括4個功能:空間構建、數字資產、場景編輯、業務運營,時間關係不詳細贅述。

我想給大家放一個視頻,非常簡短,大家可以感受一下今天構建一個數字世界,讓機器人去實現任務整個流程,已經做到什麼階段了。

第一步是在上海的辦公室,我們用一個手持設備做一個環境的掃描。掃描之後迅速形成一個三維空間,並且在這個三維空間可以編輯的,我們拖了一個數字機器人進來,對這個機器人進行任務的分發,告訴他要去巡檢什麼點位,要跑什麼樣的算法,什麼是正確的,什麼是錯誤的,這裡什麼路徑,並且把算法下發到機器人,現在就是由機器人在真實環境裡和虛擬的機器人聯動,你既可以在虛擬世界裡操控這個機器人,也可以在真實世界操控這個機器人,讓虛擬環境跟着變化。上面是機器人的第一視角,這是機器人現場,這是數字環境。現在它在執行一個監測任務,我們在上面貼了各種各樣異常的照片,讓他判斷這個環境是正確與否,最後通過應用生成各種各樣檢測的報告,這就是一個完整的新形態用AI構建元宇宙應用的場景。

最後我給三個案例:

1.我們第一次在國內真正做到全地形全覆蓋的變電站機器狗巡視,就是用我們所提到的應用,構建一個場景,讓機器狗能夠過鵝卵石、爬雲梯,雲臺引導走到位置,清楚拍到它所需要看到的照片,並且通過算法對照片進行自動判斷,如果出了問題還會有應急的操作。這個項目非常有意思,它真正實現了機器代人非常典型的案例,對於工作成本的降低是極其明顯的,所以我們也獲得南方電網很多視頻、文章、報紙的報道。

2.前面提到了一些,這個視頻還是很有意思,這就是一整套AI所構建的汽車產線出廠狀態,每一輛路特斯汽車都是定製的,一輛汽車裡有300多個檢測項,根據客戶要選擇。之前要確認這300多個選擇項非常困難,我們就把機械臂上裝了各種各樣攝像頭,有各種相機。汽車生產完成之後,通過傳送帶,從裡面出來這麼走一圈,基本上300多項檢測任務,這個報告就自動全部出來了,包括各種各樣的輪胎、LOGO,各種各樣檢測任務都分享出來。這就是我剛纔提到的,必須要使用大模型,尤其是圖像大模型的技術,去解決樣本少、解決One short等問題的綜合應用。

3.這個案例是非常有意思的,我們和清華大學合作的山西應縣木塔的保護。我們做了兩個事情:一是三維重建,做了非常逼真的現場重建,並且疊加了一些虛擬的信息,把遊覽應縣木塔場景變成一個遊戲化場景,用戶可以在裡面和這個場景互動。同時我們也挑戰了一下仿真的極限,清華大學對於所有木質結構進行CT的探測,對於木質機理進行分析,從而推導這個木頭今天的表現形式在一百年前是什麼樣,甚至在兩百年以後是什麼樣,這樣我們就用元宇宙手段復現了它今天非常豐富的交互環境。並且可以推廣它過去什麼樣,以及未來怎麼樣,這是一個非常有意思的探索類項目。

總體而言,聯想集團的目標就是促進物理世界與虛擬世界的映射融合與聯動。我們覺得兩個大問題:成本太高、好看不好用。這兩個問題的解決都是依賴於大模型相關的技術,構建的問題通過NeRF算法、AIGC方式去解決。智能化的問題,我們通過圖像大模型、語言大模型、視覺大模型等方式去解決。最終,聯想集團不是大模型的出品者之一,但我們用自己的實力,用自己的設備應用,跟各位大模型廠商聯手合作,一起成爲智能化時代的引領者和賦能者。

謝謝大家!