寶可夢GO偷家李飛飛空間智能?150萬億參數解鎖現實邊界
來源:新智元
編輯:HYZ
【新智元導讀】5年,5000萬個神經網絡,這個世界從未被掃描過的角落,我們都能看到了。寶可夢GO團隊,竟然搶先實現了李飛飛的「空間智能」?而「Pokémon Go」的玩家可能沒想到,自己居然在訓練着一個巨大的AI模型。
李飛飛提出的「空間智能」概念,被寶可夢GO團隊搶先實現了?
最近,寶可夢GO團隊宣佈,構建出了一個大規模地理空間模型LGM,讓我們距離空間智能更近了一步。
而這一成果也意味着,人類在空間計算和AR眼鏡領域,即將進入嶄新的時代。
作爲Niantic視覺定位系統(VPS)的一部分,團隊訓練了超過5000萬個神經網絡,參數規模超過150萬億。
我們可以把LGM想象成一張爲計算機準備的超級智能地圖,不過,它卻能以與人類類似的方式理解空間。
憑藉這種對世界的強大3D理解能力,LGM能夠非常智能地「填補空白」,甚至包括那些地球上人類尚未全面掃描的領域!
可以說是,讓AI終於長出了眼睛
從此,LGM將使計算機不僅能感知和理解空間,還能以新的方式與之互動,這就意味着AR眼鏡和機器人、內容創建、自主系統等領域將迎來全新的突破。
隨着我們從手機轉向與現實世界相連的可穿戴技術,空間智能,將成爲未來世界的操作系統!
全球數百萬個場景,通過AI相連
這個大規模地理空間模型的概念,是利用大規模機器學習理解場景,然後它就會與全球數百萬個其他場景相連。
你是否曾有這樣的感覺?
看到一種熟悉的建築,比如教堂、雕像或城鎮廣場,我們很容易想象它從其他角度看起來是什麼樣子,即使這些角度我們從未見過。
這,就是我們人類獨有的「空間理解」功能,它意味着,我們可以根據以前遇到的無數相似場景來填補這些細節。
但這種能力對於機器來說,卻是難如登天。
即使當今最先進的AI模型,也難以推斷出場景中缺失的部分、將其可視化,或者想象出一個地方從全新的角度看起來是什麼樣子。
如今,LGM打破了AI的這種限制!
這套由寶可夢GO團隊訓練出的神經網絡,可以在超過100萬個地點進行操作。
每個本地網絡,都會爲全球大模型做出貢獻,實現對地理位置的貢獻理解,包括那些尚未掃描的地方。
什麼是大規模地理空間模型
我們都知道,LLM是通過在互聯網規模的文本集合上進行訓練後,從而理解和生成書面語言。
這種方式,挑戰了我們對「智能」的理解。
同樣,大規模地理空間模型也是以一種同樣先進的方式,幫助計算機感知、理解物理世界,爲之導航。
跟LLM類似,它同樣是通過大量原始數據構建的——
數十億張全球各地的圖像,全部錨定在地球上的精確位置,被提煉成一個大模型,讓計算機能夠基於位置去理解空間、結構和物理交互。
從基於文本的模型向基於3D數據的模型的轉變,也揭示出近年來AI發展的一條軌跡:從理解和生成語言,到解釋和創建靜態和動態圖像(2D視覺模型),再到對物體的3D外觀進行建模(3D視覺模型)。
而現在,地理空間模型甚至比3D視覺模型更進一步,因爲它們捕捉的是根植於特定地理位置、並且具有度量特性的3D實體。
與典型的生成式3D模型不同,大規模地理空間模型綁定到了度量空間,因而能夠以尺度度量單位進行精確的估算,而前者生成的,只是未縮放的資產。
因此,這些實體代表的是下一代地圖,而非任意的3D資產。
雖然3D視覺模型也能創建和理解3D場景,但地理空間模型卻理解該場景如何與全球數百萬其他場景在地理上相關聯。
它實現了一種地理空間智能,讓模型從其先前的觀察中學習,然後還能將知識轉移到新的位置,即使這些位置只是被部分觀察到的。
現在,帶有3D圖形的AR眼鏡距離大規模市場化還有幾年時間,但地理空間模型已經有機會與純音頻或2D顯示的眼鏡集成了!
想象一下,這些模型可以引導我們穿越世界,回答問題,提供個性化推薦,提供導航,甚至增強我們與現實世界的互動。
而且,它還可以集成LLM,讓理解和空間融合在一起,讓人們能更加了解自己周邊的環境和社區,並且與之互動。
這種地理空間智能還能生成和操縱世界的3D表示,構建下一代AR體驗。
除了遊戲之外,在空間規劃和設計、物流、觀衆互動和遠程協作上,大規模地理空間模型都將具有無限的潛力。
5000萬個神經網絡,詳細瞭解整個世界
爲了構建視覺定位系統VPS,Niantic團隊已經花費了五年。
這個系統僅利用手機上的單張圖像,就能讓用戶在團隊的遊戲和Scaniverse中有趣的地點構建3D地圖,從而確定其位置和方向。
有了VPS,用戶就可以以釐米級的精度,在世界中定位自己!
這就意味着,他們可以精確而真實地看到放置到物理環境中的數字內容。
這些內容是持久的,即使你離開後,它們仍然會留在原地,還能與他人共享。
比如,團隊最近在Pokémon GO中推出了一項名爲Pokémon Playgrounds的實驗功能,讓用戶在特定位置上放置寶可夢,將它們留在原地,供其他人查看和互動
所以,VPS是怎樣創建出對世界如此高度詳細的理解呢?
原來,Niantic的VPS都是通過用戶掃描構建的。
這些用戶會通過不同的視角拍攝,並且還會在一天中的不同時間,以及多年來的多次拍攝,同時附有定位信息,從而創建出了對世界高度詳細的理解。
這些數據是獨一無二的,因爲它們是從行人視角獲取,包括了汽車無法到達的地方。
如今團隊已經在全球範圍內擁有1000萬個掃描地點,其中超過100萬個已激活,可供VPS使用了。
而且,團隊每週還在接收約100萬次新的掃描,每次掃描都包含數百張獨立的圖像。
作爲VPS的一部分,團隊使用運動結構技術構建經典的3D視覺地圖,同時也爲每個地點構建了一種新型的神經地圖。
這些神經模型基於ACE(2023)和ACE Zero(2024)這兩篇論文,不再使用經典的3D數據結構來表示位置,而是將它們隱式編碼在神經網絡的可學習參數中。
這些網絡可以快速地將數千張地圖圖像壓縮成精簡的神經表示。
給定一張新的查詢圖像,它們以釐米級的精度,對這個位置進行精確定位。
Niantic訓練的超過5000萬個神經網絡中,多個網絡都可以爲單個位置做貢獻。
所有這些網絡結合起來後,總共包含了超過150萬億個通過機器學習優化的參數。
超越本地模型,讓空間理解更宏大
而且,團隊還有一個宏偉的願景。
雖然當前的神經地圖,已經是一個比較龐大的地理空間模型了,但他們想做的,是一個超越獨立本地地圖系統的更大規模的模型。
完全本地化的模型,可能無法完整覆蓋各自的位置,無論在全球範圍內有多少可用數據,局部上它們都是稀疏的。
局部模型的失敗之處就在於,它無法超出已經看到的內容和位置進行推斷。因此,本地模型只能定位與訓練過的視圖相似的相機視圖。
現在 ,想象一下我們正站在一個教堂後面。
如果本地模型只見過教堂的前門,它是無法告訴你的準確位置的,因爲它從未見過教堂的背面。
但是在全球範圍內,我們卻見過數以千計的教堂,它們都是由其他地方的本地模型捕獲。雖然沒有哪座教堂完全相同,但許多教堂有共同的特徵。
LGM用的正是訪問這些分佈式知識的方法。
它可以提煉出全球大規模模型中的共同信息,在本地模型之間實現通信和數據共享。
它可以內化教堂的概念,並且進一步理解這些建築是如何構造的。
即使對於某個特定位置只繪製了教堂入口的地圖,LGM也能夠根據之前見過的數千座教堂,對教堂的背面做出明智的猜測。
因此,即使是VPS從未見過的視點和角度,LGM也能在定位中實現前所未有的魯棒性。
可以說,全球模型實現了對世界的集中理解,而且完全是源自地理空間和視覺數據。通過全球插值,它能進行局部推斷。
讓AI像人一樣理解
上述過程,類似於人類感知和想象世界的方式。
對於人類來說,即使是從不同的角度,也能自然而然地識別出我們以前見過的東西。
想象在歐洲老城蜿蜒街道中漫步,你依然能輕而易舉地找到返回的路。
這看似理所當然的能力,背後蘊含着驚人的複雜性。尤其是,對於機器視覺技術來說極其困難。
AI若想擁有類人的理解力,便需要了解一些自然法則:
世界由固體物質組成的物體構成,因此有正面和背面。外觀會根據一天中的時間和季節而變化。
同時,這也需要相當多的文化知識:許多人造物體的形狀遵循特定的對稱規則或其他通用佈局類型——通常取決於地理區域。
早期的計算機視覺研究試圖解讀其中的一些規則以便將其硬編碼到手工製作的系統中。
但現在,科學家們意識到,我們所追求的這種高度理解實際上只能通過大規模機器學習來實現。
這正是LGM所追求的目標。
在Niantic聯手牛津大學的最新研究論文MicKey中,首次看到了從數據中出現的令人印象深刻的相機定位能力。
論文地址:https://arxiv.org/pdf/2404.06337
MicKey是一個神經網絡,能夠在劇烈的視點變化下將兩個相機視圖相對定位。
MicKey甚至可以處理需要人類花費一些努力才能弄清楚的對立鏡頭。
更令人興奮的是,MicKey僅使用很少的訓練數據,就取得了這樣的成就。
MicKey限制於雙視圖輸入,並在相對較少的數據上進行了訓練,但它仍然是關於LGM潛力的概念驗證。
顯然,要實現高級空間智能,還需要海量的地理空間數據。
而Niantic的獨特優勢在於,每週都會收集超100萬用戶貢獻的真實世界地點掃描。
多模型互補,重定義空間智能未來
LGM絕不僅僅是一個簡單的定位模型。
爲了很好地解決定位問題,LGM必須將豐富的幾何、外觀和文化信息編碼到場景級特徵中。這些特徵將啓用場景表示、操控和創造的新方式。
可以想象出,一個能夠「理解」場景的智能系統,不僅能定位,還能感知周圍環境深層次特徵。
像LGM這樣多功能大型AI模型,因其對多種下游應用的實用性,通常被稱爲「基礎模型」。
未來的智能體系統,不再是孤立的存在,不同類型的基礎模型將相互補充。
LLM將與多模態模型互動,而後者又與LGM進行通信。這些系統協同工作,以單一模型無法實現的方式理解世界。
這種互聯是空間計算的未來——智能系統能夠感知、理解並對物理世界採取行動。
隨着邁向更具擴展性的模型,Niantic目標仍然是引領大規模地理空間模型的發展,創造前所未有的用戶體驗。
除了遊戲,大規模地理空間模型將在空間規劃與設計、物流、受衆參與和遠程協作等方面有廣泛的應用。
LGM代表着AI進化的有一個里程碑。
隨着AR眼鏡等可穿戴設備變得更加普及,我們正邁向一個由物理和數字現實無縫融合的未來。