VAST宋亞宸:3D生成邁入秒級時代,今年將做到Midjourney V5/V6水平丨GenAICon 2024

智東西作者 GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行,在大會第二天的主會場AIGC應用專場上,VAST創始人兼CEO宋亞宸以《大模型Tripo驅動3D生成邁入秒級時代》爲主題發表演講。

從文字、圖片到視頻、3D,信息載體不斷升級,宋亞宸談道,3D的體驗質量、信息密度不斷提升且更具互動性。他認爲目前3D生成已經達到類似Midjourney V3的效果,今年9月將達到類V4效果,年底達到類V5/V6效果,實現真正可用,甚至通過圖靈測試。

VAST是3D生成模型領域的第一梯隊玩家,已打造全球最大的幾個3D生成開源社區,並與Stability共同開源了全球最大、0.5秒圖生3D模型TripoSR。其創始人兼CEO宋亞宸也是首位在計算機圖形學頂會SIGGRAPH上發表主舞臺主題演講的中國創業者。

據宋亞宸分享,VAST的3D大模型Tripo上線百餘天內生成了超過200萬個3D模型。爲了應對3D生成創作成本和門檻過高的挑戰,VAST將3D內容平臺和大衆級創作者平臺結合。當前這家創企已擁有超過200家B端客戶,並基於其平臺開發出原生AI爆款小遊戲,一週突破10萬用戶。

以下爲宋亞宸的演講實錄:

AIGC會使遊戲的創作門檻和成本無限降低,這就是我們做的事情。

我們是做3D大模型的公司,產品核心就是將用戶輸入的文字或者圖片快速生成3D模型。3D模型可以在遊戲、動畫、影視、元宇宙、3D打印等行業中直接使用,其本身帶有Mesh、貼圖、材質,你可以進入傳統管線二次編輯,進行驅動、渲染等。3D模型還可以擁有帶骨骼、帶動作等格式,出現很多種有意思的使用方式。

那麼,我們爲什麼要做3D這件事?

文字、圖片、視頻、3D中,3D是非常特殊的品類,從文字、圖片、視頻到3D是信息載體不斷升維的過程,3D也被認爲是最終的信息載體,其信息密度、體驗質量都在不斷提升,同時擁有雙向互動性。

因此,我們相信世界正在進入一個3D新時代。

一、3D生成迎新拐點,今年做到Midjourney V5/V6水平

爲什麼現在做3D生成這件事情?OpenAI的GPT-3剛發佈時,關注的人並不多,在其基礎上做的應用、開發也相對較少,僅有如Replika等少數幾個應用,大家對它的認知比較少,使其很難進行商業化。

直到2022年11月份,ChatGPT的發佈成爲了一個非常大的拐點,我們稱其爲用戶的Aha Moment(頓悟時刻)。這一產品對整個行業、逐步進行商業化、用戶量提升都有很大的影響。

Midjourney也類似,2022年7月份V3推出時,用戶量並不多,也沒有收費功能,知道Midjourney的人寥寥無幾。直到半年以後,Midjourney於2022年11月份推出V4,我們認爲這誕生了文生圖的下一個拐點,在這個拐點上有了非常大的提升,其產品的用戶量、收費方式、商業化等都得到了滿足。

再來看3D,我們現在看到的3D生成,類似於Midjourney V3的水平,但已經可以在一些場景使用起來了。

預計到今年9、10月份,3D生成可以達到Midjourney V4的水平;今年年底可以達到類似於Midjourney V5的水平,通過圖靈測試,並帶來一次非常大的商業變革。

從3D生成的演進過程來看,除了像我們這樣的創業公司,谷歌、英偉達、OpenAI、Meta、Adobe等海外企業都已進入到3D生成這個領域。

在學術上,我們從佈局3D原生路線、2D優化路線、多視角生成、編輯動態場景到人物生成,在CVPR、ICLR等國際頂會上都發表了大量論文,並開源了相應技術。

全世界最大的幾個3D生成開源社區都是由我們做的,比如與Stability AI共同開源了全世界最大、效果最好的圖生 3D大模型TripoSR,我們還開源了全世界最大的3D算法框架Threestudio、超火爆的單圖生3D算法Wonder3D,以及TGS、CSD等開源項目。

我們預計2024年年底會把3D生成做到Midjourney V5甚至V6的水平,達到下一個爆發時刻。

3D的核心在於可交互、可體驗,甚至帶一些遊戲性。所以我們會同步做3D動態的內容生成,包括骨骼的自動綁定、動作生成,這已經在我們產品裡上線。

同時,我們認爲在明年或許會實現,每一個人都有能力去生成無限個屬於自己的3D內容,不管是遊戲、XR體驗,還是任何的3D內容,這也是我們對整體3D內容生成趨勢的判斷。

二、3D創作門檻和成本太高,需要大衆化3D內容平臺

我們剛剛講了很多AI 3D技術,但我更希望和大家分享我們是怎麼把AI 3D玩起來的。

我們認爲AI 3D是在拓展人類能力的邊界。我隨便在門口拉個人進來,讓他給我發一個Twitter,可能只需要5秒鐘。我說你再給我發一個TikTok,他做一下剪輯,可能2分鐘就能搞定。如果我讓他做個遊戲,他可能會說:“好,給我3年時間、1000個人、2億美金,我給你做個遊戲。”這是很正常的。

3D爲什麼這麼特殊?是因爲其創作門檻和成本太高,它沒有誕生出一個屬於自己的內容平臺,同時也沒有實現內容的爆發。

我爲什麼這麼說?比如我剛剛舉的例子,文字有微博、貼吧作爲內容平臺,圖片有Instagram、小紅書作爲內容平臺,視頻有TikTok、抖音、快手、YouTube,音樂有Spotify,甚至聲音都有喜馬拉雅,但是3D缺少大衆的內容平臺。核心就是生成門檻和成本太高了。

如果有一天我跟你說,發個小紅書需要給我10萬塊錢、拍個TikTok需要3年,那你可能就不會發布內容了。因此,核心點在於3D內容成本高,如果需要1億美金,我就得賺1億美金回來,自然使得其內容非常少。

但如果有一天,3D內容的成本被降到無限接近於0,是不是每個人都可以低成本創作3D內容?這樣一來,創作3D內容不再是爲了賺錢,而是像發小紅書一樣,宣泄自己的情感、表達自己的想法、炫耀自己的創意,這可能是未來每個人製作3D內容、做虛擬世界、探索各種各樣虛擬玩法最核心的訴求,不需要再考慮怎麼賺錢。

3D創作者也會發生變化,不再是遊戲大廠裡面的建模師、動畫師,可能是我們在座的每一位,所以我們在拓展人類的邊界。

今天在大會上,我們在講文生文、文生圖、文生視頻、文生音樂、文生聲音等各種各樣的生成方式,我今天也學習到了很多。但是我們看到人用鍵盤打字、用手機攝像頭拍照、P圖、拍視頻、加濾鏡等本身都是非常容易的事情,AI只是一個工具。

在所有的內容品類中,除了3D,AI提供的都是Alternative(可被選擇的),只有3D提供的是從0到1的過程,它拓展了人類的能力邊界。

我們做3D生成就是希望降低用戶創作的門檻和成本。並且,我們認爲成本下降後,當3D出現自己的“手機攝像頭”時,就意味着3D出現了類似於“抖音”和“快手”的機會。

因此,我們希望做一個屬於自己的3D內容平臺、自己的大衆級別創作者工具。當大家不斷使用這些創作者工具和內容平臺時,我們就會有更多數據,從而形成數據飛輪,讓更好的技術帶來更好的產品體驗、更多的用戶帶來更多的數據。

當然,我們面向的用戶更爲關鍵,同賽道的一些其他玩家對於拿AI 3D做什麼,大家的答案可能各不相同。

對於我們而言,我們可以給好萊塢、橫店、寶萊塢的導演、攝影師提供“手機攝像頭”。但是“手機攝像頭”給大家帶來的可能是移動互聯網時代的“收錢吧到賬500塊”。例如用“每刻報銷”節省時間報銷,省下來的時間你可以去拍小紅書、拍TikTok,或者創作自己想要做的視頻和圖片內容。這件事情可能對於我們來說更關鍵。

雖然,我們也有很多遊戲、動畫、影視的應用,但長期來說,我們希望服務的是在座的、看直播的每一位,讓每個人都有辦法去創作3D內容。

三、生成3D模型超200萬,AI原生小遊戲一週突破十萬用戶

給大家講一下我們產品上線的情況。

今年年初,我們上線了3D大模型Tripo,百天內生成超過150萬個模型,現在已經生成200萬個模型。

這是什麼概念?上個月在硅谷參加GTC,我們與全世界一些全球頂級的模型交易平臺交流,這些平臺積累了十幾年,每個平臺沉澱的模型大概有190萬~200萬個。而我們在短短三四個月就已經超過他們了,這就是AIGC的力量。

看數據其實很難有感觀,但確實看到社區中有很多很有意思的東西。一些KOL、合作伙伴、有意思的創作者會和Magnific等AI工具結合形成完整的工具流,然後將其放到《堡壘之夜》的UGC平臺、Roblox等場景中,展示給其他的創作者。歡迎大家關注我們的Twitter賬號@tripoai。

在與遊戲公司的合作方面,除騰訊、本站這樣的遊戲大廠,我們也會和5-10個人的遊戲工作室合作。因爲我們的出現,這些遊戲公司不再煩惱沒有足夠的資金去招一線的美術團隊、招十幾個3D美術專家,現在他們只需要使用我們的3D生成能力,就可以快速完成角色設計、場景設計、關卡生成等工作,實現降本增效,打通其遊戲的資產管線。

同時,很有意思的一點在於,它會出現一些原生AI玩法。

例如TripoGO小遊戲,開發者僅用了不到一個月的時間開發,其玩法是你生成一個3D模型,我生成一個3D模型,然後互相打,誰打贏了就可以拿到對面的Prompt(提示詞)。比如你是“胡桃夾子抽雪茄”,我是“路易十四開法拉利”,我把你打贏之後,我就變成了“胡桃夾子抽着雪茄開法拉利”。

雖然這個小遊戲的玩法並不複雜,但是第一天就擁有1萬多個用戶,一個禮拜之內突破了10萬用戶,這就是AI原生玩法的力量。

還有更多的展示,包括動畫生成、場景生成等。很多年輕開發者動手能力非常強,基於我們的3D生成能力做了很多自動化工具,比如ComfyUI的節點、各個引擎的插件等等。他們也會開發自己的Web App小遊戲,並展現出來。

同時,我們還有蘋果Vision Pro的應用,本質上就是你在虛擬世界裡面,可以通過聲音、文字、圖片生成3D模型,生成後將它擺到任何地方,然後讓它跳舞、跟你合照等。所謂的“言出法隨”就是這樣,每個人都變成了3D的“神筆馬良”。

我們的Slogan是爲世界進文明,爲人類造幸福。我們的官方網站tripo3d.ai現在可以免費註冊,同時可以使用我們的開放平臺。

以上是宋亞宸演講內容的完整整理。