中國版Sora級視頻大模型發佈,打造“視頻-Native”超級應用

Sora席捲全球之後,視頻生成方向熱火朝天,不斷迎來新的進展。

近日,在奇績創壇路演日上,世界模型公司“極佳科技”聯合清華大學自動化系正式發佈中國首個“超長時長、高性價比、端側可用”的Sora級視頻生成大模型“視界一粟YiSu”,引起社會各界廣泛的反響和關注。

目前市面上大部分的視頻生成應用,都是基於3-5秒的視頻生成模型,應用和體驗上限制比較明顯。極佳科技CEO黃冠認爲:“只有視頻生成做到模型原生16秒(以及更長),同時保持自然的運動和表現力,做應用纔有價值”。

簡單來看,“視界一粟YiSu”擁有模型原生的16秒超長時長,並可生成至1分鐘以上;同時還擁有超大運動、超強表現力、懂物理世界等衆多優勢;更重要的是,YiSu模型成本更低、速度更快、端側可用;極佳科技希望通過YiSu模型強大的性能和極致的性價比,更快實現長視頻生成的大規模產品應用。

一個確定的事實是,年初Sora的爆火,以及今天“視界一粟YiSu”的推出,正式標誌着視頻生成和世界模型方向正在進入快速爆發的Scaling Law時代。

Sora的爆火,讓DiT(Diffusion Transformer,Sora的重要技術基礎之一)受到了業內極大的關注,很多公司和項目在Sora之後都開始復現DiT路線。

極佳科技和清華大學研究人員在視頻生成技術路線上有着深入的積累和獨特的理解,在autoregressive、Masked Token、DiT、UNet等不同路線方面均擁有豐富的經驗。此前,團隊提出的WorldDreamer,是全球第一次以Transformer和LLM(Masked Token路線)爲中心的視頻生成工作。

“視界一粟 YiSu”基於團隊自研的視頻生成大模型技術,並沒有止步於DiT,而是融合LLM和擴散模型的自研架構,結合各種路線的優勢,在多模態融合、訓練效率、推理效率、模型效果等方面達到極致的優化,打造視頻生成的最佳方案。

在極佳科技看來,過去兩年我們看到了多個“語言-Native”和“圖像-Native”的爆款應用,已經徹底改變人們的工作生活很多方面,下一個就輪到視頻方向了。而通用智能時代的目前階段,領先的模型就是爆款的應用。

基於“視界一粟YiSu”的驚豔效果,極佳科技正在打造“AI-Native”和“視頻-Native”的爆款應用,希望給廣大用戶帶來AI時代不一樣的體驗和價值。

面向通用智能時代,全球都在期待“AI-Native”的超級應用。語言模型展現了強大的對話、理解、總結、推理等文本方面的能力,展現了通用智能的曙光;圖像生成模型展現了強大的生成、娛樂和藝術能力。

而在目前人們已經已經習慣視頻內容的時代,文本和圖像的內容似乎仍然對於廣大用戶的價值仍然比較有限。視頻生成可能是打破這一局面的重要技術突破,“視頻-Native”的爆款應用更有可能走向超級應用,擁有無限的想象空間。

極佳科技CEO黃冠認爲:“超級應用對於通用智能時代至關重要。AI 1.0時代,依靠的是場景驅動的數據閉環,打造數據飛輪,不斷優化模型和應用效果。進入通用智能的AI 2.0時代,最重要的是基礎模型和超級應用兩條腿走路,打造智能閉環,形成智能飛輪。極佳科技希望通過基礎模型和超級應用形成的智能閉環飛輪,加速走向通用智能時代。”

OpenAI把Sora叫做“世界模擬器”,從視頻生成走向世界模型,會成爲通用智能的新一代數據引擎,對於自動駕駛、通用機器人等物理世界的通用智能具有極其關鍵的作用。

世界模型在數據生成、閉環仿真、端到端方案等方面都具有重要的價值。YiSu也展示了基於視頻生成的同款架構,用於自動駕駛和機器人場景世界模型的效果。

極佳科技在世界模型和數據引擎的技術和應用上都保持行業領先。

2023年9月,極佳科技推出了全球首個真實世界驅動的自動駕駛世界模型DriveDreamer,早於Wayve的GAIA-1;

2024年4月,極佳科技進一步更新了DriveDreamer-2,性能保持業內領先;

2024年5月,極佳科技聯合國內外多家單位推出了全球首篇通用世界模型綜述,該綜述通過260餘篇文獻,對世界模型在視頻生成、自動駕駛、智能體、通用機器人等領域的研究和應用進行了詳盡的分析和討論,並且審視了當前世界模型的挑戰和侷限性,並展望了它們未來的發展方向。

基於業內領先的世界模型技術,極佳科技拿到業內首個世界模型商業化定點和落地,簽約多家主機廠和大客戶,服務自動駕駛、機器人等具身智能客戶幾十餘家。極佳科技希望通過世界模型,攜手行業一起,加速走向物理世界通用智能。

“視界一粟YiSu”的驚豔亮相,離不開其世界級人工智能綜合團隊的支持。極佳科技成立於2023年,目前已經獲得多家一線財務投資機構、產業投資機構的投資,同時獲得了行業客戶的廣泛認可。

極佳科CEO黃冠是清華大學自動化系博士,擁有超過十年、全球領先的AI技術經驗,擁有微軟、三星、地平線等知名公司算法經歷,多次帶領百人算法團隊,還擁有AI、自動駕駛、大模型等方向的連續創業經驗;

首席科學家朱政是中科院自動化所博士,清華大學自動化系博士後,發表AI方向頂級論文超過50篇,引用超過1萬次;

產品負責人孫韶言是中科大博士,曾擔任阿里雲總監,地平線產品線總經理;

算法負責人陳新澤是中科院碩士,多次獲得AI比賽世界冠軍,擁有豐富的算法研發、應用和infra經驗;

工程負責人毛繼明是百度贏徹T10級別架構師,曾擔任Apollo仿真和工程負責人,擁有超過16年的數據、工程和分佈式架構經驗。

團隊擁有超過十年的人工智能技術研發經驗,在人工智能方向擁有世界級的研發能力,發表AI頂級論文200餘篇,在過去十年的人工智能技術浪潮中取得了全球領先的成績,曾獲得目標跟蹤全球最權威賽事VOT世界冠軍、人臉識別全球最權威賽事NIST-FRVT世界冠軍、圖像物體識別全球最權威賽事COCO世界冠軍、自動駕駛全球最權威評測nuScenes世界冠軍,發佈SiamRPN、WebFace260M、BEVDet、DriveDreamer等視覺和AI方向知名或開創性技術成果。

同時,團隊還擁有深入的大規模產業落地經驗,曾參與研發中國第一款嵌入式人工智能芯片研發和應用,負責中國規模最大的智慧城市系統研發和應用,負責中國規模最大的數據閉環平臺研發和應用,負責Apollo仿真平臺研發和應用。

通用智能時代,領先的技術能力和規模化的產業落地經驗,缺一不可,互爲支撐。極佳科技核心團隊基於研究、工程、產品、商業以及創業等方面的頂尖綜合積累,打造基礎模型和超級應用的智能閉環飛輪。

未來,極佳科技希望通過更多的技術和產品創新,爲用戶和客戶提供更多的價值,加速走向通用智能時代。

(封面圖來源:極佳科技)