AI原生時代,應用創新蓄勢待發
邁入AI大模型和生成式技術飛躍發展的時代,基於AI的應用創新正在成爲新的主題。
2023年,從通用大模型喧囂到行業大模型集中落地,AI應用創新也在下半年呈爆發式涌現;2024年,AI應用的顆粒度正在進一步細化,關注點和效用也更實際,也正進一步走近垂直細分領域的價值實現。
對於大多數產業以及其中的企業來說,轉變技術範式、突破傳統模式發展是更現實的挑戰,以AI賦能現有的技術、業務,是最現實的命題,也是最具效率、落地速度最快的路徑。
但不同於從傳統產業中誕生的創新,AI時代的新創業者天生就是原住民,他們對新技術的理解、應用和探索得心應手,天然使用AI思維構建應用的模式。
人們對“AI原生”充滿好奇,不僅是想了解其全新模式內涵,也想知道下一個風口將從哪裡發起。本刊將定期彙總盤點國內外最新的AI原生應用,希望爲讀者提供創新發展趨勢的信息和思考。
多模態生成式AI競賽進行中
從2023年國內妙鴨相機爆火,到2024年初Sora引爆全球,AGI所能呈現的內容深度正在迅速下潛。
《福布斯》雜誌對2024年AI領域關鍵創新的預測之一就是多模態生成式AI,稱此類系統能處理文本、聲音、旋律和視覺信號等各種輸入信息,並將其融合起來進行綜合理解。隨着多模態技術的不斷髮展,AI模型將迎接更加複雜多樣化的交互場景,有望在智能家居、智慧城市、醫療診斷、自動駕駛等領域打開全新的應用空間。
視頻生成
Sora發佈被認爲是AGI實現過程裡的重大里程碑事件,而不僅僅只是視頻生成技術的突破。它對語言的理解也達到了一個新的層級,使其能夠準確地理解提示詞,並生成表達充滿活力的情感的視頻。它建立在過去對DALL·E和GPT模型的綜合研究之上,提出了一種新的模型可能,不僅可以理解用戶在提示中提出的要求,還能理解物理世界的存在方式。
在AI巨頭OpenAI入局之前,創業企業Runway和Pika被認爲是這一賽道的佼佼者。
Pika Labs成立於2023年4月,同年11月發佈首個產品Pika1.0,能夠生成和編輯3D動畫、動漫、卡通和電影,並且普通用戶還可以對其進行加工,被視爲一款零門檻“視頻生成神器”。這支最初由4個人組建的團隊,融資超過5500萬美元,幾乎所有AI領域的知名早期投資公司都參與了此輪融資。而就在Pika1.0發佈纔過去四個月不到,同賽道的Sora的橫空出世,在AI視頻生成這條路上,又增加了很多變數和可能性。
Pika創始人郭文景在與鈦媒體創始人趙何娟的對話中提到,目前生成式視頻發展的一個重要限制是算法的成熟度,這也是Pika的核心主攻方向。“我覺得視頻跟語言模型不太一樣,關於語言模型大家已經知道大概的方法,算法其實已經比較成熟了。但視頻現在沒有很好的算法,它不是一個規模化的問題,不是說現在大家的GPU不夠多,很多時候其實是算法上還沒有很好的一個思路。”郭文景說。
3月份,Pika對超級合作者(Super Collaborator)和Pro用戶開放測試了一項新功能:Sound Effects,聲稱可以給視頻無縫生成音效。生成的方式有兩種:提供Prompt或直接讓Pika根據視頻內容自動生成。Pika還沒有公開Sound Effects背後的原理,此前Sora大火之後,語音初創公司Eleven Labs就出過類似的配音功能。
另一家獨角獸Runway成立於2018年,是一家AI視頻編輯軟件提供商,主要爲設計師、藝術家和開發人員提供一系列的工具和平臺,產品是幫助專業人士生成各種內容。Runway創業之初的產品形態是一個關於機器學習模型的應用商店。隨後公司基於AI算法,不斷開發新的模型框架。2021年公司與慕尼黑大學、海德堡大學等共同發表《High-Resolution Image Synthesis with Latent Diffusion Models》;2022年,公司構建了Stable Diffusion的原始版本,並將該技術集成進設計軟件的功能中。2023年2月6日,Runway發佈了Gen-1,可以通過文本提示或參考其他圖像中的風格,對原視頻進行編輯,即在原視頻的基礎上生成新的視頻(Video to Video)。隨後三個月內,再次推出了Gen-2,支持由文字生成視頻。用戶可以輸入原創的文本提示,或者根據系統提供的自動提示建議進行視頻生成。Gen-2還支持高級設置優化,用戶可以在網頁上微調生成的視頻。
2024年3月,以色列初創公司Lightricks也發佈了一款AI驅動的電影生成和剪輯軟件——LTX Studio。只要通過文字,它就能直接生成複雜的劇情,包含語音、音效、視頻畫面。LTX Studio結合了多種AI技術,涵蓋了創作過程中的各個環節。其中,公司獨創的文生視頻模型——Long Animate Diff,能夠創作出幀數在16至64之間的視頻。此外,團隊還發布了另一款專門用於創作32幀視頻的模型。與Long Animate Diff相比,它在視頻質量上通常有更出色的表現。不過,對於背景音樂,公司選擇了第三方的音樂資產供應商,因爲他們認爲目前的AI技術還無法創作出符合要求的背景音樂質量。
在國內,愛詩科技PixVerseAI能接受包括圖像、文本和音頻在內的多種數據源作爲輸入,基於這些輸入生成連貫、逼真的視頻內容;該平臺能在較短時間內將用戶提供的素材轉化成視頻,極大提高了視頻製作的效率;且生成的視頻不僅侷限於簡單的轉譯,還能具有較高的藝術性和創造性,適合用於製作營銷視頻、社交媒體內容、教育材料等多種應用場景;用戶可以根據自身需求對生成的視頻進行一定程度的個性化設置和調整。
音頻生成
在Suno之前,已經有不少企業推出過AI音樂生成器,比如Adobe的Project Music GenAI,YouTube的Dream Track和Voicify AI(現在的Jammable),但只有Suno被稱爲“音樂界的ChatGPT”。其與衆不同之處在於,Suno可以根據簡單的提示創建從歌詞到人聲和配器的所有內容。
目前,SunoV3在以下幾個方面具有顯著優勢:更好的音頻質量;更多樣化的風格和流派;更強的提示遵從性,包括更少的幻覺和更優雅的結局。
通過SunoV3,用戶現在可以使用免費賬戶創建兩分鐘時長的完整歌曲,具體效果取決於自己選擇的流派。Suno團隊還表示,V4已經在開發之中,並將推出一些令人興奮的新功能。
值得注意的是,Suno並未公佈過任何訓練細節。Suno首席執行官兼聯合創始人Mikey Shulman在採訪中表示:“並非所有音頻都是通過Transformer完成的,有很多音頻是通過擴散完成的,這兩種方法各有利弊。”
圖像與文本生成
2023年7月,妙鴨相機憑藉其AI圖像生成技術,在市場上迅速走紅。用戶通過上傳一定數量的照片,就可以通過妙鴨相機AI技術生成高質量的多樣化風格寫真照片。FaceChain/FaceChain-FACT算法使得妙鴨相機生成的圖片面部表情自然、細節豐富。此外,其還具備AI修圖、數字分身創建、模板選擇等能力。
在圖片生成之上再加入情節故事,童語故事(ImageStory)是國內首個AIGC的兒童繪本產品,用戶可以在小程序裡創建數字分身,爲孩子定製特定主題的童話繪本和短視頻故事。
童語故事生成式繪本的兩大基礎要素是文字和圖片,與此對應,童語故事選用了通義千問和通義萬相來打造這兩項基礎能力。文字方面,文字生成的核心是通義千問的深度學習模型。在“童語故事”小程序上生成AI Story只需要三步:第一步,選擇故事角色。用戶可以定製自己喜歡的IP角色,也可以上傳照片創作自己的數字分身。第二步,輸入故事主題思想。用戶如果沒有靈感可以選擇“創作靈感”和“隨機一個”,“童語故事”提供了20個睡前故事和育兒故事。第三步,選擇朗讀音色、畫面風格和字數。朗讀音色提供多種風格、不同年齡聲音,畫面風格包括扁平插畫、油畫、寫真等10種供用戶選擇。設置故事字數和段落/圖片數,多情景故事還支持自動分集,以及用合集來生成。簡單設置完成後,點擊“立即製作”即可。
上線數月以來,“童語故事”得到了消費者的喜愛,更得到了影視公司、出版社、專業兒童作家、電商平臺的認可“,童語故事”的MAU(Monthly Active Use,月活用戶)漲到了50萬,微信小程序用戶平均停留時間達到8-15分鐘,這樣的用戶時長在“AI Story”賽道已經排得上全球前三。
將文生圖的創意進一步專業化,供春AI是紫砂壺行業內第一家AIGC輔助設計工具。這一小衆行業有方言、圈子和文化等地域壁壘,且紫砂設計需要師傅的認可,並且大部分AI設計圖師傅會在落地過程中主動微調(AI設計出來的紫砂壺大部分需要人工調整),屬於細分行業領域,市場上通用的大模型反而不適合對接(設計出來的圖大部分不可用),需要基於小靈快和開源的模型做持續的訓練。
目前供春AI已經成爲傳統工藝美術從業者的好助手,其產出的每30~50張圖中大約有1張是可以被資深工藝美術師認可的,已有2000多位工藝美術從業者使用供春AI設計紫砂壺。通過AIGC作爲輔助工具,工藝美術師製作的工藝品已經落地100多件。從商業模式上,供春AI有一定的可複製性,目前供春AI已在其他陶瓷產區進行陶瓷藝術設計的推廣複製。
“助手”新形態:AI Agent 快速演進
人工智能領域著名學者、斯坦福大學教授吳恩達指出:AI智能體工作流(AI Agentic Workflows)將在今年推動人工智能取得巨大進步,甚至可能超過下一代基礎模型。他呼籲所有從事人工智能工作的人都關注AI智能體工作流。
初創企業Cognition AI近期公佈了全球首個AI軟件工程師Devin。在宣傳中,Devin能夠將用戶的提示詞直接轉化爲網站或者電子遊戲。它能自主下載代碼、搭建環境、執行代碼、修復bug並完成任務,而且完成這些端到端的任務只需一個指令。
在SWE-bench基準測試中,Devin能夠解決13.86%的問題,而GPT-4僅能處理1.74%的問題。更重要的是,Devin無需人工干預,而GPT-4則需要人工提示指定處理文件。
Devin一經發布,便引爆了整個科技圈,但在此之前絕大多數人可能根本沒聽過這家公司,畢竟他們在發佈兩個月前才真正在公衆面前亮相。這家僅有10名員工的公司,從Peter Thiel的風險投資公司Founders Fund及其他資方(包括前Twitter高管Elad Gil)處成功籌集到2100萬美元。這些投資方所看中的,正是Cognition AI的創始團隊及其主要成果Devin。
Cognition AI在設計Devin時的一大亮點,就是該公司在計算機推理能力方面取得了突破。從AI的角度來講,推理意味着系統不僅能夠預測句子中的下一個單詞或者一行代碼中的下一片段,更能夠以近似人類的方式思考並找到合理的問題解決方法。AI Land認爲推理是驅動行業發展的下一波大勢,不少初創企業也都在着力展示自己在這方面的技術能力。
不同於現有其他AI助手,Devin不僅能夠提供編碼建議並自動完成部分任務,甚至可以獨自承擔並完成整個軟件開發流程。其使用方式也相當簡單,只需提交一項任務——比如創建一個網站,展示悉尼市所有意大利餐廳的地圖——該軟件就會執行搜索來查找餐廳、獲取相應地址與聯繫信息,而後構建併發布顯示信息的站點。在運行期間,Devin還會列出它正在執行的所有任務,甚至在編寫代碼時持續測試,自行查找並修復bug。
總體而言,Devin可以規劃和執行需要數千個決策的複雜工程任務。Devin可以回憶每一步的相關背景,隨着時間的推移學習並修復錯誤。
研發團隊還爲Devin配備了常見的開發人員工具,包括沙盒計算環境中的Shell、代碼編輯器和瀏覽器,以及人類開發者完成工作時所需的一切其他工具。最後,研發團隊還賦予了Devin與用戶積極協作的能力。Devin能夠實時報告協作進展,接受反饋,並根據需要與用戶一起進行設計選擇。
Cognition AI在如此短的時間內取得重大突破的方式仍然是個未解之謎,其CEO Scott Wu拒絕透露太多關於該技術的底層細節,只表示他的團隊找到了將OpenAIGPT-4等大語言模型(LLM)與強化學習技術相結合的獨特方法。
Cognition AI公司並不是唯一一家致力於構建AI編碼工具的企業。
今年2月份,初創公司Magic AI陸續獲得了谷歌母公司Alphabet旗下的Capita lG領投的2800萬美元,以及GitHub前CEO Nat Friedman和他的投資合夥人Daniel Gross投資的1.17億美元資金。
Magic AI私下宣稱其能夠實現類似於OpenAI去年開發的“Q算法”的主動推理能力,稱它開發的新型大語言模型更接近於人類的思維方式,能實現全自動化編程,打破現有的半自動化代碼編寫。類似於一個真正的編程人員。不過,Magic AI選擇從零開始設計自己的模型和其他底層技術,希望藉此保障業務獨立性。這家初創公司尚未對外展示其AI系統。
國內,除了大廠紛紛推出Agent產品,這一賽道也涌現了大批創業企業,並與各行業快速融合落地。
例如,實在智能在2023年8月份發佈了自研垂直“塔斯(TARS)大語言模型”,基於此結合RPA與AI Agent,即插即用的產品級TARS-RPA-Agent由此誕生;瀾碼科技在2023年12月20日正式發佈的AskXBOT平臺,是其自主研發基於LLM的Agent智能體與工作流設計、開發、使用、管理、知識沉澱的一站式平臺;智譜AI今年1月份發佈了第四代多模態基座大模型GLM-4系列,並上線了全新GLM-4的All Tools(所有工具)、GLMs個性化智能體定製能力......
結語
通過上述熱點AI應用創新項目,我們可以看到新技術的突破方向,也發現基於生成式AI迸發出的全新商業前景落地的可能性。
但一個現實的問題是:這些應用和企業是曇花一現,還是會持續繁榮?
紅杉資本在《Generative AI’s Act Two》中指出,目前生成式AI應用的最大問題,是需要證明自身的價值,因爲目前以基礎大模型爲先的應用用戶留存率明顯不夠。當前頭部App消費級公司,第一個月的用戶留存率能達到60%~65%,高的甚至能達85%。生成式AI應用的用戶留存率,中位值只有14%。這意味着,用戶還沒有在生成式AI產品中找到足夠價值,能夠每天都使用。因此,如果開發者想要建立起持久的業務,就需要解決用戶留存問題。因此,生成式AI真正的商業價值還在於各種應用場景的發掘。
此外,不僅是應用自身的價值,當前很多AI創業企業的競爭力嚴重依賴核心創始團隊,也由此造成了公司運營、業務持續等方面極大的不穩定性,很多公司還沒有出現可持續的商業模式就已經要化爲泡沫。
2024年3月23日,Stability AI的CEO宣佈辭職,這家公司培育出的Stable Diffusion開源文生圖大模型在業內頗具影響力。而在 CEO 辭職之前,媒體稱曾參與開發 Stable Diffusion 模型的幾位關鍵開發人員都已經離開了。據報道,Stability AI 資金耗盡,無法支付訓練大模型所需的 GPU 集羣費用,外界普遍認爲這家公司將面臨破產。
早在2022年就推出了AI助手ACT-1的Adept團隊中兩位聯合創始人離開後創立了自己的創業公司Essential AI。
另一家AI獨角獸公司Inflection AI也岌岌可危,在2023年6月底,這家公司宣佈融資13億美元,估值達到40億美元,成爲僅次於OpenAI和Anthropic的全球第三大生成式AI獨角獸。但今年三位創始人中的兩位都投奔微軟成立新的公司。這些創業公司的發展與此前OpenAI的“宮鬥”和幾乎重新自立門戶的經歷也很像。
AI時代的創新巨輪纔剛剛開始轉動,技術成熟度曲線下AI創新將走出怎樣的週期,我們持續關注。
本文根據公開信息綜述,部分內容選自以下文章:
1.Sora發佈後,Pika創始人獨家迴應鈦媒體:很振奮,我們將直接衝
2.90後華人團隊真來砸程序員飯碗了!推出全球首個AI超級工程師:擁有全棧技能,一個指令就能完成整個開發過程
3.2024年,中國AI應用「大盤點」|產業AI4.紅杉資本:生成式AI的第二幕
5.詞曲創作只需幾秒,「AI作曲家」Suno引爆音樂圈,第一手體驗和攻略來了
6.中泰證券《AI生成視頻專題報告:Runway基礎模型快速迭代,視頻生成領域的先行者》
7.AI版西遊記震撼百萬網友!AI電影顛覆好萊塢,手把手打造爆款視頻
本文摘自《雲棲戰略參考》總第16期
掃碼限時申領紙質版