4090筆記本0.37秒直出大片!英偉達聯手MIT清華祭出Sana架構,性能秒殺FLUX
新智元報道
編輯:桃子 好睏
【新智元導讀】一臺4090筆記本,秒生1K質量高清圖。英偉達聯合MIT清華團隊提出的Sana架構,得益於核心架構創新,具備了驚人的圖像生成速度,而且最高能實現4k分辨率。
一臺16GB的4090筆記本,僅需0.37秒,直接吐出1024×1024像素圖片。
如此神速AI生圖工具,竟是出自英偉達MIT清華全華人團隊之筆!
正如其名字一樣,Sana能以驚人速度合成高分辨率、高質量,且具有強文本-圖像對其能力的模型。
而且,它還能高效生成高達4096×4096像素的圖像。
項目主頁:https://nvlabs.github.io/Sana/
論文地址:https://arxiv.org/abs/2410.10629
Sana的核心設計包含了以下幾個要素:
深度壓縮自編碼器(AE):傳統自編碼器只能將圖像壓縮8倍,全新AE可將圖像壓縮32倍,有效減少了潛在token的數量。
線性DiT(Diffusion Transformer):用「線性注意力」替換了DiT中所有的普通注意力,在高分辨率下更加高效,且不會犧牲質量。
基於僅解碼器模型的文本編碼器:用現代的僅解碼器SLM替換T5作爲文本編碼器,並設計了複雜的人類指令,通過上下文學習來增強圖像-文本對齊。
高效的訓練和採樣:提出Flow-DPM-Solver來減少採樣步驟,並通過高效的標題標註和選擇來加速收斂。
基於以上的算法創新,相較於領先擴散模型Flux-12B,Sana-0.6B不僅參數小12倍,重要的是吞吐量飆升100倍。
以後,低成本的內容創作,Sana才堪稱這一領域的王者。
效果一覽
一隻賽博貓,和一個帶有「SANA」字樣的霓虹燈牌。
一位站在山頂上的巫師,在夜空中施展魔法,形成了由彩色能量組成的「NV」字樣。
在人物的生成方面,Sana對小女孩面部的描繪可以說是非常地細緻了。
下面來看個更復雜的:
一艘海盜船被困在宇宙漩渦星雲中,通過模擬宇宙海灘旋渦的特效引擎渲染,呈現出令人驚歎的立體光效。場景中瀰漫着壯麗的環境光和光污染,營造出電影般的氛圍。整幅作品採用新藝術風格,由藝術家SenseiJaye創作的插畫藝術,充滿精緻細節。
甚至,像下面這種超級複雜的提示,Sana也能get到其中的關鍵信息,並生成相應的元素和風格。
順便,團隊還給經典梗圖,生成了一個卡通版變體(右)。
設計細節
Sana的核心組件,已在開頭簡要給出介紹。接下來,將更進一步展開它們實現的細節。
模型架構的細節,如下表所示。
- 深度壓縮自編碼器
研究人員引入的全新自編碼器(AE),大幅將縮放因子提高至32倍。
過去,主流的AE將圖像的長度和寬度,只能壓縮8倍(AE-F8)。
與AE-F8相比,AE-F32輸出的潛在token數量減少了16倍,這對於高效訓練和生成超高分辨率圖像(如4K分辨率)至關重要。
- 高效線性DiT(Diffusion Transformer)
原始DiT的自注意力計算複雜度爲O(N²),在處理高分辨率圖像時呈二次增長。
線性DiT在此替換了傳統的二次注意力機制,將計算複雜度從O(N²)降低到O(N)。
與此同時,研究人員還提出了Mix-FFN,可以在多層感知器(MLP)中使用3×3深度卷積,增強了token的局部信息。
實驗結果顯示,線性注意力達到了與傳統注意力相當的結果,在4K圖像生成方面將延遲縮短了1.7倍。
此外,Mix-FFN無需位置編碼(NoPE)就能保持生成質量,成爲首個不使用位置嵌入的DiT。
- 基於僅解碼器「小語言模型」的文本編碼器
這裡,研究人員使用了Gemma(僅解碼器LLM)作爲文本編碼器,以增強對提示詞的理解和推理能力。
儘管T2I生成模型多年來取得了顯著進展,但大多數現有模型仍依賴CLIP或T5進行文本編碼,這些模型往往缺乏強大的文本理解和指令跟隨能力。
與CLIP或T5不同,Gemma提供了更優的文本理解和指令跟隨能力,由此解訓練了不穩定的問題。
他們還設計了複雜人類指令(CHI),來利用Gemma強大指令跟隨、上下文學習和推理能力,改善了圖像-文本對齊。
在速度相近的情況下,Gemma-2B模型比T5-large性能更好,與更大更慢的T5-XXL性能相當。
- 高效訓練和推理策略
另外,研究人員還提出了一套自動標註和訓練策略,以提高文本和圖像之間的一致性。
首先,對於每張圖像,利用多個視覺語言模型(VLM)生成重新描述。儘管這些VLM的能力各不相同,但它們的互補優勢提高了描述的多樣性。
此外,他們還提出了一種基於clipscore的訓練策略,根據概率動態選擇與圖像對應的多個描述中具有高clip分數的描述。
實驗表明,這種方法改善了訓練收斂和文本-圖像對齊能力。
此外,與廣泛使用的Flow-Euler-Solver相比,團隊提出的Flow-DPM-Solver將推理採樣步驟從28-50步顯著減少到14-20步,同時還能獲得更優的結果。
整體性能
如下表1中,將Sana與當前最先進的文本生成圖像擴散模型進行了比較。
對於512×512分辨率:- Sana-0.6的吞吐量比具有相似模型大小的PixArt-Σ快5倍- 在FID、Clip Score、GenEval和DPG-Bench等方面,Sana-0.6顯著優於PixArt-Σ
對於1024×1024分辨率:- Sana比大多數參數量少於3B的模型性能強得多- 在推理延遲方面表現尤爲出色
與最先進的大型模型FLUX-dev的比較:- 在DPG-Bench上,準確率相當- 在GenEval上,性能略低- 然而,Sana-0.6B的吞吐量快39倍,Sana-1.6B快23倍
Sana-0.6吞吐量,要比當前最先進4096x4096圖像生成方法Flux,快100倍。
而在1024×1024分辨率下,Sana的吞吐量要快40倍。
如下是,Sana-1.6B與其他模型可視化性能比較。很顯然,Sana模型生成速度更快,質量更高。
終端設備部署
爲了增強邊緣部署,研究人員使用8位整數對模型進行量化。
而且,他們還在CUDA C++中實現了W8A8 GEMM內核,並採用內核融合技術來減少不必要的激活加載和存儲帶來的開銷,從而提高整體性能。
如下表5所示,研究人員在消費級4090上部署優化前後模型的結果比較。
在生成1024x1024圖像方面,優化後模型實現了2.4倍加速,僅用0.37秒就生成了同等高質量圖像。
作者介紹
Enze Xie(謝恩澤)
共同一作Enze Xie是NVIDIA Research的高級研究科學家,隸屬於由麻省理工學院的Song Han教授領導的高效AI團隊。此前,曾在華爲諾亞方舟實驗室(香港)AI理論實驗室擔任高級研究員和生成式AI研究主管。
他於2022年在香港大學計算機科學系獲得博士學位,導師是Ping Luo教授,聯合導師是Wenping Wang教授。並於朋友Wenhai Wang密切合作。
在攻讀博士學習期間,他與阿德萊德大學的Chunhua Shen教授、加州理工學院的Anima Anandkumar教授以及多倫多大學的Sanja Fidler教授共事。同時,還與Facebook和NVIDIA等業界的多位研究人員進行了合作。
他的研究方向是高效的AIGC/LLM/VLM,並在實例級檢測和自監督/半監督/弱監督學習領域做了一些工作——開發了多個CV領域非常知名的算法,以及一個2000多星的自監督學習框架OpenSelfSup(現名爲mmselfsup)。
- PolarMask(CVPR 2020十大影響力論文排名第十)
- PVT(ICCV 2021十大影響力論文排名第二)
- SegFormer(NeurIPS 2021十大影響力論文排名第三)
- BEVFormer(ECCV 2022十大影響力論文排名第六)
Junsong Chen
共同一作Junsong Chen是NVIDIA Research的研究實習生,由Enze Xie博士和Song Han教授指導。同時,他也是大連理工大學IIAU實驗室的博士生,導師是Huchuan Lu教授。
他的研究領域是生成式AI和機器學習的交叉,特別是深度學習及其應用的算法與系統協同設計。
此前,他曾在香港大學擔任研究助理,由Ping Luo教授的指導。
Song Han(韓鬆)
Song Han是MIT電氣工程與計算機科學系的副教授。此前,他在斯坦福大學獲得博士學位。
他提出了包括剪枝和量化在內廣泛用於高效AI計算的「深度壓縮」技術,以及首次將權重稀疏性引入現代AI芯片的「高效推理引擎」——ISCA 50年曆史上引用次數最多的前五篇論文之一。
他開創了TinyML研究,將深度學習引入物聯網設備,實現邊緣學習。
他的團隊在硬件感知神經架構搜索方面的工作使用戶能夠設計、優化、縮小和部署 AI 模型到資源受限的硬件設備,在多個AI頂會的低功耗計算機視覺比賽中獲得第一名。
最近,團隊在大語言模型量化/加速(SmoothQuant、AWQ、StreamingLLM)方面的工作,有效提高了LLM推理的效率,並被NVIDIA TensorRT-LLM採用。
Song Han憑藉着在「深度壓縮」方面的貢獻獲得了ICLR和FPGA的最佳論文獎,並被MIT Technology Review評選爲「35歲以下科技創新35人」。與此同時,他在「加速機器學習的高效算法和硬件」方面的研究,則獲得了NSF CAREER獎、IEEE「AIs 10 to Watch: The Future of AI」獎和斯隆研究獎學金。
他是DeePhi(被AMD收購)的聯合創始人,也是OmniML(被NVIDIA收購)的聯合創始人。
參考資料:
https://nvlabs.github.io/Sana/
https://www.linkedin.com/feed/update/urn:li:activity:7251843706310275072/