文生圖模型又“卷”起來了!比 Stable Diffusion 中文理解能力更強、更懂國人的文生圖模型是如何構建的?

嘉賓 | 趙增博士

作者 | 凌敏

宋徽宗趙佶曾創作過一幅名爲《蠟梅山禽圖軸》的畫作,併爲該畫題了一首詩:“山禽矜逸態,梅粉弄輕柔,已有丹青約,千秋指白頭。”講述的是一對白頭翁立於這丹青筆墨的虛空中,沒有風,沒有陰影,沒有俗世喧囂、紅塵侵染,一千年恩愛如初,一千年只不過黯淡些羽毛上的墨色,藝術比生命更長久。

以此詩爲靈感,本站集團高級副總裁胡志鵬給本站伏羲自研文生圖模型取名爲“丹青”,依託於該模型之上構建的 AIGC 平臺名爲“丹青約”。

丹青模型基於原生中文語料數據及本站自有高質量圖片數據訓練,與其他文生圖模型相比,丹青模型的差異化優勢在於對中文的理解能力更強,對中華傳統美食、成語、俗語、詩句的理解和生成更爲準確。比如,丹青模型生成的圖片中,魚香肉絲沒有魚,紅燒獅子頭沒有獅子。基於對中文場景的理解,丹青模型生成的圖片更具東方美學,能生成“飛流直下三千尺”的水墨畫,也能生成符合東方審美的古典美人。

丹青模型生成的圖片

近日,InfoQ 採訪到了本站伏羲預訓練及生成式人工智能平臺負責人趙增博士,進一步瞭解丹青模型的構建思路。本站伏羲成立於 2017 年,主要研究方向爲強化學習、自然語言、用戶畫像,視覺計算,虛擬人等,技術應用智能捏臉、反外掛、智能 NPC、對戰匹配、競技機器人、人機協作、數字孿生等多個方向,團隊已在世界頂級學術會議發表論之 200 餘篇,申請發明專利 550 餘項。

1 文生圖模型“卷”起來了

2022 年被稱爲 AIGC(生成式人工智能)的元年。

這一年,Stable Diffusion 正式開源,並掀起了文生圖模型的熱潮;這一年,ChatGPT 火遍全球,成爲現象級應用。在年末 Science 雜誌發佈的 2022 年度科學十大突破中,AIGC 作爲人工智能領域的重要突破赫然在列。

進入 2023 年,AIGC 技術助推出新的人工智能浪潮,AI 大模型的創新應用按下加速鍵。而其中,文生圖仍是大模型最火熱的應用領域之一,國內外發布的文生圖模型數量不斷攀升。越來越“卷”的文生圖模型們,正促進模型生成效果和效率邁上新臺階。

“在過去的半年裡,我深刻地感受到了 AIGC 技術的飛速發展。整體來看,去年整個行業和技術相對來說不如今年活躍。今年以來,行業和社會都開始更加關注 AIGC 的發展,AIGC 技術發展速度驚人。”

趙增在接受 InfoQ 採訪時表示,AIGC 技術的飛速發展使得文生圖模型不斷實現更加良好的生成效果,與此同時,以 Stable Diffusion 爲代表的開源項目空前活躍,很多沒有強大 AI 背景的開發者也能夠基於開源生態做出優秀的 AI 模型。“這對我們產生了很大的衝擊,我們需要重新審視自身的工作路徑,並考慮如何與有志於參與模型建設的行業夥伴建立關係。同時,我們也要考慮如何支持內部同事,尤其是那些掌握了一定 AI 生產能力的美術同事們,幫助他們更好地利用 AIGC 技術,以提升他們的工作效率和質量。”

2 如何構建更懂中文的文生圖模型?

據瞭解,本站伏羲從 2018 年開始關注 AIGC 技術在產品中的應用可能性,不斷嘗試將其應用於實際場景。

2018 年,GPT 橫空出世,其強大的生成效果令人印象深刻。在胡志鵬的推動下,本站伏羲開始嘗試在遊戲中使用 AIGC 技術,推出一些互動玩法。比如,在《遇見逆水寒》遊戲中,本站伏羲引入了一個文字生成類的玩法——傀儡戲。

在這個玩法中,玩家可以扮演劇情角色,通過聊天的方式,與 AI 共同創作劇本,共同協作達成一些目標。這也是國內首個將 AI 接入遊戲中,與玩家共同創作劇本的玩法。2019 年,本站伏羲嘗試將這一設計正式大規模上線,並在訓練應用、工程加速等多個方面進行直接探索。

與其他 AI 研究機構相比,本站伏羲的優勢在於能夠快速在產品中驗證 AI 技術,根據實際應用效果不斷迭代優化。趙增表示,本站有多款產品,可以通過類似“實驗田”的方式驗證 AI 產品在遊戲或其他產品中的可行性,“這也是本站的一個良好機制,可以快速驗證和實現 AI 的應用。”

2021 年,本站伏羲正式啓動大規模預訓練研發項目,並得到了浙江省政府的支持。根據項目規劃,本站伏羲計劃開發文本、圖像、音樂等一系列 AI 大模型。在與本站集團多個業務的專家交流後,本站伏羲判斷多模態將是未來發展趨勢,決定優先專注多模態相關的工作,如文本到圖像、文本到音樂、圖像到音樂的理解和生成。

文生圖模型丹青正是其中的主要工作之一。2022 年上半年,本站伏羲開始啓動丹青模型的各項工作,該模型基於原生中文語料數據及本站自有高質量圖片數據訓練,100% 自研。

“生產好的內容之前,需要先理解好的內容”

在丹青模型出現以前,國內外已有多個文生圖模型,隨着去年 Stable Diffusion 的開源,文生圖模型數量激增,很多創業公司直接基於 Stable Diffusion 模型進行適配訓練和推理生成,並利用 API 的翻譯接口將中文的輸入轉化成英文,實現對中文用戶的支持。

不過,Stable Diffusion 使用的核心數據集是開放圖像 - 文本對數據集 LAION-5B,存在一些偏西方化的特點。比如,海外數據的內容組成大多由當地的人文地理、生活歷史構成,對中文語言、美食、文化、習俗缺乏理解,直接地英譯中可能引起語義的缺失,由此生成的圖片也容易引發爭議。像淮揚名菜“紅燒獅子頭”,一些模型會生成獅子頭的圖片;河北小吃驢肉火燒,也有模型直接生成一頭驢和一團火。

此外,海外數據集在合規性和安全性方面存在一定風險,比如,存在種族不平等、大量裸露、暴力等內容,直接將這些數據模型用於國內的生產,存在巨大的隱患。

“本站伏羲的觀點是,生產好的內容之前,需要先理解好的內容。”趙增認爲,Stable Diffusion 的確給文生圖模型領域帶來了一些參考和啓示,但 Stable Diffusion 在很大程度上仍是“黑盒”,如果在其基礎上進行修改,對模型的優化和控制力是相對有限的。做文生圖模型,如果只是簡單的重複並無意義,需要走出自己的一條路子。

具體來說,本站伏羲的關注點主要有三大方面:

第一,本站伏羲需要構建的是一個對中文領域以及中文的藝術知識有更深理解的生成模型,滿足國內用戶的使用需求。

第二,從技術的可控性、安全性和規則性出發,需要打造一個完全開放的基礎模型,知道它是如何構建和運作的,以及如何對其進行優化,而不是始終等待別人開源新版本。

第三,AIGC 並不代表只是大模型,大模型只是其中的重要環節,要真正將生成的內容用於生產,還需要做很多大模型以外的工作。比如建立生產管線,將專家及 AI 能力整合起來,提供專業化解決方案。

基於這一認識,本站伏羲選擇兼容開源數據的同時,又分爲四步推進丹青模型的研發工作:建設高質量的大規模中文數據集;構建中文領域的優質理解模型;基於數據集和理解模型重構圖文生成算法,做到語義的有效提升;引入專家和人類的反饋,引導模型生成用戶更加需要的高質量內容。

數據集方面,本站伏羲聯合本站多個部門,包括本站雷火、傳媒、雲音樂等核心業務,從用戶和業務維度提供對數據的理解和需求,完成對於優質數據的定義,建設包括文本質量、圖像美觀度、版權合規性以及倫理評估等評價標準。以此框架作爲約束共同推進數據構建,同時設計了一套基於分佈式任務的數據可信系統,各專家團隊各自提供數據質量評審模型,完成共同打分後再交由數據治理引擎統一管理。

大模型方面,本站伏羲自主研發了中文文本預訓練大模型系列“玉言”,“玉言”先後登頂知名中文榜單 FewCLUE 和 CLUE 分類榜單,在多項任務上超過人類水平。在文本理解的基礎上,本站伏羲自 2021 年起着力打造“玉知”多模態圖文理解大模型,採用圖片 - 文本雙塔結構和模塊化的訓練思想,基於億級別的中文圖文數據對,先後迭代了三種規格的模型版本。

基於數據集和理解模型,本站伏羲對圖文生成算法進行重構,依託於擴散模型的原理,在廣泛的(8 億)圖文數據上訓練以達到較好的生成結果。具體來說,丹青模型側重文本與圖片的交互,強化了在文圖引導部分的參數作用,能夠讓文本更好地引導圖片的生成,因此生成的結果也更加貼近用戶意圖。同時,丹青模型進行了圖片多尺度的訓練,充分考慮圖片的不同尺寸和清晰度問題,將不同尺寸和分辨率的圖片進行分桶。在充分保證訓練圖片訓練的不失真的前提下,保留儘可能多的信息,適應不同分辨率的生成。

在數據策略方面,丹青模型在初始階段使用億級別的廣泛分佈的數據,不僅在語義理解上具有廣泛性,可以很好地理解一些成語、古文詩句,在生成的畫風上也具有多樣性,可以生成多種風格。在之後的階段,丹青模型分別從圖文關聯度、圖片清晰度、圖片美觀度等多個層面進行數據篩選,以優化生成能力,生成高質量圖片。

此外,丹青模型在訓練和生成階段還引入了人工反饋。在訓練階段,人工從多個維度的評估,篩選出來大批高質量圖文匹配、高美觀度數據,以補足自動流程缺失能力,幫助基礎模型獲得更好的效果;在生成階段,人工對模型的語義生成能力和圖片美觀度進行評分,篩選出大批量優質生成的結果,引入模型當做正反饋,實現數據閉環。

丹青約背後的東方美學

丹青模型是底層基礎,在實際場景中進行應用需要依賴於上層平臺的建設。依託于丹青模型,本站伏羲和雷火藝術中心聯合研發了 AI 繪畫平臺“丹青約”。

在趙增看來,丹青約的優勢在於對中文和美的理解,依賴於較強的中文理解能力,以及對美學的專業理解,丹青約創作出的作品更能滿足中式審美。“我們會請一些美術專家對模型進行把控。目前來看,國內具備美術專家羣體的 AI 機構寥寥無幾,本站在這一領域具有顯著優勢,我們知道什麼樣的模型生成內容更符合大家的審美需求。”

比如,雷火藝術中心會派遣藝術家前來指導,從藝術的角度對生成圖片效果、插件、版本給予專業意見。丹青約也會爲藝術家提供定製化的生成工具,及時獲取藝術家們的反饋意見,進一步迭代優化。

此外,丹青約還充分結合了本站遊戲美術設計的工作流,無論是生成圖片的美觀度,還是滿足高質量要求的圖片生產(如原畫、美術資產等),都做了深入的探索和研發,並且支持用戶跨文字、圖片等多模態給予多輪修改建議,直到生成滿意的圖片效果。

丹青模型生成的“天空之城”

目前,本站伏羲正在推進丹青約的建設,並攜手本站集團內部生態共同參與藝術風格和算法模型的設計和訓練。此外,本站伏羲還積極推動將 AI 技術應用於企業美術資產的生產創作流程中。即將上線的本站伏羲有靈美術平臺集成了丹青約等多種美術工具,涵蓋了美術資產製作、工具管理、審覈驗收等生產全鏈路功能,大幅提升了美術創作的生產效率,爲藝術家們提供了更加靈活的生產力工具。

“大模型業務不僅包括模型算法本身,還需要一個非常完善的數據計算和人工智能系統支撐。我們系統地從多個方面來建設大模型能力,以滿足實際應用需求,並不斷持續關注和發展大模型技術。”趙增說道。

3 文生圖模型如何應對版權爭議?

文生圖作爲大模型最火熱的應用領域之一,近幾年取得了突破性的進展,併成功在多個領域落地應用。與熱度隨之而來的也有爭議,其中,最大爭議點在於版權。

今年 1 月份,三位藝術家曾對 Stable Diffusion 背後的公司 Stability AI,AI 繪畫工具 Midjourney,以及藝術家作品集平臺 DeviantArt 提起訴訟,稱這些組織通過在“未經原作者同意的情況下”從網絡上獲取的 50 億張圖像來訓練其人工智能,侵犯了“數百萬藝術家”的權利。

該案的代理律師 Matthew Butterick 指出,從法律的角度來看,幾乎沒有藝術家明確同意他們的作品用於訓練 AI 系統。即使系統生成的圖像作爲原始圖像傳遞,生成系統仍將基於未經授權的數據。“因爲系統中的所有視覺信息都來自受版權保護的培訓圖像,所以產生的圖像無論外觀如何,必然是從這些訓練圖像中衍生出來的。”

版權爭議是文生圖模型繼續向前發展必須解決的問題。趙增認爲,能夠真正訓練好 AI 模型並使其發揮作用的並不是技術人員,而是具有行業需求和美術能力的專家。“我們需要聚集這些專家,讓專家們圍繞這個生態進行創作。必須考慮到專家的版權和原始利益,否則整個生態無法運轉。”

在版權問題上,目前本站伏羲團隊正與本站區塊鏈團隊搭建相關平臺,通過區塊鏈和 Web3.0 的模式,將大家在整個生產鏈路過程中的貢獻記錄下來。例如,有人提供了原始訓練圖片,有人提供模型,有人提供創意,將這些生產日誌記錄下來,並通過回報分配的方式儘可能給予大家相對公平的激勵。“這是我們現在非常明確要做的非常重要的事情。但是這個事情比較新,我們目前還在與本站的區塊鏈團隊搭建平臺,並在內部進行驗證。”

4 寫在最後

目前,丹青模型還在持續的迭代優化中,團隊的短期目標是將丹青模型打造成一個更完善的產品。“我們正在努力提升大模型的效果,包括豐富其知識和提高生成的穩定性。其中,豐富知識是指對一些特定領域的理解,例如對於中國傳統文化或海外知識的掌握。當我們需要生成一箇中國古代建築或榫卯結構的建築時,我相信許多模型缺乏相關的知識。此外,我們的模型對於海外支持相對較弱,這也是需要進一步提升的地方。”趙增表示,除了將基礎生成模型發展爲一個更完善的產品,本站伏羲還希望構建一條更高效的生成圖片的路徑,以幫助美術專家進行創作。這涉及到多個模型能力的整合和閉環學習系統的建設,“這些都是我們接下來的重點努力方向”。

在技術之外,開源生態同樣值得關注。“今年以來出現了很多基於開源生態的大模型,包括圖文、文本等。未來基於這些開源生態,工具和模型的版本迭代一定會發生非常有趣的變化,這個可能是我們現在都想象不到的。因此,我們需要保持關注並適應這些變化。”趙增說道。

採訪嘉賓

趙增,計算機博士,本站人工智能專家,預訓練及生成式人工智能平臺負責人、計算效能部門負責人。本站集團技術委員會機器學習分委會、音視頻分委會委員。研究領域包括大規模人工智能系統、生成式預訓練及基礎算法優化。浙江省重點研發項目 - 超大規模預訓練雲平臺主要研發人員,組織多項超大規模預訓練模型研製及平臺示範工作,參與申請發明專利近 30 項、高質量論文 5 篇。主導研發人工智能平臺“丹爐”,日調用量超百億次。曾參與國產芯片基礎數學庫優化、國產萬億高性能集羣、“十四五”數字人等多個國家、省部級重點研發計劃。

內容推薦

本期《中國卓越技術團隊訪談錄》深入採訪了騰訊、本站伏羲、阿里雲、QQ 等技術團隊,呈現了這些團隊在向量數據庫、大模型、前端和研效等方面的技術落地、產品演進和團隊建設等方面的多年實踐經驗和相關心得體會。識別下圖二維碼或點擊閱讀原文,立即查看全部內容!