豆包生成漢字,不是神秘的技術,而是好產品
頭圖由豆包生成 提示詞: 大家喜歡拍照打卡的那種路牌,上面寫着“我在硅星人很想你”。
作者 | Yoky郵箱 | yokyliu@pingwest.com
爲了一張帶中文的AI海報,設計圈最近有點躁動。
在此之前,設計師們或許並不把AI生圖當回事。畢竟Midjourney和Stable Diffusion雖然能畫出精美絕倫的畫面,但一碰到中文就歪歪扭扭、慘不忍睹。
12月初,豆包和即夢在移動端悄然上線了一項新功能:能夠生成帶有工整中文字體的圖片。一時間,朋友圈被各種AI製作的四格漫畫、產品海報、電影海報刷屏。
從前動輒幾百元一張的設計費,如今可能真的要被免費的豆包取代了?
硅星人經過多輪測試發現,雖然偶爾還會出現中文亂碼的情況,但在生成的四張圖中,至少有三張都能達到使用標準。這個成功率,已經遠超此前任何一款AI設計工具。
那麼問題來了:爲什麼此前AI難以實現可控的漢字生成?技術難點究竟在哪?豆包是如何攻克這些挑戰的?它背後的技術邏輯是什麼?
1
打通LLM和DIT
對於這個技術的實現過程,豆包團隊比較低調,他們表示:這次更新並不是什麼重大的技術突破,更多是在現有技術框架上的細節優化。
在爲數不多的公開資料中,豆包大模型團隊相關負責人簡要介紹了他們的技術方案:豆包文生圖模型通過打通LLM和DIT架構,具備更好的原生中文數據學習能力,並在此基礎上強化了漢字生成能力,大幅提升了生成效果。
在深入研究相關論文並諮詢多位算法工程師後,我們發現在當前AI技術發展的背景下,文字生成確實已經有了相當成熟的技術基礎。
早在豆包之前,斯坦福大學開發的ControlNet框架就實現了英文字海報的生成能力。今年2月,阿里通義團隊更是在魔搭平臺上線了功能更爲強大的AnyText模型,不僅支持中文、日文、韓文等多語言文字的生成,還能精確修改已有圖片中的文字內容。
從技術原理來看,這個突破並不令人意外。文字本質上也是一種特殊的圖形符號。如果DIT能夠準確生成一隻花瓶的圖像,那麼生成“花瓶”這兩個字在技術原理上並無本質區別。
關鍵在於如何讓系統理解和處理用戶的輸入需求。
這就是大語言模型(LLM)發揮作用的地方。當用戶輸入提示詞(Prompt)時,LLM需要準確解析內容,判斷哪些部分應該以圖像形式呈現,哪些部分需要直接生成文字。這個過程涉及複雜的語義理解和意圖識別。
也就是說,LLM負責深層語義理解和文本表達,確保準確理解用戶意圖;DIT則處理雙模態輸入和特徵交互,將語義信息轉化爲視覺呈現。兩個模型之間通過特徵融合實現無縫對接,完成從語義到視覺的精準映射。
當然,漢字相比於英文字符,其本身的複雜性更高。難度具體體現在這幾個方面:大多數生成模型使用英文數據集做理解訓練,缺乏中文語料;英文只有26個字母,而中文字符有數萬個,且結構、筆畫、字體複雜;其次是中文排版有獨特的規則和美學要求,橫豎排又需要靈活變化,來保證整體的視覺效果。
即便排除了國外模型“水土不服”的因素,國內的AI模型在處理中文生成時也常常面臨精確度不足的問題。生成出的漢字可能筆畫殘缺、結構變形,或者在排版上顯得生硬呆板,缺乏自然美感。這也解釋了爲什麼真正實現高質量的中文生成,需要在技術細節上作出大量優化和改進。
精準的保證可控和一致性,纔是技術上的一個難題。從目前的技術發展來看,已經形成了幾種不同的解決方案。
豆包團隊選擇了優化現有框架的路徑。比如豆包在ECCV中發佈了新的ControlNet++框架,主要解決了傳統ControlNet在條件控制一致性方面的不足。
他們提出了一個高效的獎勵策略:通過對輸入圖像添加噪聲來擾動一致性,並採用單步去噪圖像進行獎勵微調。這種方案巧妙地避免了多步採樣帶來的時間和內存開銷,在技術指標上取得了顯著提升:準確性提高11.1%,結構相似性提升13.4%,誤差值降低7.6%。
而阿里通義團隊則採取了一種更爲傳統但同樣有效的方案。他們沒有依賴大語言模型,而是基於OCR技術構建了名爲AnyWord-3M的龐大數據集,包含超過300萬張圖片、900萬行文字、2000萬個字符。通過嚴格的數據篩選和精細的後處理,同樣實現了高質量的文字生成和修改功能。
總的來說,精確生成漢字並非只有單一解決方案,技術上正在推進接近100%精準度。
1
重點在於“可商用”
此前在技術層面實現的中文文字生成能力,都並未在市場上引起太大波瀾。
當我們將豆包生成的海報與此前的作品進行對比,最顯著的差異並非技術水平,而在於是否可商用。這種差異背後,是結合了字節對市場需求和商業環境判斷後的結果。
AnyText演示效果
在中國的商業環境中,字體版權保護已經形成了一個相對成熟的生態體系。主流商業字體庫普遍採用付費授權模式,這使得AI字體生成技術在商業化過程中必須格外謹慎。從訓練數據的來源合規性,到生成結果的版權審覈,再到可能的侵權風險評估,每一個環節都需要嚴格把控。
一位資深算法工程師對我們分析道:“技術實現其實並不是最大的挑戰。真正的難點在於如何確保整個生成過程符合版權法規,如何避免潛在的侵權風險。這需要我們在技術實現的基礎上,建立一整套完善的版權管理機制。需要平衡技術創新與版權保護、商業利益與法律合規、市場推廣與風險控制等方面。”
雖然市面上確實存在一些免費字體庫,但與龐大的商業字體體系相比,這些免費資源只是一小部分。更關鍵的是,在追求精緻視覺效果的商業設計領域,免費字體往往難以滿足專業需求。
如果僅僅依靠免費字體資源進行訓練,很難達到市場對視覺美感的嚴苛要求;而如果要獲取優質的商業字體資源,則必須面對複雜的版權問題和高昂的授權成本。這也是爲什麼即便技術本身並不複雜,但真實的落地情況卻沒有遍地開花。
一位數據源供應商分析到:“看AnyText的生成結果,就能感受到數據集中大部分都是免費字體庫,OCR識別的圖集可能也是公用數據,而豆包的生成結果有很多商業字體甚至是設計師自創的字體,這種數據源的差異,直接決定了最終產品的美感和商業價值。”
然而,更深層的區別在於產品定位。AnyText作爲一款模型插件,與豆包這樣深度整合在移動端的產品相比,在使用場景和用戶體驗上存在天然差異。當我們追問爲何國內鮮見類似產品時,一位算法工程師的反問令人深思:“國內有哪家是在認真做文生圖產品麼?”
確實,縱觀國內AI領域,專注於文生圖的獨立產品寥寥無幾。大多數企業將圖像生成視爲服務於視頻生成的過渡功能,或是更大生態中的一個組件。可圖被整合進可靈,即夢也在向視頻生成方向傾斜。
或許技術創新只是起點。一個功能的實現往往需要過硬的技術實力、清晰的產品定位、成熟的商業模式,能否找準市場需求、打磨產品體驗,往往成了比技術更關鍵的一塊拼圖。