0.8秒出圖！國產AI繪畫上演“速度與激情”！

2022-11-09 15:27:23來源：銀柿財經

秒速生圖火爆全網

(相關資料圖)

最近，在各大社交平臺上，一款叫作“盜夢師”的AI繪畫小程序火了。

具體火到什么程度呢？據以往團隊的采訪得知，9月產品剛上線一周時間，盜夢師便創造了日增5萬用戶的紀錄。

從Midjourney 到 Stable Diffusion，再到國內如雨后春筍般涌現的AI繪畫平臺，在使用方式上差異不大，均采用「以文生圖」的方式。「以文生圖」顧名思義就是只要你把想法、腦洞以文字輸入給AI，這些文字描述就會被算法驅動，變成一張張生動、精致的圖片。

而真正能讓盜夢師從眾多AI繪畫平臺中脫穎而出的，當屬其鮮明的技術優勢與舒適的產品體驗。

從輸入描述到輸出圖片，全程僅不到5秒，對比其他產品動輒幾十秒甚至幾分鐘的時間，可謂天壤之別。

同時還有多種繪畫風格、多圖批量輸出、多尺寸高分辨率、畫師參考等功能輔助用戶開展創作，使得整個繪畫過程更便捷、有趣和惠普。加之其免費的新手體驗，上線以來便在用戶間產生了良好的口碑。

最快，有多快

據了解，盜夢師由前谷歌人工智能研究院科學家、NLP自然語言處理領域預訓練語言模型“ALBERT”第一作者——藍振忠博士帶隊研發。

最終由西湖大學深度學習實驗室和西湖心辰科技有限公司（西湖大學深度學習實驗室孵化的 AIGC 創業公司）共同推出。

依托于西湖大學良好的科研和成果轉化環境、充足的科研資金及軟硬件設備，西湖心辰組建了一支長期致力于研究自然語言處理，計算機視覺及深度學習的結合與應用的團隊。

在Stable Diffusion的基礎上，盜夢師憑借團隊在AI領域多年的深耕以及西湖大學實驗室的成熟算力，找到了一個可發揮自有技術優勢的地帶，并通過“秒生圖，生精圖”的特點快速占領AI畫畫高地。

我們通過原生stable diffusion在pytorch、TensorRT與Oneflow三個框架下的實現與盜夢師自有模型對比可以看到：

pytorch上原生的Stable diffusion生成一張圖需要3.4s，第三方Oneflow需要1.4s生成時間。而盜夢師的自有模型只需要0.8s，并且不會影響生成效果。

這是因為盜夢師針對速度和質量兩個方面分別做了技術優化，在提速側，進行了算子重寫、模型量化、采樣函數優化；在提質側，采用了自有中文語言模型、多尺寸彈性訓練等。這才使得盜夢師在生成圖片時，不僅速度上有了質的提升，最終的呈現效果也有明顯優化。

原生 Stable -Diffusion（左）與盜夢師生成圖（右）對比

各大模型分析

從今年8月發布至今，Stable Diffusion仍是最火的開源AI生圖模型。與其他開源圖片生成模型相比，其有著出圖速度快、質量高等特點。

但在畫人物方面，Stable Diffusion的弊端也很明顯，如經常存在多頭、多只手、多條腿或人物部分肢體丟失等問題。

原生 Stable -Diffusion（左）與盜夢師（右）對比

同時，原生Stable Diffusion僅支持英文作為唯一輸入語言，對于國內用戶來說也十分不友好。

針對語言障礙的問題，國內曾有團隊開源了支持中文的stable diffusion 模型——“太乙 Stable Diffusion”。但經測試發現，太乙Stable Diffusion雖然能夠理解中文獨特的文化表達，但語義理解方面仍有所欠缺，會給出與輸入prompt不匹配的圖片。

如輸入：霧氣彌漫的森林，中世紀風格霍比特人村莊

太乙 Stable Diffusion（左）與盜夢師（右）對比

而且無論對于哪種模型，圖片質量的好壞都與輸入的關鍵詞密切相關，專業、適當的輸入詞需要用戶有大量的經驗，新手往往用戶難以克服。

因此，改變模型是一切問題的根本解。

盜夢師改變了什么

如上文所說，文生圖效果由模型的圖像生成能力與自然語言理解能力共同決定。于是，盜夢師團隊在訓練圖像生成能力的同時著重加強了機器理解層的能力，使自己區別于市面上的其他平臺。

在圖像生成方面，盜夢師根據過往在AI生成領域積累的經驗，在前期做了大量科研和訓練工作。并且使用了與Stable Diffusion不同的訓練方案，使得盜夢師生成的圖片更加精細，不會產生截斷等問題。

原生 Stable -Diffusion（左）與盜夢師（右）對比

在語義理解方面，依賴于西湖心辰在NLP領域的大量技術與數據積累，盜夢師自有模型不僅能更好地理解用戶輸入詞，還擴大了原生Stable Diffusion的文本長度限制，支持更長的文本輸入。

此外，針對不懂得如何撰寫關鍵詞的新用戶，盜夢師還開發了“夢境增強模式”，可以對用戶的輸入詞做聯想增強，幫助新手畫師更輕易地畫出驚艷的圖片。

夢境增強前（左）與夢境增強后（右）對比

當然，盜夢師目前仍然存在一些業內普遍的待解決的問題，比如眾所周知的AI畫手、AI吃面畫的缺陷

在藍振忠看來，目前AI繪畫仍處于早期階段，雖然目前的圖片生成 AI 能力確實到達了歷史上的峰值，但還是需要更大的規模的數據以及更長時間的訓練。

持續迭代后的AI，繪畫速度會更快，可以及時調控的能力也會更強。以盜夢師自我進修的速度和深度來看，我們有理由相信它將是未來引領 AIGC 潮流的先鋒。

關鍵詞： Stable Diffusion

責任編輯：hnmd003

精彩推薦

總投資10.3億元！泰興城區工業園區簽下6個重大項目

閱讀排行

精彩推送

人民幣對日元升值什么意思？人民...
人民幣中間價由什么決定？人民幣...
內盤外盤委比是什么意思？內盤外...
20萬投資什么項目賺錢？零投資賺...
應收賬款周轉率多少合適？應收賬...
凈現值是什么意思？凈現值npv的...
美國駐南極基地70多人感染新冠！...
20到30萬的車買什么好女士？買車...
asi指標是什么意思？asi指標最佳...
資本運作是什么意思？資本運作與...
郵政儲蓄銀行怎么查余額？郵政儲...
k線孕線什么意思？陽孕陽k線的技...
理財封閉式和開放式哪個安全？理...
累計投票制度是什么意思？累積投...
可轉債轉股怎么操作？可轉債轉股...
平安好車主卡值得入手嗎？平安好...
臺積電是什么東西？臺積電是哪個...
“中國馬拉松第一人”張亮友去世...
收斂三角形一般出現在幾浪？收斂...
股票pb是什么意思？pb估值多少合理？
富格林：嚴斥阻止出金虧損受害 ...
英特爾攜創新科技亮相進博會，向...
辣有道麻辣香鍋有幾種口味？辣有...
福建一工廠日薪2千招縫紉機師傅...
換手率是什么意思？換手率高而量...
股票申購認購是什么意思？股票申...
貸款買車首付多少錢？貸款買車要...
禽流感是什么意思？禽流感概念股...
基輔擬規劃300萬人大撤退！基輔...
老千股是什么意思？老千股為什么...

0.8秒出圖！國產AI繪畫上演“速度與激情”！

相關閱讀

相關閱讀

精彩推薦

閱讀排行

精彩推送

推薦閱讀