熱門:用 GPT-4 實(shí)現(xiàn)可控文本圖像生成,UC 伯克利 & 微軟提出新框架 Control-GPT
機(jī)器之心報(bào)道
(相關(guān)資料圖)
編輯:小舟、梓文
擴(kuò)散模型雖好,但如何保證生成的圖像準(zhǔn)確高質(zhì)量?GPT-4 或許能幫上忙。
文本到圖像生成領(lǐng)域近兩年取得了很大的突破,從 GAN 到 Stable Diffusion,圖像生成的速度越來越快,生成效果越來越好。然而,AI 模型生成的圖像在細(xì)節(jié)上還有很多瑕疵,并且使用自然語言指定對象的確切位置、大小或形狀存在一定的困難。為了生成精準(zhǔn)、高質(zhì)量的圖像,現(xiàn)有方法通常依賴于廣泛的提 prompt 工程或手動創(chuàng)建圖像草圖。這些方法需要大量的人工工作,因此非常低效。
最近,來自加州大學(xué)伯克利分校(UC 伯克利)和微軟研究院的研究者從編程的角度思考了這個問題。當(dāng)前,用戶能夠使用大型語言模型較好地控制代碼生成,這讓該研究看到了編寫程序來控制生成圖像細(xì)節(jié)的可能,包括物體的形狀、大小、位置等等。基于此,該研究提出利用大型語言模型(LLM)生成代碼的功能實(shí)現(xiàn)可控型文本到圖像生成。
論文地址:https://arxiv.org/pdf/2305.18583.pdf該研究提出了一個簡單而有效的框架 Control-GPT,它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 ( c ) 所示,程序草圖(programmatic sketch)是按照準(zhǔn)確的文本說明繪制的,隨后這些草圖被輸入 Control-GPT。Control-GPT 是 Stable Diffusion 的一種變體,它能接受額外的輸入,例如參考圖像、分割圖等等。這些草圖會充當(dāng)擴(kuò)散模型的參考點(diǎn),使擴(kuò)散模型能夠更好地理解空間關(guān)系和特殊概念,而不是僅僅依賴于文本 prompt。這種方法使得 prompt 工程和草圖創(chuàng)建過程不再需要人為干預(yù),并提高了擴(kuò)散模型的可控性。
我們來看一下 Control-GPT 方法的具體細(xì)節(jié)。方法
對圖像生成來說,訓(xùn)練過程的一個較大挑戰(zhàn)是缺乏包含對齊文本和圖像的數(shù)據(jù)集。為了解決這個難題,該研究將現(xiàn)有實(shí)例分割數(shù)據(jù)集(例如 COCO 和 LVIS)中的實(shí)例掩碼轉(zhuǎn)換為多邊形的表示形式,這與 GPT-4 生成的草圖類似。
然后,該研究構(gòu)建了一個包含圖像、文本描述和多邊形草圖的三元數(shù)據(jù)集,并微調(diào)了 ControlNet。該研究發(fā)現(xiàn)這種方法有助于更好地理解 GPT 生成的草圖,并且可以幫助模型更好地遵循文本 prompt 指令。
ControlNet 是擴(kuò)散模型的一種變體,它需要額外的輸入條件。該研究使用 ControlNet 作為基礎(chǔ)圖像生成模型,并通過編程草圖和 grounding token 的路徑對其進(jìn)行擴(kuò)展。
框架
如下圖 2 所示,在 Control-GPT 中,首先 GPT-4 會根據(jù)文本描述生成 TikZ 代碼形式的草圖,并輸出圖像中物體的位置。然后該研究用 LATEX 編譯 TikZ 代碼,將草圖轉(zhuǎn)換為圖像格式,再將編程草圖、文本描述和物體位置的 grounding token 提供給經(jīng)過調(diào)優(yōu)的 ControlNet 模型,最終生成符合條件的圖像。
使用 GPT-4 生成的草圖訓(xùn)練 ControlNet 是必要的,因?yàn)轭A(yù)訓(xùn)練的 ControlNet 不理解生成的草圖,不能將其轉(zhuǎn)換為現(xiàn)實(shí)圖像。為了 prompt GPT-4,該研究要求用戶遵循如下的 prompt 樣本,以讓 GPT-4 請求 TikZ 代碼片段的結(jié)構(gòu)化輸出,以及相關(guān)物體的名稱和位置。然后,該研究使用 GPT-4 的輸出來編譯草圖圖像并獲得 grounding token。LLM 繪制草圖的準(zhǔn)確性如何Control-GPT 的精度取決于 LLM 生成草圖時(shí)的準(zhǔn)確性和可控性。因此,該研究對 LLM 在草圖生成方面的性能進(jìn)行了基準(zhǔn)測試。實(shí)驗(yàn)結(jié)果表明 GPT 系列模型在草圖生成方面明顯優(yōu)于 LLaMa 等開源模型,并且 GPT-4 在遵循文本指令方面表現(xiàn)出驚人的高準(zhǔn)確性(約 97%)。
該研究對 Control-GPT 和一些經(jīng)典模型的生成結(jié)果進(jìn)行了人工評估,結(jié)果表明當(dāng)圖像中包含兩個不相關(guān)的罕見物體組合時(shí),一些模型的生成效果比較差,而 Control-GPT 的生成結(jié)果相對較好,如下表 2 所示:
查詢 LLMs,生成一個 TikZ 代碼片段來描述給定的文本,進(jìn)而檢查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多數(shù)代碼片段都可以編譯為有效的草圖,而 LLaMA 和 Alpaca 的輸出要么是空的,要么不可運(yùn)行。在 GPT-series 模型中,最新的 GPT-4 在 95 個查詢中只有 3 次失敗,這些查詢成功地生成了有效草圖,在遵循文本指令方面的成功率大約有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微調(diào)版本,其性能明顯低于原始 GPT-3.5。在調(diào)優(yōu)過程中,聊天能力和代碼生成之間可能存在著權(quán)衡。在下圖 4 中,研究者提供了一個來自 GPT 系列模型的可視化草圖例子。雖然生成的草圖不如照片那樣逼真,但它們往往能捕捉到語義,并正確推理出物體的空間關(guān)系。生成的草圖經(jīng)常出人意料地通過簡單的代碼片斷來正確處理物體形狀。下圖最后一行展示了 GPT-4 的一個失敗案例,即模型無法生成物體形狀,而 GPT-3.5 卻能給出一個正確的草圖。GPT-4 在草圖生成方面的高精度帶來的啟發(fā)是:可以使用它來提高圖像生成模型的可控性。
實(shí)驗(yàn)基于 Visor 數(shù)據(jù)集,研究者對 Control-GPT 進(jìn)行了一系列實(shí)驗(yàn)設(shè)置的評估,測試其在空間關(guān)系、物體位置和大小方面的可控性。他們還將評估擴(kuò)展到多個物體和分布外的 prompt。廣泛的實(shí)驗(yàn)表明,Control-GPT 可以大大提升擴(kuò)散模型的可控性。
下表 3 中列出了定量評估結(jié)果。可以看到,Control-GPT 模型可以在給定的一些規(guī)格下更好地控制物體的大小和位置。與幾乎無法控制物體位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 將總體精度從 0% 提高到 14.18%。與現(xiàn)成的 ControlNet 相比,Control-GPT 在所有指標(biāo)上也取得了更好的表現(xiàn),獲得了從 8.46% 到 4.18% 的整體改善。這些結(jié)果展示了本文的 LLM 集成框架在更細(xì)化和精確控制圖像生成過程方面的潛力。
視覺化。下圖 6 展示了定性評估結(jié)果,可以看到,ControlGPT 可以按照物體位置和尺寸的規(guī)范繪制物體。相比之下,ControlNet 也能遵循,但卻很難生成正確的物體,而 Stable Diffusion 則無法遵循規(guī)范。對空間關(guān)系的消融實(shí)驗(yàn)。研究者還探討了模型是否對不同類型的空間關(guān)系(如左 / 右 / 上 / 下)有偏好,作為空間關(guān)系基準(zhǔn)分析的一部分。從下表 4 中可以看出,Control-GPT 在 Visor Score 和物體準(zhǔn)確性方面一直比所有的基線模型工作得更好。多個物體之間的關(guān)系。研究者對 Control-GPT 生成多個物體的能力進(jìn)行了進(jìn)一步的評估,這些物體的空間關(guān)系由 prompt 指定。下圖 7 展示了一些例子,Control-GPT 能理解不同物體之間的空間關(guān)系,并在 GPT-4 的幫助下將它們放入布局中,表現(xiàn)出了更好的性能。可控性與圖像逼真度。通常,在生成逼真圖像與遵循精確布局之間往往存在著妥協(xié),特別是對于分布外的文字 prompt。如下圖 8 所示,(a)是一個例子,生成的圖像完全遵循布局,但這導(dǎo)致了圖像中的一些偽影;而在(b)中,照片往往看起來很逼真,但沒有很好地遵循草圖。更多研究細(xì)節(jié),可參考原論文。THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
責(zé)任編輯:hnmd003
相關(guān)閱讀
-
熱門:用 GPT-4 實(shí)現(xiàn)可控文本圖像生成,UC 伯克利 & 微軟提出新框架 Control-GPT
機(jī)器之心報(bào)道編輯:小舟、梓文擴(kuò)散模型雖好,但如何保證生成的圖像準(zhǔn)確高質(zhì)量?GPT-4或許能幫上忙。文本到
2023-05-31 -
英偉達(dá)太貴了? 天天頭條
隔夜美股,英偉達(dá)再次發(fā)力,市值一度突破萬億美元大關(guān),而且乘著AI的東風(fēng),其股價(jià)今年已累計(jì)上漲超過170%,
2023-05-31 -
焦點(diǎn)播報(bào):OPPO K11x 今晚正式開售!1 億超清影像 4 年持久流暢
【手機(jī)中國新聞】全新OPPOK11x將于今晚(5月31日)20點(diǎn)在各大平臺開售。新機(jī)配備了1億像素超清影像、67W超
2023-05-31 -
世界快訊:DSCC 預(yù)測蘋果 MR 頭顯屏幕規(guī)格:4000PPI,亮度超 5000 尼特
近日,DSCC聯(lián)合創(chuàng)始人兼首席執(zhí)行官RossYoung預(yù)測,蘋果MR頭顯可能會提供4000ppi的顯示器,顯示屏尺寸為1 41
2023-05-31 -
Niantic 推出教育類 MR 應(yīng)用《Wol》:基于 AI 對話玩法_環(huán)球今亮點(diǎn)
近日,《PokémonGO》開發(fā)商N(yùn)iantic推出了首個由8thWall平臺MetaversalDeployment和AI技術(shù)打造的教育類MR應(yīng)
2023-05-31
相關(guān)閱讀
-
熱門:用 GPT-4 實(shí)現(xiàn)可控文本圖像生成,UC 伯克利 & 微軟提出新框架 Control-GPT
機(jī)器之心報(bào)道編輯:小舟、梓文擴(kuò)散模型雖好,但如何保證生成的圖像準(zhǔn)確高質(zhì)量?GPT-4或許能幫上忙。文本到
-
華為 MateBook 數(shù)字系列 2023 新品筆記本保姆級選購指南|環(huán)球微資訊
——ZAKER,個性化推薦熱門新聞,本地權(quán)威媒體資訊
-
英偉達(dá)太貴了? 天天頭條
隔夜美股,英偉達(dá)再次發(fā)力,市值一度突破萬億美元大關(guān),而且乘著AI的東風(fēng),其股價(jià)今年已累計(jì)上漲超過170%,
-
虛擬賬戶什么意思?虛擬賬戶與銀行賬戶的關(guān)系
虛擬賬戶什么意思?虛擬賬戶是銀行開立的模擬賬戶。虛擬賬戶一般在國內(nèi)的商業(yè)保理業(yè)時(shí)是使用。虛擬賬戶需...
-
養(yǎng)老保險(xiǎn)賬戶余額怎么查詢?養(yǎng)老保險(xiǎn)賬戶的錢能取出來嗎?
養(yǎng)老保險(xiǎn)賬戶余額怎么查詢?1、社保窗口或者自助機(jī)終端查詢我們可以帶著自己的身份證件以及社保卡,然后...
-
興城農(nóng)商行54.6%股權(quán)二度流拍!曾陷1.28億騙貸風(fēng)波,前八大股東均被刑事立案
5月31日,阿里司法拍賣平臺顯示,遼寧興城農(nóng)村商業(yè)銀行股份有限公司(下稱“興城農(nóng)商行”)合計(jì)約5 46...
-
專訪廣州基金房鑫淼:以更高的格局看待產(chǎn)業(yè)投資,用發(fā)展化解矛盾與泡沫 通訊
編者按近幾年,國際環(huán)境越發(fā)復(fù)雜,不確定因素日益增多,各種聲音此起彼伏。時(shí)代財(cái)經(jīng)聯(lián)合新周刊硬核讀書會,
-
618手機(jī)廠商殺瘋了?榮耀CEO趙明:沒有創(chuàng)新的產(chǎn)品,大家不會買單!
618,被稱為上半年商家最后的沖刺,手機(jī)廠商也摩拳擦掌,欲借這個年中大促,沖一波銷量。近日,趕在618年中
-
百萬醫(yī)療保險(xiǎn)都報(bào)銷什么?報(bào)銷需要什么材料? 動態(tài)焦點(diǎn)
住院費(fèi)用、門診費(fèi)用、特殊疾病費(fèi)用、門急診醫(yī)療費(fèi)用、住院前后的康復(fù)費(fèi)用;住院費(fèi)用包括住院治療費(fèi)用、手術(shù)
-
重疾險(xiǎn)和百萬醫(yī)療險(xiǎn)有必要都買嗎?可以同時(shí)報(bào)銷嗎?_全球速遞
有必要,因?yàn)橹丶搽U(xiǎn)和百萬醫(yī)療險(xiǎn)之間有很大的區(qū)別。百萬醫(yī)療險(xiǎn)只能在我們接受治療后報(bào)銷部分治療費(fèi)用,并避
-
天天看點(diǎn):百萬醫(yī)療免賠額是多少?一萬是累計(jì)的嗎?
許多百萬醫(yī)療險(xiǎn)的免賠額都是1萬,但也有一些產(chǎn)品出于吸引客戶的目的而設(shè)置更低的免賠額,如5000元或者是0元
-
百萬醫(yī)療護(hù)工費(fèi)報(bào)銷嗎?怎么報(bào)銷?-環(huán)球熱消息
住院期間的護(hù)理費(fèi)用是可以報(bào)銷的。護(hù)理費(fèi)用指的是由護(hù)士提供的照顧您的費(fèi)用,根據(jù)病人的病情嚴(yán)重程度及自理
-
百萬醫(yī)療險(xiǎn)能報(bào)銷幾次?怎么報(bào)銷? 熱點(diǎn)聚焦
可以多次報(bào)銷,沒有次數(shù)限制。百萬醫(yī)療險(xiǎn)在保險(xiǎn)期間內(nèi)通常不會對報(bào)銷次數(shù)進(jìn)行限制,而是規(guī)定報(bào)銷的金額上限
-
理想CEO李想評FF91:首批新勢力中最前沿、最大膽的車型 沒有之一
鳳凰網(wǎng)科技訊5月31日消息,法拉第未來(Faradayfuture)今日召開發(fā)布會,法拉第未來創(chuàng)始人賈躍亭在會上宣布
-
世界微資訊!從產(chǎn)品出口到技術(shù)輸出,吉利邁進(jìn)“全鏈”出海新階段
從產(chǎn)品出口到技術(shù)輸出,吉利邁進(jìn)“全鏈”出海新階段通過品牌、產(chǎn)品、供應(yīng)鏈、工廠、銷售鏈等全球化布局...
-
焦點(diǎn)精選!日野與三菱扶桑計(jì)劃合并 或在2024年底前完成
日野與三菱扶桑計(jì)劃合并或在2024年底前完成5月30日,豐田汽車和戴姆勒卡車控股發(fā)布聯(lián)合聲明稱,計(jì)劃將豐田
-
哪吒汽車第30萬臺量產(chǎn)車下線
哪吒汽車第30萬臺量產(chǎn)車下線5月末,哪吒汽車好消息不斷。繼日前其位于上海市普陀區(qū)的全球總部正式啟用后,5
-
該配合你演出的我盡情配合 該配合你演出的我_最資訊
今天來聊聊關(guān)于該配合你演出的我盡情配合,該配合你演出的我的文章,現(xiàn)在就為大家來簡單介紹下該配合你演出
-
擋風(fēng)玻璃裂痕修復(fù) ,千萬別去4S店花冤枉錢
在車輛使用時(shí),玻璃發(fā)生破損的情況屢見不鮮。當(dāng)玻璃受到外傷破裂時(shí),有些車主為了貪圖省事,湊合用了。但是
-
2023攜程文旅產(chǎn)業(yè)聯(lián)盟南海大會成功舉辦
本次大會上,南海區(qū)共推出了83項(xiàng)文旅產(chǎn)業(yè)招商項(xiàng)目(載體),包括粵港澳電競產(chǎn)業(yè)中心、疊滘圩、詩意海壽、有
-
焦點(diǎn)播報(bào):OPPO K11x 今晚正式開售!1 億超清影像 4 年持久流暢
【手機(jī)中國新聞】全新OPPOK11x將于今晚(5月31日)20點(diǎn)在各大平臺開售。新機(jī)配備了1億像素超清影像、67W超
-
世界快訊:DSCC 預(yù)測蘋果 MR 頭顯屏幕規(guī)格:4000PPI,亮度超 5000 尼特
近日,DSCC聯(lián)合創(chuàng)始人兼首席執(zhí)行官RossYoung預(yù)測,蘋果MR頭顯可能會提供4000ppi的顯示器,顯示屏尺寸為1 41
-
Niantic 推出教育類 MR 應(yīng)用《Wol》:基于 AI 對話玩法_環(huán)球今亮點(diǎn)
近日,《PokémonGO》開發(fā)商N(yùn)iantic推出了首個由8thWall平臺MetaversalDeployment和AI技術(shù)打造的教育類MR應(yīng)
-
斯莫格 618,馬上到! 當(dāng)前快播
-熱點(diǎn):大疆Inspire3尼康Z8松下S5M2X富士X-S20-相機(jī)鏡頭:松下索尼富士佳能尼康適馬永諾-鏡頭:盤點(diǎn)松下14-
-
當(dāng)前看點(diǎn)!華碩推出 ROG Swift OLED PG49WCD 游戲顯示器:雙 2K 屏,配備智能 KVM 功能
之前ROG產(chǎn)品線里,已經(jīng)出現(xiàn)了多款OLED游戲顯示器,包括ROGSwiftOLEDPG27AQDM、ROGSwiftOLEDPG42UQ和ROGSwif
-
快消息!漯河銀保監(jiān)分局多項(xiàng)舉措保障夏糧搶收工作
漯河銀保監(jiān)分局積極采取措施,督促轄內(nèi)農(nóng)業(yè)保險(xiǎn)承辦機(jī)構(gòu)優(yōu)化保險(xiǎn)服務(wù),有針對性開展風(fēng)險(xiǎn)管控與風(fēng)險(xiǎn)減量工作
-
【世界獨(dú)家】時(shí)尚行業(yè)如何向“可持續(xù)”性轉(zhuǎn)型?
5月27日,“時(shí)尚·可持續(xù)”青年設(shè)計(jì)師沙龍暨2023中意青年未來時(shí)尚設(shè)計(jì)大賽北京媒
-
阿里裁員,滿城風(fēng)雨:一天吃兩頓散伙飯,網(wǎng)約車司機(jī)也提前三小時(shí)下班|環(huán)球微動態(tài)
圖源:pixabay“廣闊天地,大有可為。”在杭州阿里園區(qū)1號門口,一位在職員工如此安慰身旁“提前畢業(yè)”...
-
馬斯克訪華點(diǎn)燃新能源板塊新期待 基金經(jīng)理再次自購100萬樹信心
新能源板塊再迎好消息。不少專業(yè)人士也呼吁投資者從長期投資視角出發(fā),關(guān)注新能源板塊底部布局機(jī)遇。華夏新
-
實(shí)習(xí)生意外險(xiǎn)是什么?如何投保?
實(shí)習(xí)生意外險(xiǎn)是指專門為實(shí)習(xí)生提供的一款保險(xiǎn)產(chǎn)品,它主要針對實(shí)習(xí)生在工作期間因意外事故導(dǎo)致身體傷害或財(cái)
精彩推薦
- 全球微頭條丨為地球第三極研究貢獻(xiàn)中國...
- 世界聚焦:國網(wǎng)西藏電力啟動2023年青藏...
- 建立跨市聯(lián)席會議協(xié)調(diào)聯(lián)動機(jī)制 西藏推...
- 山南市乃東區(qū)入選2023年傳統(tǒng)村落 集中...
- 讓科技之光照亮田間牧場-今日視點(diǎn)
- 拉薩考區(qū)社會考生6月3日領(lǐng)取準(zhǔn)考證|今日熱搜
- 環(huán)球看熱訊:關(guān)注度和認(rèn)可度高 C919常...
- 全球關(guān)注:四川迎來強(qiáng)降雨 緊急轉(zhuǎn)移2149人
- 我國第三批航天員均具備飛天能力 天天...
- 拉薩市道路運(yùn)輸從業(yè)人員考試中心啟用
閱讀排行
精彩推送
- 1個月倒計(jì)時(shí) Kindle中國電子書...
- 重疾和百萬醫(yī)療先買哪個?在哪里...
- 賈躍亭9年造車夢圓 FF91量產(chǎn)車...
- 正頜手術(shù)百萬醫(yī)療能報(bào)銷嗎?報(bào)銷...
- 遭同行高管炮轟“以次充好”,極...
- FF 91 2.0開啟第一階段交付 今日熱門
- 長城汽車將在泰國新設(shè)電池包工廠...
- 典當(dāng)行抵押貸款上征信嗎?典當(dāng)行...
- 原子能電池最多一次可以工作多長...
- psp電池能用多長時(shí)間?psp電池充...
- 便攜式設(shè)備有哪些?便攜式設(shè)備的...
- 當(dāng)前視點(diǎn)!明智醫(yī)療全資子公司與...
- 速訊:星昊醫(yī)藥北京證券交易所IP...
- 凌科藥業(yè)完成2億人民幣C1輪融資...
- 雷達(dá) RD6 試駕:確認(rèn)!不是皮...
- 全球消息!劉慈欣:科幻作家未來...
- 30.9 萬美元,F(xiàn)F 91 2.0Futurist 售價(jià)公布
- 環(huán)球時(shí)訊:亞馬遜提示 Kindle ...
- 鴻海正在與英偉達(dá)合作進(jìn)行自動駕...
- 當(dāng)前視訊!欲復(fù)刻歐元 巴西總統(tǒng)...
- 世界熱資訊!“股神”本月再出手...
- 什么是鎧裝電纜?鎧裝電纜和普通...
- 來電顯示555是什么號碼?來電顯...
- 環(huán)球速遞!拔上牙和拔下牙的區(qū)別...
- cf非法模塊怎么回事?cf非法模塊...
- 超聲波液位計(jì)和雷達(dá)液位計(jì)有什么...
- 什么是高頻逆變電源?高頻逆變電...
- 導(dǎo)電滑環(huán)怎么接線?導(dǎo)電滑環(huán)壽命...
- 拆機(jī)鏡頭什么意思?拆機(jī)鏡頭和原...
- 英文輸入法不見了怎么恢復(fù)?英文...