280 萬條多模態指令 - 響應對,八種語言通用,首個涵蓋視頻內容的指令數據集 MIMIC-IT 來了
機器之心報道
編輯:蛋醬
(相關資料圖)
在包含 280 萬條多模態上下文指令 - 相應對的數據集上訓練之后,Otter 展現出了優秀的問答能力,并在 ChatGPT 及人類的兩項評估中獲得了很高的評價。
近段時間來,AI 對話助手在語言任務上取得了不小的進展。這種顯著的進步不只是基于 LLM 強大的泛化能力,還應該歸功于指令調優。這涉及到在一系列通過多樣化和高質量指令的任務上對 LLM 進行微調。
借助指令調優獲得零樣本性能的一個潛在原因是,它內化了上下文。這很重要,特別是當用戶輸入跳過常識性的上下文時。通過納入指令調優,LLM 獲得了對用戶意圖的高度理解,即使在以前未見過的任務中也能表現出更好的零樣本能力。
然而,一個理想的 AI 對話助手應該能夠解決涉及多種模態的任務。這需要獲得一個多樣化和高質量的多模式指令跟隨數據集。比如,LLaVAInstruct-150K 數據集(也被稱為 LLaVA)就是一個常用的視覺 - 語言指令跟隨數據集,它是使用 COCO 圖像、指令和從 GPT-4 中獲得的基于圖像說明和目標邊界框的響應構建的。但 LLaVA-Instruct-150K 具有三個局限性:有限的視覺多樣性;使用圖片作為單一視覺數據;上下文信息僅包含語言形態。
為了推動 AI 對話助手突破這些限制,來自新加坡南洋理工大學、微軟雷蒙德研究院的學者們提出了多模態上下文指令調優數據集 MIMIC-IT,這是一個包含 280 萬條多模態上下文指令 - 相應對的數據集,涵蓋各種現實生活場景。
論文地址:https://arxiv.org/pdf/2306.05425.pdf此外,為了高效地生成指令 - 響應對,研究者還介紹了「Sythus」,這是一個受 self-instruct 方法啟發的指令 - 響應注釋的自動化 pipeline。Sythus 采用系統信息、視覺注釋和上下文中的例子來指導語言模型(GPT-4 或 ChatGPT)根據視覺語境生成指令 - 響應對,針對視覺語言模型的三個基本能力:感知、推理和規劃。此外,英文的指令和響應被譯成七種語言,以支持多種語言的使用。
特別值得注意的是,研究者在 MIMIC-IT 上訓練了基于 OpenFlamingo 的多模態模型「Otter」。通過 ChatGPT、人類兩個方面的評估,Otter 的多模態能力超越了近期的其他視覺 - 語言模型。
在一系列 Demo 中,研究者展示了 Otter 的多模態問答能力:
Q:接下來出哪張牌?
A:八筒。這樣你就能留著四條和五條,等著湊成順子。
Q:我想著陸了,怎么操作?A:按一次左下按鈕,左轉,要著陸時拉右邊的手剎。
Q:接下來怎么辦?A:把球傳到中路,跑到球門,尋找進球機會。
接下來,讓我們看看研究細節。MIMIC-IT 數據集
MIMIC-IT 數據集包括 280 萬個多模態指令 - 響應對,涵蓋了基本能力:感知、推理和計劃。每個指令都伴隨著多模態的對話背景,使在 MIMIC-IT 上訓練的 VLM 能夠在交互式指令中表現出很好的熟練度,并能進行零樣本的概括。
相比于 LLaVA,MIMIC-IT 的特點包括:( 1 ) 多樣化的視覺場景,包含了一般場景、自我中心視角場景和室內 RGB-D 圖像等不同數據集的圖像和視頻;
( 2 ) 多個圖像(或一個視頻)作為視覺數據;
( 3 ) 多模態的上下文信息,包括多個指令 - 響應對和多個圖像或視頻;
( 4 ) 支持八種語言,包括英文、中文、西班牙文、日語、法語、德語、韓語和阿拉伯語。
下圖進一步展示了二者的指令 - 響應對對比(黃色方框為 LLaVA):
如表 1 所示,MIMIC-IT 的數據源來自七個數據集:COCO、Spot-the-diff ( SD ) 、ScanNetV2 ( SN ) 、VisualStorytelling ( VIST ) 、DenseCaption/Activity caption(DC)、TVCaption(TVC)和 Ego4D(E4D)。「上下文」這一列的「lang.」表示語言,「vis.」表示視覺。Sythus:自動化指令 - 響應對生成 pipeline同時,研究者提出了 Sythus(圖 3),這是一個自動化 pipeline,用于生成多種語言的高質量指令 - 響應對。在 LLaVA 提出的框架基礎上,研究者利用 ChatGPT 來生成基于視覺內容的指令 - 響應對。為了確保生成的指令 - 響應對的質量,該 pipeline 將系統信息、視覺注釋和上下文中的樣本作為 ChatGPT 的 prompt。系統信息定義了所生成的指令 - 響應對的預期語氣和風格,而視覺注釋則提供了基本的圖像信息,如邊界框和圖像描述。上下文中的樣本幫助 ChatGPT 在語境中學習。
由于核心集的質量會影響后續的數據收集過程,研究者采用了一個冷啟動策略,在大規模查詢之前加強上下文中的樣本。在冷啟動階段,采用啟發式方法,僅通過系統信息和視覺注釋來 prompt ChatGPT 收集上下文中的樣本。這個階段只有在確定了令人滿意的上下文中的樣本后才結束。在第四步,一旦獲得指令 - 響應對,pipeline 會將它們擴展為中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韓文(ko)和阿拉伯語(ar)。進一步的細節,可參考附錄 C,具體的任務 prompt 可以在附錄 D 中找到。
經驗性評估隨后,研究者展示了 MIMIC-IT 數據集的各種應用以及在其上訓練的視覺語言模型 ( VLM ) 的潛在能力。首先,研究者介紹了使用 MIMIC-IT 數據集開發的上下文指令調優模型 Otter。而后,研究者探索了在 MIMIC-IT 數據集上訓練 Otter 的各種方法,并討論了可以有效使用 Otter 的眾多場景。
圖 5 是 Otter 在不同場景下的響應實例。由于在 MIMIC-IT 數據集上進行了訓練,Otter 能夠為情境理解和推理、上下文樣本學習、自我中心的視覺助手服務。
最后,研究者在一系列基準測試中對 Otter 與其他 VLM 的性能進行了比較分析。ChatGPT 評估
下表 2 展示了研究者利用 MMAGIBench 框架 [ 43 ] 對視覺語言模型的感知和推理能力進行廣泛的評估。
人類評估Multi-Modality Arena [ 32 ] 使用 Elo 評級系統來評估 VLM 響應的有用性和一致性。圖 6 ( b ) 顯示 Otter 展示了卓越的實用性和一致性,在最近的 VLM 中獲得了最高的 Elo 評級。
少樣本上下文學習基準評估
Otter 基于 OpenFlamingo 進行微調,OpenFlamingo 是一種專為多模態上下文學習而設計的架構。使用 MIMIC-IT 數據集進行微調后,Otter 在 COCO 字幕 ( CIDEr ) [ 27 ] 少樣本評估(見圖 6 ( c ) )上的表現明顯優于 OpenFlamingo。正如預期的那樣,微調還帶來了零樣本評估的邊際性能增益。
圖 6:ChatGPT 視頻理解的評估。討論
缺陷。雖然研究者已經迭代改進了系統消息和指令 - 響應示例,但 ChatGPT 容易出現語言幻覺,因此它可能會生成錯誤的響應。通常,更可靠的語言模型需要 self-instruct 數據生成。
未來工作。未來,研究者計劃支持更多具體地 AI 數據集,例如 LanguageTable 和 SayCan。研究者也考慮使用更值得信賴的語言模型或生成技術來改進指令集。
THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
責任編輯:hnmd003
相關閱讀
相關閱讀
-
280 萬條多模態指令 - 響應對,八種語言通用,首個涵蓋視頻內容的指令數據集 MIMIC-IT 來了
機器之心報道編輯:蛋醬在包含280萬條多模態上下文指令-相應對的數據集
-
iPhone 兩秒出圖,目前已知的最快移動端 Stable Diffusion 模型來了
機器之心專欄機器之心編輯部StableDiffusion(SD)是當前最熱門的文本
-
太平雋泰年金保險講解?保險好處有哪些?
太平雋泰年金保險是由太平保險公司推出的一種養老保險產品,主要針對中
-
全球速訊:盛世御享年金保險2018可靠嗎?優點是什么?
可靠。盛世御享年金保險2018由國內知名的保險公司提供,受到監管機構的
-
幸福喜樂3.0版年金保險好處是什么?保障哪些方面? 全球快消息
具有寬廣的投保年齡范圍:幸福喜樂3 0版年金保險的適用范圍涵蓋出生滿3
-
實時:人保年金險有哪些保險產品?怎么投保?
中國人保的美滿金生是一款短期年金險,定位明確。消費者可以選擇搭配萬
-
世界焦點!年金保險多少年回本?好處有哪些?
看實際的情況決定。通常情況下,是交完保費的第三到五年回本。這里說的
-
即時看!幫助作文500字左右_幫助作文
1、學會幫助別人當叢飛從容地捐出所有財產資助貧困學生的一刻,淚水再
-
厭惡風險的年輕人,選擇跨城存錢賺利息
6月3日,本該是個該睡懶覺的周六,海小姐卻在清晨五點就被鬧鈴吵醒,因
-
共享游戲主機,占領商場卻困在“圍城”
不算場地租金、電費這些,光加盟費和買設備就快10萬元了,分攤下來每臺
-
被年輕人喜愛的“剩菜盲盒”,能走得更遠嗎? 焦點觀察
最近很多年輕人,開始流行起了吃剩菜。這里的剩菜,并非客人吃剩的殘羹
-
今日熱聞!3000 元沖性能旗艦機,iQOO Neo8 Pro 配么?
對于手機廠商來說,今年可以稱作第一代驍龍8+元年。第一代8+雖然已經是
-
東方集團:高杠桿收購“輸血”大股東-看點
東方集團傾囊收購大股東資產,進一步繃緊了本就脆弱的資金鏈。薛宇 文
-
國壽福臨門年金保險可靠嗎?好處有哪些?
可靠。國壽福臨門年金保險的承保公司是中國人壽保險公司,作為我國最大
-
國壽穩態團體年金保險怎么樣?保障些什么?
很不錯。國壽穩態團體年金保險是一種以團體為單位,為團體成員提供養老
-
育英年金保險條款是什么?優勢是什么?_世界觀點
身故保障:被保險人因意外或一年后因病身故,可以領取基本保險金額身故
-
每日觀點:職業年金補充養老保險可靠嗎?好處有哪些?
可靠。職業年金補充養老保險是指事業機關單位為員工提供的一種補充養老
-
保險公司年金理財騙局是什么?有什么好處? 今日觀點
其實是信息的誤差。保險公司年金理財騙局的本質是保險公司通過虛假宣傳
-
2023年全國射擊錦標賽(步手槍項目)落幕 環球時快訊
國際射聯近期再度對巴黎奧運會射擊項目規則進行調整,這意味著運動員們
-
米哈游去年賺了 161 億!網友:夠再開發十個《原神》了|聚焦
米哈游到底賺了多少錢?這個一度引來各方猜測的問題隨著《光明日報》的
-
蘋果 Vision Pro 頭顯國內要改名?華為 4 年前已注冊商標-天天播報
IT之家6月11日消息,蘋果公司在本周的WWDC23開發者大會上正式推出了其
-
世界資訊:盧偉冰透露小米 618 最受歡迎產品 “真的是賣爆了”
【手機中國新聞】今年的618正在火熱進行中,各大手機廠商也是使出了渾
-
產業鏈人士:華為上調 2023 年手機出貨量目標至 4000 萬部
鈦媒體App6月11日消息,從產業鏈人士處獲悉,華為近期已上調2023年手機
-
評測惠普 4.5mm 電源轉接器:支持 80W+ 輸出,DC 適配器再次發揮_報道
前言隨著PD快充的普及,越來越多的設備搭載了Type-C接口,原本一些專用
-
凝心聚力迎戰2023:品佳品食品“鐵血軍魂”訓練營 滾動
5月26-28日,品佳品(深圳)實業發展有限公司“鐵血軍魂”訓練營,在廣州
-
季后賽生涯得分新高!戈登15中11砍27分6板6助2斷&正負值高達+29 快播報
NBA總決賽,掘金108-95力克熱火,大比分3-1領先。本場比賽,阿隆-戈登
-
programer_program-焦點消息
1、report釋義:2、n 報告;報道;成績單3、vt 報告;報導;使報到4、
-
中韓樂享財富年金保險可靠嗎?值得買嗎? 環球短訊
可靠。對于投資者來說,選擇一個可靠的年金保險產品至關重要。根據市場
-
微資訊!富德生命人壽保險年金保險可靠嗎?好處有哪些?
可靠。富德生命人壽保險是一家經過國家保險監管部門批準的保險公司,具
-
我為什么不買年金保險?買年金保險要注意什么? 獨家
費用高昂:在購買年金保險時,需要繳納一定的保費,其費用較為昂貴。對
精彩推薦
閱讀排行
精彩推送
- 每日觀察!國壽鑫盈年金保險靠譜...
- 福臨門年金保險少兒版可靠嗎?保...
- 今熱點:“新包頭 新青年”作品...
- 抗議公司打壓第三方應用,Reddit...
- 多名女主播穿“牽手門”同款碎花...
- 世界觀點:馬斯克重申:特斯拉市...
- 環球熱推薦:米哈游去年賺了 16...
- 微軟 2023 年工作趨勢指數揭示...
- 被年輕人喜愛的“剩菜盲盒”,能...
- 我,“絕版”畢業生,專業讀著讀...
- 厭惡風險的年輕人,選擇跨城存錢...
- “從不晚點”的山航,要退市了-焦點
- 百萬 UP 主人設崩塌背后:精致...
- 得不到就毀掉!租客拿到6萬補償...
- 房企補倉、 集中土拍帶熱5月...
- 焦點速訊:“帶押過戶”常態化重...
- 【共同締造安全江夏?】做好安全...
- 兒童教育年金保險是什么?值得購...
- 世界熱推薦:理財險和年金險的區...
- 環球熱點評!年金保險需要交稅嗎...
- 金生永泰年金保險可靠嗎?特點有...
- 【熱聞】福多壽年金保險可靠嗎?...
- 蔚來李斌:下半年有望實現平均月...
- 市檔案館開展國際檔案日系列活動...
- 春坤山旅游直通車開通|世界快播報
- 包馬搶“鮮”跑
- 保護傳承歷史文化賦能城市高質量...
- 土右旗:打造“家庭會客廳”大學...
- 青山山外青山樓外樓下一句_山外...
- 重磅:最新中國 5G 主設備市場...