【速看料】比 OpenAI 更快一步，最新開源的 MiniGPT-4 模型可讓開發者提前感受 GPT-4 識圖能力！

2023-04-19 18:11:46來源：ZAKER科技

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

迄今為止，GPT-4 憑借多模態能力已經成為 AI 領域備受關注的大模型，不過值得注意的是，OpenAI 在推出 GPT-4 時雖然引入了對圖像理解的能力，但并沒有在除了 Be my Eyes（針對盲人或弱視人士的應用程序和服務）應用程序之外的任何地方提供此功能。

(資料圖片)

GPT-4 對圖像理解能力的示例詳見：

用戶：這幅畫有什么好笑的地方？逐一描述它的板塊。

圖片來源：https://www.reddit.com/r/hmmm/comments/ubab5v/hmmm/

GPT-4：圖片顯示的是一個 "Lightning Cable " 適配器的包裝，有三個板塊：

板塊 1：一部智能手機，VGA 連接器（通常用于電腦顯示器的大型藍色 15 針連接器）插在其充電端口。

板塊 2："Lightning Cable " 適配器的包裝上有一張 VGA 接口的圖片。

板塊 3：VGA 連接器的特寫，末端是一個小的 Lightning 連接器（用于為 iPhone 和其他蘋果設備充電）。

這張圖片的幽默感來自于將一個大的、過時的 VGA 連接器插入一個小的、現代的智能手機充電端口的荒謬性。

近日，來自沙特阿拉伯阿卜杜拉國王科技大學的研究團隊推出了一款名為 MiniGPT-4 的新模型，以開源的形式提供了此功能。

研究人員還透露，MiniGPT-4 具有許多類似于 GPT-4 所展示的功能，下文我們也將分享相關的實例。

可執行復雜的視覺語言任務的 MiniGPT-4

該團隊發現盡管 GPT-4 表現出非凡的能力，但是其特殊能力背后的方法并不為眾人所熟知。因此，他們提出「GPT-4 具有先進的多模態生成能力的主要原因在于利用了更先進的大型語言模型（LLM）」這一想法。

為了驗證這一想法，他們便提出了 MiniGPT-4 模型。

根據研究團隊發布的論文顯示，為了構建 MiniGPT-4，研究人員使用了基于 LLaMA 構建的 Vicuna 作為語言解碼器，并使用 BLIP-2 視覺語言模型作為視覺解碼器。

其中，Vicuna 和 BLIP-2 都是開源的。這意味使用開源軟件可以用較少錢進行訓練和微調，并且沒有海量數據和開銷，這也是為什么這個模型加上了 "mini" 的前綴。

在實驗中，該團隊發現只對原始圖像 - 文本對進行預訓練會產生不自然的語言輸出，包括重復和零散的句子，缺乏連貫性。為了解決這個問題，其在第二階段策劃了一個高質量、一致性好的數據集，利用對話模板對此模型進行微調，這一步被證明對提高模型的生成可靠性和整體可用性至關重要。

具體來看，研究團隊分兩個階段訓練了 MiniGPT-4 模型。

第一階段，研究團隊首先在四張 NVIDIA A100 顯卡上利用了大約 500 萬個對齊的圖像 - 文本對，讓 MiniGPT-4 進行了十個小時的訓練。在第一階段之后，Vicuna 能夠理解圖像。但是 Vicuna 的生成能力受到了很大的影響。

為了解決這個問題并提高可用性，研究人員提出了一種通過模型本身和 ChatGPT 一起創建高質量圖像文本對的新方法。因此，展開了第二階段的微調訓練，該模型使用 MiniGPT-4 和 ChatGPT 之間的交互生成的 3,500 個高質量文本圖像對進行了改進。ChatGPT 更正了 MiniGPT-4 生成的不正確或不準確的圖像描述。

這一步顯著提高了模型的可靠性和可用性，MiniGPT-4 能夠連貫地和用戶友好地談論圖像，并且只需要在單個 NVIDIA A100 上進行七分鐘的訓練。讓研究人員自己都感到驚訝的是，這個階段的計算效率很高。

MiniGPT-4 架構

MiniGPT-4 Vicuna 的語言模型遵循 "Alpaca 公式 "，使用 ChatGPT 的輸出來微調 LLaMA 系列的 Meta 語言模型。據說 Vicuna 與 Google Bard 和 ChatGPT 相當，同樣只需相對較小的訓練工作量。

當前，該研究團隊已經將 MiniGPT-4 的代碼、預訓練的模型和收集的數據集在 GitHub 上開源：https://minigpt-4.github.io/。

擁有和 GPT-4 相似的圖片解析功能

正如開頭所述，該研究團隊推出的 MiniGPT-4 擁有和 GPT-4 相似的功能。譬如：

給它一張圖，便能生成詳細的圖像描述：

也能講出圖片中搞笑、有趣的部分：「星期一通常被認為是一周中最令人恐懼的一天」。還能在進一步交互中發現不尋常的內容，如：雖然仙人掌有可能在寒冷的氣候條件下生長，但很少看到仙人掌生長站在冰凍的湖泊中間。此外，水面上形成的大冰晶也不是常見的現象。

于是，MiniGPT-4 給出了自己的見解：這張圖片很可能是數字創作或操控的。

當然，和 GPT-4 演示的一樣，MiniGPT-4 也能根據手繪草圖生成網站：識別圖像中的問題并提供解決方案：以及創造詩歌或說唱歌曲的靈感：此外，也能根據圖片續寫故事，給產品做廣告，對圖像展現的畫面進行評論、檢索與圖片有關的事實，以及當給定一張準備好的菜肴照片時，該模型可以輸出（可能）與之匹配的食譜或者生成一個適合視障人士的圖像描述。開源類 GPT-4 模型層出不窮

鑒于 OpenAI 沒有透露太多關于 GPT-4 架構（包括模型大小）、硬件、訓練計算、數據集構建、訓練方法的細節，強大的 LLM 的開源 MiniGPT-4 可能在研究方面具有重要意義。

對于 MiniGPT-4 的到來，也引發了一些 HN 網友的熱議，有網友表示：

在技術層面上，這個研究團隊正在做一些非常簡單的事情 -- 將 BLIP2 的 ViT-L+Q-former，用一個線性層連接到 Vicuna-13B，并在一些圖像 - 文本對的數據集上只訓練這個小層。

但結果是相當驚人的。它完全打敗了 Openflamingo 和甚至原始的 blip2 模型。最重要的是，它比 OpenAl 的 GPT-4 圖像模態更早到達。（這是）開源人工智能的真正勝利。

也有媒體評價到，「MiniGPT-4 是開源社區在很短時間內取得快速成功的另一個案例。前幾天，推出，使用從志愿者那里收集的指導數據進行訓練，并打算最終成為一個 ChatGPT 的開源平替。這表明純 AI 模型公司的護城河可能沒有那么高。在這種趨勢下，對于 OpenAI 公司而言，首先應該專注于使用 ChatGPT 插件為 GPT-4 建立一個合作伙伴生態系統，而不是現在就訓練 GPT-5，這是有意義的?！?/p>

事實上，除了 OpenAssistant、MiniGPT-4 之外，GitHub 上也有網友盤點了近段時間來誕生的許多開源模型（https://github.com/nichtdax/awesome-totally-open-chatgpt），如 Databricks 推出的 Dolly 模型、類 ChatGPT 的 PaLM-rlhf-pytorch、OpenChatKit 等等，為此，你認為開源大模型在此趨勢下會迎來什么樣的發展機遇？歡迎留言分享你的看法。

關于 MiniGPT-4 模型的更多內容可參考：

項目地址：https://minigpt-4.github.io/

GitHub 地址：https://github.com/Vision-CAIR/MiniGPT-4

論文地址：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

參考：

https://the-decoder.com/minigpt-4-is-another-example-of-open-source-ai-on-the-rise/