對(duì)話京東何曉冬：「多模態(tài)大模型」涌現(xiàn)之前，要先回答三個(gè)問題|當(dāng)前滾動(dòng)

2023-06-08 22:07:44來源：ZAKER科技

在關(guān)于 ChatGPT 的討論中，" 數(shù)據(jù)飛輪 " 被視為是經(jīng) ChatGPT 所驗(yàn)證的變革引擎，是大模型智能飛躍中的關(guān)鍵一環(huán)：向用戶開放模型，建立用戶真實(shí)數(shù)據(jù)反饋與模型迭代間的飛輪，用戶反饋數(shù)據(jù)越多，模型的迭代速度也越快。

但很少有人知道，這一路線早在七年前，何曉冬與他當(dāng)時(shí)所在的微軟雷德蒙德研究院深度學(xué)習(xí)技術(shù)中心的團(tuán)隊(duì)同事就已經(jīng)走過。

那是在 2016 年 3 月，納德拉（微軟 CEO）帶著一個(gè)名為 CaptionBot 的 AI 應(yīng)用產(chǎn)品亮相微軟 Build 大會(huì)，CaptionBot 跟全球用戶見面僅一星期，用戶量就突破百萬。

(資料圖片僅供參考)

同樣是先有一篇論文，在技術(shù)上取得突破，再推出一個(gè)產(chǎn)品讓用戶參與使用，但過去的 CaptionBot 最終沒能成為今天的 ChatGPT。在接受 AI 科技評(píng)論的采訪時(shí)，何曉冬表達(dá)了自己的遺憾。

新機(jī)遇在七年后的大模型時(shí)代再次到來。

在過去五年的 CVPR 發(fā)表論文排序中，排名前二十的論文里，與多模態(tài)研究相關(guān)的工作僅一篇。這個(gè)工作由何曉冬帶領(lǐng)團(tuán)隊(duì)完成，論文所提出的 "Bottom-up and top-down attention" 注意力機(jī)制，用于跨模態(tài)的語言和圖像信息在語義層次的對(duì)齊研究，單篇引用量已超過 4000 次。

Sam Altman 在談及 AGI 的前景中，提出了必須要共同進(jìn)化，才能達(dá)到通用智能，實(shí)現(xiàn)通用智能的要素之一，正是語言大模型令人們?yōu)橹缘?" 涌現(xiàn) " 時(shí)刻。多模態(tài)的 " 涌現(xiàn) " 暫未出現(xiàn)，何曉冬認(rèn)為，在多模態(tài)大模型的技術(shù)探索路線中必須回答三個(gè)問題，首先就是決定在哪個(gè)層次做多模態(tài)信息的融合。

何曉冬給出的答案是，在語義層次的對(duì)齊、融合。

而在技術(shù)之外，ChatGPT 為人稱道的 " 極致工程化 "，將產(chǎn)品在變革中所扮演的角色推向了一個(gè)新的高度。

正如七年前 CaptionBot 第一次邁進(jìn)的 " 河 "、以及 ChatGPT 第二次踏進(jìn) " 同一條河 "，何曉冬相信多模態(tài)大模型也會(huì)按照同樣的方式，先取得突破性的技術(shù)革命、發(fā)布一個(gè)粗糙但可用的產(chǎn)品、真正走入用戶。" 產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新不分家，不管多粗糙、首先第一步是先用起來。"

大模型會(huì)帶來 AI 技術(shù)的普惠，而不是加劇技術(shù)鴻溝。當(dāng)大模型具備了信息壓縮、知識(shí)網(wǎng)絡(luò)構(gòu)建、邏輯判斷與推理等良好能力之后，下一個(gè)臺(tái)階的踏步高度就會(huì)降低。此時(shí)，產(chǎn)業(yè)受益之處就體現(xiàn)出來了，產(chǎn)業(yè)利潤(rùn)低洼地的企業(yè)，以及供應(yīng)鏈上地位低的中小企業(yè)都有機(jī)會(huì)用上 " 大模型 "。如此一來，不僅不會(huì)加大數(shù)字和技術(shù)鴻溝，還會(huì)產(chǎn)生普惠價(jià)值。

何曉冬在西雅圖華盛頓湖

做多模態(tài)大模型要回答的三個(gè)問題

AI 科技評(píng)論：2020 年的 GAIR 大會(huì)上，您就談到多模態(tài)大模型的愿景。今年 3 月 GPT-4 發(fā)布，果然是多模態(tài)大模型。您能率先預(yù)見多模態(tài)的趨勢(shì)，是否有過往研究經(jīng)歷的背書？

何曉冬：我是 2014 年最早開始做多模態(tài) AI 的那批人之一。

多模態(tài)有它的歷史。在深度學(xué)習(xí)之前，多模態(tài)有過一些工作，但整體都比較粗糙。語言和視覺信號(hào)的處理方式不同，以前 " 生搬硬湊 " 放在一塊做出來的效果并不好，例如一個(gè)簡(jiǎn)單 " 看圖說話 " 的應(yīng)用，把一張視覺圖片用語言描述出來，深度學(xué)習(xí)前采用的方法是，先做一些物體識(shí)別，得到相應(yīng)的關(guān)鍵詞，再把詞拼成一個(gè)句子。在這個(gè)過程中，由于這些圖像是以一個(gè)像素、語言以一個(gè)詞的形式存在，難以將語言和圖像對(duì)應(yīng)起來。

真正開始突破是在 2014 年，微軟發(fā)布了一個(gè)名為 MS COCO 的數(shù)據(jù)集。跟 ImageNet 不一樣，ImageNet 用作識(shí)別，圖片主要以單個(gè)物體的形式存在，例如一個(gè)茶壺、一只小貓，內(nèi)容太復(fù)雜容易出現(xiàn)歧義，增加識(shí)別難度。而 MS COCO 則相反，一開始就是瞄準(zhǔn)了視覺信號(hào)在語義層次的描述，因此數(shù)據(jù)集中的物體更豐富，同時(shí)也會(huì)在標(biāo)注時(shí)讓人用一句話來描述內(nèi)容。

于是在 2014 年的時(shí)候，我開始想如何把語義實(shí)現(xiàn)跨模態(tài)理解。舉個(gè)例子，當(dāng)我們看到一個(gè)茶壺、以及 " 茶壺 " 這個(gè)詞時(shí)，在我們的腦海中反映的是同一個(gè)意思，以概念的形式存在，因此我們認(rèn)為，或許可以語義層次嘗試和完成多模態(tài)智能的統(tǒng)一。

巧合的是，2013 年，我們?cè)l(fā)表過一篇深度結(jié)構(gòu)化語義模型 DSSM（Deep Structured Semantic Models）的工作。當(dāng)初這個(gè)工作發(fā)布時(shí)只針對(duì)單一模態(tài)、即語言，跨模態(tài)的想法出現(xiàn)后，這項(xiàng)工作也從 2014 年開始、被我們用在做語言加視覺的語義對(duì)齊建模，提出了語言 - 視覺深度多模態(tài)語義模型（DMSM）。

這項(xiàng)工作發(fā)表在 CVPR 2015，同時(shí)我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰(zhàn)賽，比賽時(shí)給出一張圖片，由 AI 模型去生成對(duì)應(yīng)的語義描述（圖生文），最后讓人當(dāng)裁判來判斷描述是否準(zhǔn)確，就像做圖靈測(cè)試一樣。最后我們的模型得到那場(chǎng)比賽的第一名，與谷歌并列第一，這也是真正意義上第一次把多模態(tài)這件事比較成功地做起來了。

因此，多模態(tài)智能可以追溯到 2014 年，我的研究方向也在這個(gè)過程中向多模態(tài)轉(zhuǎn)移，從原本只做 NLP 、又往視覺的方向進(jìn)一步擴(kuò)展。

期間我們數(shù)次想將其做成一個(gè)產(chǎn)品，到 2016 年年初這個(gè)想法得以實(shí)現(xiàn)，我們推出了一個(gè)名為 CaptionBot 的 AI 產(chǎn)品。

何曉冬團(tuán)隊(duì)在給納德拉等展示 CaptionBot

像今天的 ChatGPT 一樣，CaptionBot 也是一個(gè)使用很簡(jiǎn)單的產(chǎn)品，通過下載 APP，使用手機(jī)拍照后，CaptionBot 可以精準(zhǔn)對(duì)照片內(nèi)容進(jìn)行文字描述。納德拉在微軟 Build 大會(huì)上發(fā)布后，僅一星期用戶量就突破百萬。

CaptionBot 應(yīng)用相關(guān)報(bào)道

在 Build 大會(huì)上發(fā)布后，我去硅谷參加英偉達(dá)的 GTC 大會(huì)時(shí)，老黃（黃仁勛）也對(duì) CaptionBot 很感興趣，還當(dāng)場(chǎng)測(cè)試了一張。

"Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture" — By CaptionBot

2017 年初，在 CaptionBot 發(fā)布了一年之后，基于期間用戶使用的交互反饋，我們進(jìn)一步提升了它的技術(shù)水平，并把這個(gè)產(chǎn)品集成進(jìn)了 Office 產(chǎn)品家族當(dāng)中去。Office 是微軟公司最重要的產(chǎn)品線之一，這也意味著這個(gè) AI 應(yīng)用的效果達(dá)到了一個(gè)新的水準(zhǔn)。

而技術(shù)研究還在進(jìn)步，在多模態(tài)大模型研究中，一個(gè)重要的基石就在于如何讓語言和視覺信號(hào)進(jìn)行融合和對(duì)齊。在 2018 年，受人類的視覺注意力機(jī)制啟發(fā)，我們進(jìn)一步提出了一個(gè)新的多模態(tài)注意力機(jī)制 "Bottom-up and top-down attention"，為語言和圖像信息在語義層次的對(duì)齊提出了一個(gè)基本框架，某種意義上也奠定了跨模態(tài)信息處理的基礎(chǔ)。（截至發(fā)稿前，該論文的引用次數(shù)已超過 4128 次。）

AI 科技評(píng)論：是什么令您在當(dāng)時(shí)就感知到，多模態(tài)會(huì)是一個(gè)好的方向？

何曉冬：這個(gè)原因很樸素。以前我們經(jīng)常說想做 AGI（通用人工智能），而 AGI 的一個(gè)模板就是人本身。

人的智能行為是多模態(tài)的，比如說我們面對(duì)面聊天時(shí)、不會(huì)是閉著眼睛聊，視覺和語言是對(duì)應(yīng)的。因此，真正的通用人工智能一定是多模態(tài)的。只是以前局限于技術(shù)能力不足，單模態(tài)都處理不好，多模態(tài)就不處理了。

AI 科技評(píng)論：相比語言大模型（單一模態(tài)），多模態(tài)大模型的研究難度是否會(huì)更高？

何曉冬：會(huì)比較難做。在每一個(gè)層次，多模態(tài)都會(huì)比單模態(tài)更挑戰(zhàn)，進(jìn)入大模型時(shí)代，多模態(tài)大模型肯定會(huì)比單模態(tài)大模型更挑戰(zhàn)。

當(dāng)初我們雖然做多模態(tài)模型，但相對(duì)來說模型規(guī)模偏小，沒有做到現(xiàn)在的單模態(tài)大語言模型那么大的規(guī)模。那時(shí)候有個(gè)一億參數(shù)就覺得好像不錯(cuò)了，到現(xiàn)在都是百億、千億的參數(shù)。但我們也看到，今天做大模型相比當(dāng)年做大模型，更挑戰(zhàn)的同時(shí)，合作也更加容易、視野更加開闊了。

AI 科技評(píng)論：從技術(shù)角度來看，主要難在什么地方？

何曉冬：多模態(tài)做大模型的話，有幾個(gè)技術(shù)難點(diǎn)跟大家探討。

第一個(gè)問題是，在哪個(gè)層次上、做多模態(tài)大模型的目的是什么？

這個(gè)目的并非是令語言模型可以具備多模態(tài)功能，如果僅出于這一目的，我們可以通過簡(jiǎn)單調(diào)用另一個(gè)模型實(shí)現(xiàn)。例如跟一個(gè)語言模型說幫我畫畫，那么它可以調(diào) Midjourney 把圖像畫出來，這種屬于比較淺層的多模態(tài)。從任務(wù)層次上看，好像可以完成很多任務(wù)，但在模型層次上，二者是分開、割裂的模型，也無法看到多模態(tài)級(jí)別的智能涌現(xiàn)。

大模型之所以火，不是因?yàn)樗螅且驗(yàn)榭吹搅怂挠楷F(xiàn)。此前的機(jī)器學(xué)習(xí)算法，往往是模型規(guī)模變大后、邊際效果提升越來越小，但現(xiàn)在人們發(fā)現(xiàn)，模型大小過千億后，它的邊際效益是遞增的，突然間效果就上去了，這被稱為智能的 " 涌現(xiàn) "，因此，涌現(xiàn)是大模型最令人著迷的地方。

當(dāng)我們希望看到多模態(tài)層次的涌現(xiàn)時(shí)，意味著我們需要將模型在底層去進(jìn)行語言和視覺的結(jié)合，只有在最底層的結(jié)合才能出現(xiàn)涌現(xiàn)。也就是說，只有這個(gè)模型是稠密的模型，才會(huì)出現(xiàn)涌現(xiàn)的情況。

所以第一個(gè)問題就是，大模型做多模態(tài)，如果目標(biāo)是涌現(xiàn)，那必須要做稠密的多模態(tài)大模型。

第二個(gè)問題是，當(dāng)模型變聰明時(shí)，是在哪一個(gè)層次開始變得聰明？

我們常說一圖勝千言，所以相對(duì)于 " 圖生文 "，" 文生圖 " 是一個(gè)更挑戰(zhàn)性的多模態(tài)任務(wù)。給機(jī)器一兩句話的描述，令其將圖形生成，需要機(jī)器發(fā)揮極大的想象空間。

例如用 " 文生圖 " 模型畫一只鳥，面對(duì)粗略的描述，AI 可以進(jìn)行自動(dòng)細(xì)節(jié)補(bǔ)充，并且不僅是全局對(duì)得上，局部也要對(duì)得上。難點(diǎn)在于，原始視覺信號(hào)只是像素點(diǎn)，而語言信號(hào)最原始就是一個(gè)單詞、一個(gè)字符，二者難以對(duì)齊，層次也不一樣，所以要找到一個(gè)合適的層次，把多模態(tài)信息得以對(duì)齊。現(xiàn)在看起來，如果多模態(tài)模型要變得聰明，將會(huì)出現(xiàn)在語義層次。這個(gè)文字驅(qū)動(dòng)視覺內(nèi)容生成的工作我們?cè)?2017 年底微軟的 " 顛覆性技術(shù)展望 "（Disruptive Technology Review）會(huì)上也給納德拉及管理層做了專題報(bào)告。

2017 年何曉冬及同事用 " 文生圖 " AttnGAN 生成的小鳥

AI 科技評(píng)論：語言模型堆參數(shù)的殺傷力是智能涌現(xiàn)，那么，在多模態(tài)大模型中，堆參數(shù)的意義是什么？在多模態(tài)里，大模型比小模型強(qiáng)在哪？

何曉冬：參數(shù)也很關(guān)鍵，我覺得很可能需要多種規(guī)模參數(shù)的模型。

當(dāng)我們回答 " 做什么模型 " 的第一個(gè)問題后，如果你希望做個(gè)能涌現(xiàn)的模型，那么就必須是一個(gè)稠密的大模型。

第二個(gè)問題是在哪個(gè)層次的多模態(tài)融合？視覺和語言二者層次不一樣，所以要找到一個(gè)合適的層次，把多模態(tài)信息得以對(duì)齊，再期望它能夠涌現(xiàn)。現(xiàn)在看起來可能會(huì)出現(xiàn)在語義層次，但具體怎么樣，還需要探索。

到第三個(gè)問題，就是模型結(jié)構(gòu)和模型大小。

大模型的定義還是很虛的。比如什么叫 " 大 "？千億大了，那百億算不算大，如果是在三年前，一個(gè)十億參數(shù)的模型也能叫 " 大 "。

由于視覺信號(hào)也是復(fù)雜的，因此我認(rèn)為多模態(tài)的模型大小還需要進(jìn)一步增加。

這幾個(gè)問題有些是正在做的，有些可能還在探索。

GPT-4 的創(chuàng)新是對(duì)話，還不在多模態(tài)

AI 科技評(píng)論：從 GPT-3 到 GPT-4，GPT-4 比 GPT-3 強(qiáng)在哪里？其多模態(tài)的技術(shù)底層有哪些創(chuàng)新？

何曉冬：我認(rèn)為 GPT-4 相比 GPT-3 ，最大的創(chuàng)新其實(shí)在于對(duì)話，還沒有在多模態(tài)層次。

GPT-4 在語言模型上、在知識(shí)上做得更深了。有人對(duì)比過，例如面對(duì)同樣的問題，GPT-4 的正確率比 GPT-3.5 要好很多，GPT-3 的效果則差得更遠(yuǎn)，因?yàn)?GPT-3 并不具備對(duì)話能力，只有生成，對(duì)問題各方面的感知、意圖理解等做得并不好。現(xiàn)在 GPT-4 已經(jīng)可以直接詢問多個(gè)問題，且通過多輪對(duì)話、它得以持續(xù)記住過去的歷史。

AI 科技評(píng)論：目前業(yè)內(nèi)說 " 多模態(tài)大模型 "，主要講語音、文本與圖像三種模態(tài)。但目前來說，是否主要是文本與圖像兩種模態(tài)的大模型？

何曉冬：語音也有。我們?cè)?2020 年曾在 IEEE JSTSP 辦過一個(gè)多模態(tài)的智能專刊，除了我們自己做的一個(gè)綜述外，還請(qǐng)到了業(yè)界的比較資深、前沿的學(xué)者進(jìn)行投稿，其中就包括了語音到圖像、語音聲調(diào)等等，因?yàn)檎Z音不光只是文字語音，還覆蓋聲調(diào)、語氣等信息。但不可否認(rèn)的是，至少在早年，多模態(tài)確實(shí)是一個(gè)不那么熱門的話題，一方面是由于技術(shù)難度比較大，另一方面與天然的領(lǐng)域問題有關(guān)，更多學(xué)者還是專注在一個(gè)領(lǐng)域上做研究，跨領(lǐng)域的比較少。

專刊鏈接：https://ieeexplore.ieee.org/document/9126279

AI 科技評(píng)論：此前有研究表明，在單一英語數(shù)據(jù)集上訓(xùn)練的語言模型，雖然沒有經(jīng)過其他語種的訓(xùn)練，但在執(zhí)行其他語言（如中文、日語）的任務(wù)時(shí)性能也有提升。那么，在多模態(tài)里，一種模態(tài)的性能飛躍，是否會(huì)對(duì)其他模態(tài)的智能水平也有所提升？例如，語言模態(tài)的進(jìn)步，對(duì)語音、圖像的智能有影響嗎？

何曉冬：這是有可能的。現(xiàn)在只是語言模態(tài)的飛躍實(shí)現(xiàn)了，視覺還沒有完全起來，因此，一個(gè)模態(tài)帶動(dòng)各種模態(tài)涌現(xiàn)，這也是大家在探索的方向。

舉個(gè)例子，現(xiàn)在大家拿 " 視覺 + 語言 " 來做，一方面是因?yàn)檫@部分?jǐn)?shù)據(jù)比較多，另一方面則是因?yàn)橐曈X和語言最重要。因此，如果這個(gè)方向的探索能夠成功，最終不僅是視覺和語言，更是能提供很多洞察——怎樣做跨模態(tài)、多模態(tài)的涌現(xiàn)。比如說會(huì)不會(huì)用 Transformer 架構(gòu)也是一個(gè)未知數(shù)，不一定用 Transformer，但也可能跟 Transformer 相關(guān)。只是現(xiàn)在還沒看到，需要等待最后出來的是什么，但基礎(chǔ)性的工作已經(jīng)在探索了。

AI 科技評(píng)論：在未來的多模態(tài)大模型中，是否會(huì)存在一種模態(tài)占主宰地位、其他模態(tài)占附庸地位？如文生圖，現(xiàn)在是文字主導(dǎo)，而后生成圖像。

何曉冬：從技術(shù)角度來說，不存在說誰主導(dǎo)誰附庸。比如說 " 文生圖 " 和 " 圖生文 "，我們?nèi)绾闻袛噙@當(dāng)中是文字比圖像重要、還是圖像比文字重要？因?yàn)槎己苤匾?/p>

當(dāng)然，有的人會(huì)認(rèn)為，在圖像或者語音識(shí)別是感知層面的智能，" 感知智能 " 比較基礎(chǔ)，因此被視為是比較低端的智能，很多動(dòng)物也具備感知智能。但在語言層面，一般認(rèn)為其是 " 認(rèn)知智能 "，因?yàn)槲淖指w現(xiàn)人具備的高級(jí)的智能，這也是圖靈所提出的，要通過對(duì)話、而不是識(shí)別圖片的方式，來判斷機(jī)器是否具有智能。

總體而言，或許文字可能更深?yuàn)W一些，但也只能稱為從基礎(chǔ)智能到高層智能，并不能說哪個(gè)模態(tài)要比哪個(gè)模態(tài)更重要。

多模態(tài)的 "ChatGPT 時(shí)刻 " 需要產(chǎn)品

AI 科技評(píng)論：您之前說過一點(diǎn)，讓我們印象特別深刻：ChatGPT 的啟示是 " 產(chǎn)品形態(tài)驅(qū)動(dòng)技術(shù)研究 "。那么，目前主流的多模態(tài)應(yīng)用有哪些？

何曉冬：應(yīng)用比較多的是在數(shù)字人、數(shù)字員工等，數(shù)字人天然是個(gè)多模態(tài)的應(yīng)用。

AI 科技評(píng)論：追逐的過程中，更多是技術(shù)上的飛躍，還是產(chǎn)品上的創(chuàng)新？

何曉冬：應(yīng)用的形式一般不會(huì)讓你感覺特別稀奇，但應(yīng)用的效果會(huì)讓你感覺到驚艷。

在人工智能領(lǐng)域，形態(tài)創(chuàng)新并不重要，基礎(chǔ)形態(tài)既定，如人機(jī)對(duì)話、文生圖、文生視頻等這些基礎(chǔ)形態(tài)大家很早就暢想過，問題在于效果達(dá)不到，有一天效果達(dá)到了、才是一個(gè)大的飛躍。比如在人機(jī)對(duì)話這個(gè)基礎(chǔ)形態(tài)上，可以做導(dǎo)購、推薦、營(yíng)銷、客服、助理等等，這些則被稱作衍生形態(tài)。但如果基礎(chǔ)形態(tài)效果不到位，衍生形態(tài)更加不到位。

ChatGPT 也一樣，人機(jī)對(duì)話這件事并不新鮮，大家之所以對(duì) ChatGPT 覺得驚艷，它的效果是有目共睹的。

同理，今天我們?nèi)タ紤]多模態(tài)的應(yīng)用意義并不大，因?yàn)槎嗄B(tài)大模型的涌現(xiàn)還未實(shí)現(xiàn)，當(dāng)多模態(tài)可用深度理解意圖，隨時(shí)可控地對(duì)視覺、語言等各方面信息做融合，基礎(chǔ)形態(tài)實(shí)現(xiàn)了，更多衍生形態(tài)自然會(huì)出現(xiàn)。

AI 科技評(píng)論：前面我們談到了它（多模態(tài)大模型）在技術(shù)角度的難度，從產(chǎn)品方向來看，目前落地的難度在哪里？

何曉冬：主要在多模態(tài)大模型它的可控性上，特別是對(duì)細(xì)節(jié)的理解和可控。這一塊是我認(rèn)為比較重要的。

比如 Midjourney 畫圖，雖然比自己畫的要好，可能整體表現(xiàn)很好，但在刻畫手指等細(xì)節(jié)上還不夠好，往往需要生成很多張、從當(dāng)中挑出一張，還是有這個(gè)過程。

再舉個(gè)例子，現(xiàn)在大家所說的 Prompt，在我看來這正是一個(gè) bug、或者說它不足的地方，是技術(shù)還有缺陷的一個(gè)體現(xiàn)，就是因?yàn)槟Ｐ蛯?duì)語言的理解還不夠好，因此才需要人去練 " 咒語 "，隨著技術(shù)進(jìn)步，練 " 咒語 " 這件事情將不存在。

AI 科技評(píng)論：現(xiàn)有的產(chǎn)品，對(duì)于多模態(tài)大模型的進(jìn)步是否有 ChatGPT " 模型 - 用戶數(shù)據(jù) - 模型迭代 - 用戶數(shù)據(jù) " 的飛輪式迭代？

何曉冬：這個(gè)方式是對(duì)的，并且我也認(rèn)為，下一個(gè)多模態(tài)大模型可能還是會(huì)按照這樣的方式。

首先，在技術(shù)上能看到一個(gè)突破性的革命，其次在產(chǎn)品形態(tài)上會(huì)有一個(gè)可用的產(chǎn)品發(fā)布出來，真正地走入公眾，只有走到 Public，這個(gè)數(shù)據(jù)才真正得以解放。這部分的數(shù)據(jù)并非花錢標(biāo)注就可以得到，標(biāo)注只是第二步的。我們所說的數(shù)據(jù)往往包括原始數(shù)據(jù)和數(shù)據(jù)標(biāo)注，標(biāo)注可通過找人、花錢就可以把這件事完成，真正困難的是原始數(shù)據(jù)的獲得。只有讓大家一起用、才能實(shí)現(xiàn)真實(shí)可靠的原始數(shù)據(jù)獲取。一個(gè)術(shù)語，就叫做數(shù)據(jù)的均衡采樣。將整個(gè)地球的所有用戶和用戶活動(dòng)視為一個(gè)空間，當(dāng)你希望你的模型可以服務(wù)這么多人，那么相對(duì)應(yīng)的數(shù)據(jù)也需要對(duì)目標(biāo)用戶空間比較均衡的采樣。為了做到這一點(diǎn)，最好辦法就是先發(fā)布一個(gè)變革性的產(chǎn)品、讓全部人一起使用它。

AI 科技評(píng)論：這個(gè)范式在 2016 年您和團(tuán)隊(duì)做 CaptionBot 時(shí)就已經(jīng)歷過了，為什么當(dāng)時(shí) CaptionBot 沒能成為今天的 ChatGPT ？

何曉冬：我們其實(shí)走的過程其實(shí)特別像 ChatGPT：最開始有篇論文發(fā)表在 2015 年，緊接著 2016 年初做成一個(gè)公眾可用的產(chǎn)品，把它發(fā)布出來。

由于論文往往是在一個(gè)有局限的學(xué)術(shù)數(shù)據(jù)里，規(guī)模、覆蓋各方面比較局限性，通用性存在不足，如果希望它能夠走得更遠(yuǎn)，最好的辦法就是把它做成一個(gè)新的形態(tài)、打造一個(gè)產(chǎn)品，對(duì)全世界通用，從學(xué)術(shù)中僅靠一些學(xué)生去收集、標(biāo)注數(shù)據(jù)，轉(zhuǎn)變?yōu)槿虬偃f級(jí)、千萬級(jí)的用戶成為數(shù)據(jù)反饋的人。這產(chǎn)品可能很粗糙，正如當(dāng)初我們的 CaptionBot 只是一個(gè) APP，今天的 ChatGPT 也很粗糙、只是一個(gè)對(duì)話框，但是粗糙沒關(guān)系，只要大家覺得真的有意思、有用，很快就能形成爆品。通過用戶使用的數(shù)據(jù)可以用于進(jìn)一步提升算法、模型，隨之進(jìn)入第三個(gè)階段、即嚴(yán)肅的產(chǎn)品使用階段。

這 " 三步走 " 我們?cè)谄吣昵耙呀?jīng)走過，但當(dāng)初走得有點(diǎn)慢，最終沒能夠做到一定的服務(wù)規(guī)模，是今天我感覺有點(diǎn)遺憾的地方。現(xiàn)在微軟快多了，像去年底 ChatGPT 出來，到現(xiàn)在才半年，GPT 已經(jīng)全面進(jìn)入微軟各大核心產(chǎn)品線。

其實(shí)這次 OpenAI 展現(xiàn)出來的一個(gè)新趨勢(shì)，即是產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新是不分家的。產(chǎn)品的定義是，讓普通大眾可以直接使用的，首先第一步是先用起來。在這個(gè)層面上來說，AlphaGo 不是一個(gè)產(chǎn)品，而 ChatGPT 是。

AI 科技評(píng)論：一個(gè)不得不直視的現(xiàn)實(shí)是，即使在語言大模型上，中國(guó)的多個(gè)大模型產(chǎn)品的智能水平跟國(guó)外也仍有一定差距。國(guó)內(nèi)語言大模型的研究局限性，能否給多模態(tài)大模型的研究新征程帶來啟發(fā)？

何曉冬：在跟用戶溝通交流中學(xué)習(xí)智能。這也是為什么我們對(duì) ChatGPT 會(huì)看得更深一點(diǎn)。

ChatGPT 確實(shí)很厲害，但它的厲害之處在于它的廣度上，它的深度其實(shí)并不夠。例如金融領(lǐng)域的一些項(xiàng)目，就無法直接使用 ChatGPT 來解決問題，需要與具體的金融知識(shí)等行業(yè) Know-How 相結(jié)合，同時(shí)還要經(jīng)過實(shí)戰(zhàn)磨練。

比如對(duì)話可以分為合作性對(duì)話和對(duì)抗性對(duì)話，其中，合作性對(duì)話指用戶愿意配合完成的對(duì)話，例如客服等。而對(duì)抗性對(duì)話則包括了談判等存在一定博弈與對(duì)立的內(nèi)容。而越高價(jià)值的對(duì)話，往往博弈性越強(qiáng)，對(duì)機(jī)器智能要求也越高，這都是在技術(shù)與實(shí)際場(chǎng)景結(jié)合中所得到的認(rèn)知和經(jīng)驗(yàn)。

今天的 ChatGPT 已經(jīng)不再考慮圖靈測(cè)試，它甚至?xí)嬖V你：" 我是個(gè)語言模型，你有什么要問的？" 它不需要欺騙人，因?yàn)樗兰幢阄沂且粋€(gè)機(jī)器、你也會(huì)跟我對(duì)話，這就是技術(shù)進(jìn)步的一個(gè)重要體現(xiàn)，也是其開始變成生產(chǎn)力的一個(gè)重要體現(xiàn)。

多模態(tài)大模型的研究需要離落地更近，我認(rèn)為，這對(duì)科學(xué)而言是一種促進(jìn)、而非限制。計(jì)算機(jī)作為典型的應(yīng)用科學(xué)，很多重要的課題是在應(yīng)用中被反向牽引，因?yàn)榇罅康膽?yīng)用需求，從而促生更多變量和經(jīng)驗(yàn)體系的發(fā)展。

AI 科技評(píng)論：對(duì)比多模態(tài)研究的早期階段，現(xiàn)在的多模態(tài)大模型有哪些革命性的進(jìn)步？

何曉冬：以數(shù)字人為例，它的突破是很大的。回到 2014 年，當(dāng)時(shí)的數(shù)字人幾乎不可用，到近兩年才真正可用，當(dāng)中關(guān)于數(shù)字人形象生成控制，包括形象層和語言層的對(duì)齊等方面，都離不開多模態(tài)技術(shù)的參與。

但多模態(tài)大模型的 ChatGPT 時(shí)刻還沒到來，可能還需要點(diǎn)時(shí)間，或者需要更多的數(shù)據(jù)、創(chuàng)新的算法，暫時(shí)還沒有爆發(fā)。

AI 科技評(píng)論：如果說 ChatGPT 可能已經(jīng)是語言大模型的 AGI 終極形態(tài)，那么多模態(tài)大模型的 AGI 產(chǎn)品形態(tài)應(yīng)該是什么樣的？您對(duì)多模態(tài)的研究設(shè)想是怎樣的？

何曉冬：回到本源，當(dāng)我們說通用人工智能時(shí)，往往是以人為標(biāo)桿的，我們也希望所有的產(chǎn)品是為人而服務(wù)的，在未來所有的 AGI 藍(lán)圖里，人是一個(gè)核心存在。我們永遠(yuǎn)不希望看到人被邊緣化，如果人被邊緣化，那么這個(gè)世界對(duì)人類沒意義。

因此，多模態(tài)既是一個(gè)路徑，也是一個(gè)要求。

一個(gè)路徑是指，人被視為這個(gè)世界上最聰明的智能體，如果想打造一個(gè)像人一樣聰明的 AGI ，就需要向人學(xué)習(xí)，通過多模態(tài)方式來進(jìn)行知識(shí)融合、知識(shí)獲取，這是讓機(jī)器走向 AGI 的必經(jīng)之路。

另一方面，多模態(tài)可能也是個(gè)要求。未來人跟機(jī)器打交道時(shí)，必然是通過語言、視覺、語音跟機(jī)器進(jìn)行溝通的，所以機(jī)器也必須能夠理解相應(yīng)的信息，否則機(jī)器就無法服務(wù)人。

因此，多模態(tài)既是 AGI 的必經(jīng)之路，或許也是對(duì) AGI 的一個(gè)要求。

（雷峰網(wǎng)雷峰網(wǎng)）

關(guān)鍵詞：

責(zé)任編輯：hnmd003