首頁 > 新聞 > 智能 > 正文

        對(duì)話京東何曉冬:「多模態(tài)大模型」涌現(xiàn)之前,要先回答三個(gè)問題|當(dāng)前滾動(dòng)

        2023-06-08 22:07:44來源:ZAKER科技  

        在關(guān)于 ChatGPT 的討論中," 數(shù)據(jù)飛輪 " 被視為是經(jīng) ChatGPT 所驗(yàn)證的變革引擎,是大模型智能飛躍中的關(guān)鍵一環(huán):向用戶開放模型,建立用戶真實(shí)數(shù)據(jù)反饋與模型迭代間的飛輪,用戶反饋數(shù)據(jù)越多,模型的迭代速度也越快。

        但很少有人知道,這一路線早在七年前,何曉冬與他當(dāng)時(shí)所在的微軟雷德蒙德研究院深度學(xué)習(xí)技術(shù)中心的團(tuán)隊(duì)同事就已經(jīng)走過。

        那是在 2016 年 3 月,納德拉(微軟 CEO)帶著一個(gè)名為 CaptionBot 的 AI 應(yīng)用產(chǎn)品亮相微軟 Build 大會(huì),CaptionBot 跟全球用戶見面僅一星期,用戶量就突破百萬。


        (資料圖片僅供參考)

        同樣是先有一篇論文,在技術(shù)上取得突破,再推出一個(gè)產(chǎn)品讓用戶參與使用,但過去的 CaptionBot 最終沒能成為今天的 ChatGPT。在接受 AI 科技評(píng)論的采訪時(shí),何曉冬表達(dá)了自己的遺憾。

        新機(jī)遇在七年后的大模型時(shí)代再次到來。

        在過去五年的 CVPR 發(fā)表論文排序中,排名前二十的論文里,與多模態(tài)研究相關(guān)的工作僅一篇。這個(gè)工作由何曉冬帶領(lǐng)團(tuán)隊(duì)完成,論文所提出的 "Bottom-up and top-down attention" 注意力機(jī)制,用于跨模態(tài)的語言和圖像信息在語義層次的對(duì)齊研究,單篇引用量已超過 4000 次。

        Sam Altman 在談及 AGI 的前景中,提出了必須要共同進(jìn)化,才能達(dá)到通用智能,實(shí)現(xiàn)通用智能的要素之一,正是語言大模型令人們?yōu)橹缘?" 涌現(xiàn) " 時(shí)刻。多模態(tài)的 " 涌現(xiàn) " 暫未出現(xiàn),何曉冬認(rèn)為,在多模態(tài)大模型的技術(shù)探索路線中必須回答三個(gè)問題,首先就是決定在哪個(gè)層次做多模態(tài)信息的融合。

        何曉冬給出的答案是,在語義層次的對(duì)齊、融合。

        而在技術(shù)之外,ChatGPT 為人稱道的 " 極致工程化 ",將產(chǎn)品在變革中所扮演的角色推向了一個(gè)新的高度。

        正如七年前 CaptionBot 第一次邁進(jìn)的 " 河 "、以及 ChatGPT 第二次踏進(jìn) " 同一條河 ",何曉冬相信多模態(tài)大模型也會(huì)按照同樣的方式,先取得突破性的技術(shù)革命、發(fā)布一個(gè)粗糙但可用的產(chǎn)品、真正走入用戶。" 產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新不分家,不管多粗糙、首先第一步是先用起來。"

        大模型會(huì)帶來 AI 技術(shù)的普惠,而不是加劇技術(shù)鴻溝。當(dāng)大模型具備了信息壓縮、知識(shí)網(wǎng)絡(luò)構(gòu)建、邏輯判斷與推理等良好能力之后,下一個(gè)臺(tái)階的踏步高度就會(huì)降低。此時(shí),產(chǎn)業(yè)受益之處就體現(xiàn)出來了,產(chǎn)業(yè)利潤(rùn)低洼地的企業(yè),以及供應(yīng)鏈上地位低的中小企業(yè)都有機(jī)會(huì)用上 " 大模型 "。如此一來,不僅不會(huì)加大數(shù)字和技術(shù)鴻溝,還會(huì)產(chǎn)生普惠價(jià)值。

        何曉冬在西雅圖華盛頓湖

        做多模態(tài)大模型要回答的三個(gè)問題

        AI 科技評(píng)論:2020 年的 GAIR 大會(huì)上,您就談到多模態(tài)大模型的愿景。今年 3 月 GPT-4 發(fā)布,果然是多模態(tài)大模型。您能率先預(yù)見多模態(tài)的趨勢(shì),是否有過往研究經(jīng)歷的背書?

        何曉冬:我是 2014 年最早開始做多模態(tài) AI 的那批人之一。

        多模態(tài)有它的歷史。在深度學(xué)習(xí)之前,多模態(tài)有過一些工作,但整體都比較粗糙。語言和視覺信號(hào)的處理方式不同,以前 " 生搬硬湊 " 放在一塊做出來的效果并不好,例如一個(gè)簡(jiǎn)單 " 看圖說話 " 的應(yīng)用,把一張視覺圖片用語言描述出來,深度學(xué)習(xí)前采用的方法是,先做一些物體識(shí)別,得到相應(yīng)的關(guān)鍵詞,再把詞拼成一個(gè)句子。在這個(gè)過程中,由于這些圖像是以一個(gè)像素、語言以一個(gè)詞的形式存在,難以將語言和圖像對(duì)應(yīng)起來。

        真正開始突破是在 2014 年,微軟發(fā)布了一個(gè)名為 MS COCO 的數(shù)據(jù)集。跟 ImageNet 不一樣,ImageNet 用作識(shí)別,圖片主要以單個(gè)物體的形式存在,例如一個(gè)茶壺、一只小貓,內(nèi)容太復(fù)雜容易出現(xiàn)歧義,增加識(shí)別難度。而 MS COCO 則相反,一開始就是瞄準(zhǔn)了視覺信號(hào)在語義層次的描述,因此數(shù)據(jù)集中的物體更豐富,同時(shí)也會(huì)在標(biāo)注時(shí)讓人用一句話來描述內(nèi)容。

        于是在 2014 年的時(shí)候,我開始想如何把語義實(shí)現(xiàn)跨模態(tài)理解。舉個(gè)例子,當(dāng)我們看到一個(gè)茶壺、以及 " 茶壺 " 這個(gè)詞時(shí),在我們的腦海中反映的是同一個(gè)意思,以概念的形式存在,因此我們認(rèn)為,或許可以語義層次嘗試和完成多模態(tài)智能的統(tǒng)一。

        巧合的是,2013 年,我們?cè)l(fā)表過一篇深度結(jié)構(gòu)化語義模型 DSSM(Deep Structured Semantic Models)的工作。當(dāng)初這個(gè)工作發(fā)布時(shí)只針對(duì)單一模態(tài)、即語言,跨模態(tài)的想法出現(xiàn)后,這項(xiàng)工作也從 2014 年開始、被我們用在做語言加視覺的語義對(duì)齊建模,提出了語言 - 視覺深度多模態(tài)語義模型(DMSM)。

        這項(xiàng)工作發(fā)表在 CVPR 2015,同時(shí)我們也參加了 2015 年的 MS COCO 圖像字幕生成挑戰(zhàn)賽,比賽時(shí)給出一張圖片,由 AI 模型去生成對(duì)應(yīng)的語義描述(圖生文),最后讓人當(dāng)裁判來判斷描述是否準(zhǔn)確,就像做圖靈測(cè)試一樣。最后我們的模型得到那場(chǎng)比賽的第一名,與谷歌并列第一,這也是真正意義上第一次把多模態(tài)這件事比較成功地做起來了。

        因此,多模態(tài)智能可以追溯到 2014 年,我的研究方向也在這個(gè)過程中向多模態(tài)轉(zhuǎn)移,從原本只做 NLP 、又往視覺的方向進(jìn)一步擴(kuò)展。

        期間我們數(shù)次想將其做成一個(gè)產(chǎn)品,到 2016 年年初這個(gè)想法得以實(shí)現(xiàn),我們推出了一個(gè)名為 CaptionBot 的 AI 產(chǎn)品。

        何曉冬團(tuán)隊(duì)在給納德拉等展示 CaptionBot

        像今天的 ChatGPT 一樣,CaptionBot 也是一個(gè)使用很簡(jiǎn)單的產(chǎn)品,通過下載 APP,使用手機(jī)拍照后,CaptionBot 可以精準(zhǔn)對(duì)照片內(nèi)容進(jìn)行文字描述。納德拉在微軟 Build 大會(huì)上發(fā)布后,僅一星期用戶量就突破百萬。

        CaptionBot 應(yīng)用相關(guān)報(bào)道

        在 Build 大會(huì)上發(fā)布后,我去硅谷參加英偉達(dá)的 GTC 大會(huì)時(shí),老黃(黃仁勛)也對(duì) CaptionBot 很感興趣,還當(dāng)場(chǎng)測(cè)試了一張。

        "Jen-Hsun Huang, Xiaodong He, Jian Sun et al., that are posing for a picture" — By CaptionBot

        2017 年初,在 CaptionBot 發(fā)布了一年之后,基于期間用戶使用的交互反饋,我們進(jìn)一步提升了它的技術(shù)水平,并把這個(gè)產(chǎn)品集成進(jìn)了 Office 產(chǎn)品家族當(dāng)中去。Office 是微軟公司最重要的產(chǎn)品線之一,這也意味著這個(gè) AI 應(yīng)用的效果達(dá)到了一個(gè)新的水準(zhǔn)。

        而技術(shù)研究還在進(jìn)步,在多模態(tài)大模型研究中,一個(gè)重要的基石就在于如何讓語言和視覺信號(hào)進(jìn)行融合和對(duì)齊。在 2018 年,受人類的視覺注意力機(jī)制啟發(fā),我們進(jìn)一步提出了一個(gè)新的多模態(tài)注意力機(jī)制 "Bottom-up and top-down attention",為語言和圖像信息在語義層次的對(duì)齊提出了一個(gè)基本框架,某種意義上也奠定了跨模態(tài)信息處理的基礎(chǔ)。(截至發(fā)稿前,該論文的引用次數(shù)已超過 4128 次。)

        AI 科技評(píng)論:是什么令您在當(dāng)時(shí)就感知到,多模態(tài)會(huì)是一個(gè)好的方向?

        何曉冬:這個(gè)原因很樸素。以前我們經(jīng)常說想做 AGI(通用人工智能),而 AGI 的一個(gè)模板就是人本身。

        人的智能行為是多模態(tài)的,比如說我們面對(duì)面聊天時(shí)、不會(huì)是閉著眼睛聊,視覺和語言是對(duì)應(yīng)的。因此,真正的通用人工智能一定是多模態(tài)的。只是以前局限于技術(shù)能力不足,單模態(tài)都處理不好,多模態(tài)就不處理了。

        AI 科技評(píng)論:相比語言大模型(單一模態(tài)),多模態(tài)大模型的研究難度是否會(huì)更高?

        何曉冬:會(huì)比較難做。在每一個(gè)層次,多模態(tài)都會(huì)比單模態(tài)更挑戰(zhàn),進(jìn)入大模型時(shí)代,多模態(tài)大模型肯定會(huì)比單模態(tài)大模型更挑戰(zhàn)。

        當(dāng)初我們雖然做多模態(tài)模型,但相對(duì)來說模型規(guī)模偏小,沒有做到現(xiàn)在的單模態(tài)大語言模型那么大的規(guī)模。那時(shí)候有個(gè)一億參數(shù)就覺得好像不錯(cuò)了,到現(xiàn)在都是百億、千億的參數(shù)。但我們也看到,今天做大模型相比當(dāng)年做大模型,更挑戰(zhàn)的同時(shí),合作也更加容易、視野更加開闊了。

        AI 科技評(píng)論:從技術(shù)角度來看,主要難在什么地方?

        何曉冬:多模態(tài)做大模型的話,有幾個(gè)技術(shù)難點(diǎn)跟大家探討。

        第一個(gè)問題是,在哪個(gè)層次上、做多模態(tài)大模型的目的是什么?

        這個(gè)目的并非是令語言模型可以具備多模態(tài)功能,如果僅出于這一目的,我們可以通過簡(jiǎn)單調(diào)用另一個(gè)模型實(shí)現(xiàn)。例如跟一個(gè)語言模型說幫我畫畫,那么它可以調(diào) Midjourney 把圖像畫出來,這種屬于比較淺層的多模態(tài)。從任務(wù)層次上看,好像可以完成很多任務(wù),但在模型層次上,二者是分開、割裂的模型,也無法看到多模態(tài)級(jí)別的智能涌現(xiàn)。

        大模型之所以火,不是因?yàn)樗螅且驗(yàn)榭吹搅怂挠楷F(xiàn)。此前的機(jī)器學(xué)習(xí)算法,往往是模型規(guī)模變大后、邊際效果提升越來越小,但現(xiàn)在人們發(fā)現(xiàn),模型大小過千億后,它的邊際效益是遞增的,突然間效果就上去了,這被稱為智能的 " 涌現(xiàn) ",因此,涌現(xiàn)是大模型最令人著迷的地方。

        當(dāng)我們希望看到多模態(tài)層次的涌現(xiàn)時(shí),意味著我們需要將模型在底層去進(jìn)行語言和視覺的結(jié)合,只有在最底層的結(jié)合才能出現(xiàn)涌現(xiàn)。也就是說,只有這個(gè)模型是稠密的模型,才會(huì)出現(xiàn)涌現(xiàn)的情況。

        所以第一個(gè)問題就是,大模型做多模態(tài),如果目標(biāo)是涌現(xiàn),那必須要做稠密的多模態(tài)大模型。

        第二個(gè)問題是,當(dāng)模型變聰明時(shí),是在哪一個(gè)層次開始變得聰明?

        我們常說一圖勝千言,所以相對(duì)于 " 圖生文 "," 文生圖 " 是一個(gè)更挑戰(zhàn)性的多模態(tài)任務(wù)。給機(jī)器一兩句話的描述,令其將圖形生成,需要機(jī)器發(fā)揮極大的想象空間。

        例如用 " 文生圖 " 模型畫一只鳥,面對(duì)粗略的描述,AI 可以進(jìn)行自動(dòng)細(xì)節(jié)補(bǔ)充,并且不僅是全局對(duì)得上,局部也要對(duì)得上。難點(diǎn)在于,原始視覺信號(hào)只是像素點(diǎn),而語言信號(hào)最原始就是一個(gè)單詞、一個(gè)字符,二者難以對(duì)齊,層次也不一樣,所以要找到一個(gè)合適的層次,把多模態(tài)信息得以對(duì)齊。現(xiàn)在看起來,如果多模態(tài)模型要變得聰明,將會(huì)出現(xiàn)在語義層次。這個(gè)文字驅(qū)動(dòng)視覺內(nèi)容生成的工作我們?cè)?2017 年底微軟的 " 顛覆性技術(shù)展望 "(Disruptive Technology Review)會(huì)上也給納德拉及管理層做了專題報(bào)告。

        2017 年何曉冬及同事用 " 文生圖 " AttnGAN 生成的小鳥

        AI 科技評(píng)論:語言模型堆參數(shù)的殺傷力是智能涌現(xiàn),那么,在多模態(tài)大模型中,堆參數(shù)的意義是什么?在多模態(tài)里,大模型比小模型強(qiáng)在哪?

        何曉冬:參數(shù)也很關(guān)鍵,我覺得很可能需要多種規(guī)模參數(shù)的模型。

        當(dāng)我們回答 " 做什么模型 " 的第一個(gè)問題后,如果你希望做個(gè)能涌現(xiàn)的模型,那么就必須是一個(gè)稠密的大模型。

        第二個(gè)問題是在哪個(gè)層次的多模態(tài)融合?視覺和語言二者層次不一樣,所以要找到一個(gè)合適的層次,把多模態(tài)信息得以對(duì)齊,再期望它能夠涌現(xiàn)。現(xiàn)在看起來可能會(huì)出現(xiàn)在語義層次,但具體怎么樣,還需要探索。

        到第三個(gè)問題,就是模型結(jié)構(gòu)和模型大小。

        大模型的定義還是很虛的。比如什么叫 " 大 "?千億大了,那百億算不算大,如果是在三年前,一個(gè)十億參數(shù)的模型也能叫 " 大 "。

        由于視覺信號(hào)也是復(fù)雜的,因此我認(rèn)為多模態(tài)的模型大小還需要進(jìn)一步增加。

        這幾個(gè)問題有些是正在做的,有些可能還在探索。

        GPT-4 的創(chuàng)新是對(duì)話,還不在多模態(tài)

        AI 科技評(píng)論:從 GPT-3 到 GPT-4,GPT-4 比 GPT-3 強(qiáng)在哪里?其多模態(tài)的技術(shù)底層有哪些創(chuàng)新?

        何曉冬:我認(rèn)為 GPT-4 相比 GPT-3 ,最大的創(chuàng)新其實(shí)在于對(duì)話,還沒有在多模態(tài)層次。

        GPT-4 在語言模型上、在知識(shí)上做得更深了。有人對(duì)比過,例如面對(duì)同樣的問題,GPT-4 的正確率比 GPT-3.5 要好很多,GPT-3 的效果則差得更遠(yuǎn),因?yàn)?GPT-3 并不具備對(duì)話能力,只有生成,對(duì)問題各方面的感知、意圖理解等做得并不好。現(xiàn)在 GPT-4 已經(jīng)可以直接詢問多個(gè)問題,且通過多輪對(duì)話、它得以持續(xù)記住過去的歷史。

        AI 科技評(píng)論:目前業(yè)內(nèi)說 " 多模態(tài)大模型 ",主要講語音、文本與圖像三種模態(tài)。但目前來說,是否主要是文本與圖像兩種模態(tài)的大模型?

        何曉冬:語音也有。我們?cè)?2020 年曾在 IEEE JSTSP 辦過一個(gè)多模態(tài)的智能專刊,除了我們自己做的一個(gè)綜述外,還請(qǐng)到了業(yè)界的比較資深、前沿的學(xué)者進(jìn)行投稿,其中就包括了語音到圖像、語音聲調(diào)等等,因?yàn)檎Z音不光只是文字語音,還覆蓋聲調(diào)、語氣等信息。但不可否認(rèn)的是,至少在早年,多模態(tài)確實(shí)是一個(gè)不那么熱門的話題,一方面是由于技術(shù)難度比較大,另一方面與天然的領(lǐng)域問題有關(guān),更多學(xué)者還是專注在一個(gè)領(lǐng)域上做研究,跨領(lǐng)域的比較少。

        專刊鏈接:https://ieeexplore.ieee.org/document/9126279

        AI 科技評(píng)論:此前有研究表明,在單一英語數(shù)據(jù)集上訓(xùn)練的語言模型,雖然沒有經(jīng)過其他語種的訓(xùn)練,但在執(zhí)行其他語言(如中文、日語)的任務(wù)時(shí)性能也有提升。那么,在多模態(tài)里,一種模態(tài)的性能飛躍,是否會(huì)對(duì)其他模態(tài)的智能水平也有所提升?例如,語言模態(tài)的進(jìn)步,對(duì)語音、圖像的智能有影響嗎?

        何曉冬:這是有可能的。現(xiàn)在只是語言模態(tài)的飛躍實(shí)現(xiàn)了,視覺還沒有完全起來,因此,一個(gè)模態(tài)帶動(dòng)各種模態(tài)涌現(xiàn),這也是大家在探索的方向。

        舉個(gè)例子,現(xiàn)在大家拿 " 視覺 + 語言 " 來做,一方面是因?yàn)檫@部分?jǐn)?shù)據(jù)比較多,另一方面則是因?yàn)橐曈X和語言最重要。因此,如果這個(gè)方向的探索能夠成功,最終不僅是視覺和語言,更是能提供很多洞察——怎樣做跨模態(tài)、多模態(tài)的涌現(xiàn)。比如說會(huì)不會(huì)用 Transformer 架構(gòu)也是一個(gè)未知數(shù),不一定用 Transformer,但也可能跟 Transformer 相關(guān)。只是現(xiàn)在還沒看到,需要等待最后出來的是什么,但基礎(chǔ)性的工作已經(jīng)在探索了。

        AI 科技評(píng)論:在未來的多模態(tài)大模型中,是否會(huì)存在一種模態(tài)占主宰地位、其他模態(tài)占附庸地位?如文生圖,現(xiàn)在是文字主導(dǎo),而后生成圖像。

        何曉冬:從技術(shù)角度來說,不存在說誰主導(dǎo)誰附庸。比如說 " 文生圖 " 和 " 圖生文 ",我們?nèi)绾闻袛噙@當(dāng)中是文字比圖像重要、還是圖像比文字重要?因?yàn)槎己苤匾?/p>

        當(dāng)然,有的人會(huì)認(rèn)為,在圖像或者語音識(shí)別是感知層面的智能," 感知智能 " 比較基礎(chǔ),因此被視為是比較低端的智能,很多動(dòng)物也具備感知智能。但在語言層面,一般認(rèn)為其是 " 認(rèn)知智能 ",因?yàn)槲淖指w現(xiàn)人具備的高級(jí)的智能,這也是圖靈所提出的,要通過對(duì)話、而不是識(shí)別圖片的方式,來判斷機(jī)器是否具有智能。

        總體而言,或許文字可能更深?yuàn)W一些,但也只能稱為從基礎(chǔ)智能到高層智能,并不能說哪個(gè)模態(tài)要比哪個(gè)模態(tài)更重要。

        多模態(tài)的 "ChatGPT 時(shí)刻 " 需要產(chǎn)品

        AI 科技評(píng)論:您之前說過一點(diǎn),讓我們印象特別深刻:ChatGPT 的啟示是 " 產(chǎn)品形態(tài)驅(qū)動(dòng)技術(shù)研究 "。那么,目前主流的多模態(tài)應(yīng)用有哪些?

        何曉冬:應(yīng)用比較多的是在數(shù)字人、數(shù)字員工等,數(shù)字人天然是個(gè)多模態(tài)的應(yīng)用。

        AI 科技評(píng)論:追逐的過程中,更多是技術(shù)上的飛躍,還是產(chǎn)品上的創(chuàng)新?

        何曉冬:應(yīng)用的形式一般不會(huì)讓你感覺特別稀奇,但應(yīng)用的效果會(huì)讓你感覺到驚艷。

        在人工智能領(lǐng)域,形態(tài)創(chuàng)新并不重要,基礎(chǔ)形態(tài)既定,如人機(jī)對(duì)話、文生圖、文生視頻等這些基礎(chǔ)形態(tài)大家很早就暢想過,問題在于效果達(dá)不到,有一天效果達(dá)到了、才是一個(gè)大的飛躍。比如在人機(jī)對(duì)話這個(gè)基礎(chǔ)形態(tài)上,可以做導(dǎo)購、推薦、營(yíng)銷、客服、助理等等,這些則被稱作衍生形態(tài)。但如果基礎(chǔ)形態(tài)效果不到位,衍生形態(tài)更加不到位。

        ChatGPT 也一樣,人機(jī)對(duì)話這件事并不新鮮,大家之所以對(duì) ChatGPT 覺得驚艷,它的效果是有目共睹的。

        同理,今天我們?nèi)タ紤]多模態(tài)的應(yīng)用意義并不大,因?yàn)槎嗄B(tài)大模型的涌現(xiàn)還未實(shí)現(xiàn),當(dāng)多模態(tài)可用深度理解意圖,隨時(shí)可控地對(duì)視覺、語言等各方面信息做融合,基礎(chǔ)形態(tài)實(shí)現(xiàn)了,更多衍生形態(tài)自然會(huì)出現(xiàn)。

        AI 科技評(píng)論:前面我們談到了它(多模態(tài)大模型)在技術(shù)角度的難度,從產(chǎn)品方向來看,目前落地的難度在哪里?

        何曉冬:主要在多模態(tài)大模型它的可控性上,特別是對(duì)細(xì)節(jié)的理解和可控。這一塊是我認(rèn)為比較重要的。

        比如 Midjourney 畫圖,雖然比自己畫的要好,可能整體表現(xiàn)很好,但在刻畫手指等細(xì)節(jié)上還不夠好,往往需要生成很多張、從當(dāng)中挑出一張,還是有這個(gè)過程。

        再舉個(gè)例子,現(xiàn)在大家所說的 Prompt,在我看來這正是一個(gè) bug、或者說它不足的地方,是技術(shù)還有缺陷的一個(gè)體現(xiàn),就是因?yàn)槟P蛯?duì)語言的理解還不夠好,因此才需要人去練 " 咒語 ",隨著技術(shù)進(jìn)步,練 " 咒語 " 這件事情將不存在。

        AI 科技評(píng)論:現(xiàn)有的產(chǎn)品,對(duì)于多模態(tài)大模型的進(jìn)步是否有 ChatGPT " 模型 - 用戶數(shù)據(jù) - 模型迭代 - 用戶數(shù)據(jù) " 的飛輪式迭代?

        何曉冬:這個(gè)方式是對(duì)的,并且我也認(rèn)為,下一個(gè)多模態(tài)大模型可能還是會(huì)按照這樣的方式。

        首先,在技術(shù)上能看到一個(gè)突破性的革命,其次在產(chǎn)品形態(tài)上會(huì)有一個(gè)可用的產(chǎn)品發(fā)布出來,真正地走入公眾, 只有走到 Public,這個(gè)數(shù)據(jù)才真正得以解放。這部分的數(shù)據(jù)并非花錢標(biāo)注就可以得到,標(biāo)注只是第二步的。我們所說的數(shù)據(jù)往往包括原始數(shù)據(jù)和數(shù)據(jù)標(biāo)注,標(biāo)注可通過找人、花錢就可以把這件事完成,真正困難的是原始數(shù)據(jù)的獲得。只有讓大家一起用、才能實(shí)現(xiàn)真實(shí)可靠的原始數(shù)據(jù)獲取。一個(gè)術(shù)語,就叫做數(shù)據(jù)的均衡采樣。將整個(gè)地球的所有用戶和用戶活動(dòng)視為一個(gè)空間,當(dāng)你希望你的模型可以服務(wù)這么多人,那么相對(duì)應(yīng)的數(shù)據(jù)也需要對(duì)目標(biāo)用戶空間比較均衡的采樣。為了做到這一點(diǎn),最好辦法就是先發(fā)布一個(gè)變革性的產(chǎn)品、讓全部人一起使用它。

        AI 科技評(píng)論:這個(gè)范式在 2016 年您和團(tuán)隊(duì)做 CaptionBot 時(shí)就已經(jīng)歷過了,為什么當(dāng)時(shí) CaptionBot 沒能成為今天的 ChatGPT ?

        何曉冬:我們其實(shí)走的過程其實(shí)特別像 ChatGPT:最開始有篇論文發(fā)表在 2015 年,緊接著 2016 年初做成一個(gè)公眾可用的產(chǎn)品,把它發(fā)布出來。

        由于論文往往是在一個(gè)有局限的學(xué)術(shù)數(shù)據(jù)里,規(guī)模、覆蓋各方面比較局限性,通用性存在不足,如果希望它能夠走得更遠(yuǎn),最好的辦法就是把它做成一個(gè)新的形態(tài)、打造一個(gè)產(chǎn)品,對(duì)全世界通用,從學(xué)術(shù)中僅靠一些學(xué)生去收集、標(biāo)注數(shù)據(jù),轉(zhuǎn)變?yōu)槿虬偃f級(jí)、千萬級(jí)的用戶成為數(shù)據(jù)反饋的人。這產(chǎn)品可能很粗糙,正如當(dāng)初我們的 CaptionBot 只是一個(gè) APP,今天的 ChatGPT 也很粗糙、只是一個(gè)對(duì)話框,但是粗糙沒關(guān)系,只要大家覺得真的有意思、有用,很快就能形成爆品。通過用戶使用的數(shù)據(jù)可以用于進(jìn)一步提升算法、模型,隨之進(jìn)入第三個(gè)階段、即嚴(yán)肅的產(chǎn)品使用階段。

        這 " 三步走 " 我們?cè)谄吣昵耙呀?jīng)走過,但當(dāng)初走得有點(diǎn)慢,最終沒能夠做到一定的服務(wù)規(guī)模,是今天我感覺有點(diǎn)遺憾的地方。現(xiàn)在微軟快多了,像去年底 ChatGPT 出來,到現(xiàn)在才半年,GPT 已經(jīng)全面進(jìn)入微軟各大核心產(chǎn)品線。

        其實(shí)這次 OpenAI 展現(xiàn)出來的一個(gè)新趨勢(shì),即是產(chǎn)品和技術(shù)研究、技術(shù)創(chuàng)新是不分家的。產(chǎn)品的定義是,讓普通大眾可以直接使用的,首先第一步是先用起來。在這個(gè)層面上來說,AlphaGo 不是一個(gè)產(chǎn)品,而 ChatGPT 是。

        AI 科技評(píng)論:一個(gè)不得不直視的現(xiàn)實(shí)是,即使在語言大模型上,中國(guó)的多個(gè)大模型產(chǎn)品的智能水平跟國(guó)外也仍有一定差距。國(guó)內(nèi)語言大模型的研究局限性,能否給多模態(tài)大模型的研究新征程帶來啟發(fā)?

        何曉冬:在跟用戶溝通交流中學(xué)習(xí)智能。這也是為什么我們對(duì) ChatGPT 會(huì)看得更深一點(diǎn)。

        ChatGPT 確實(shí)很厲害,但它的厲害之處在于它的廣度上,它的深度其實(shí)并不夠。例如金融領(lǐng)域的一些項(xiàng)目,就無法直接使用 ChatGPT 來解決問題,需要與具體的金融知識(shí)等行業(yè) Know-How 相結(jié)合,同時(shí)還要經(jīng)過實(shí)戰(zhàn)磨練。

        比如對(duì)話可以分為合作性對(duì)話和對(duì)抗性對(duì)話,其中,合作性對(duì)話指用戶愿意配合完成的對(duì)話,例如客服等。而對(duì)抗性對(duì)話則包括了談判等存在一定博弈與對(duì)立的內(nèi)容。而越高價(jià)值的對(duì)話,往往博弈性越強(qiáng),對(duì)機(jī)器智能要求也越高,這都是在技術(shù)與實(shí)際場(chǎng)景結(jié)合中所得到的認(rèn)知和經(jīng)驗(yàn)。

        今天的 ChatGPT 已經(jīng)不再考慮圖靈測(cè)試,它甚至?xí)嬖V你:" 我是個(gè)語言模型,你有什么要問的?" 它不需要欺騙人,因?yàn)樗兰幢阄沂且粋€(gè)機(jī)器、你也會(huì)跟我對(duì)話,這就是技術(shù)進(jìn)步的一個(gè)重要體現(xiàn),也是其開始變成生產(chǎn)力的一個(gè)重要體現(xiàn)。

        多模態(tài)大模型的研究需要離落地更近,我認(rèn)為,這對(duì)科學(xué)而言是一種促進(jìn)、而非限制。計(jì)算機(jī)作為典型的應(yīng)用科學(xué),很多重要的課題是在應(yīng)用中被反向牽引,因?yàn)榇罅康膽?yīng)用需求,從而促生更多變量和經(jīng)驗(yàn)體系的發(fā)展。

        AI 科技評(píng)論:對(duì)比多模態(tài)研究的早期階段,現(xiàn)在的多模態(tài)大模型有哪些革命性的進(jìn)步?

        何曉冬:以數(shù)字人為例,它的突破是很大的。回到 2014 年,當(dāng)時(shí)的數(shù)字人幾乎不可用,到近兩年才真正可用,當(dāng)中關(guān)于數(shù)字人形象生成控制,包括形象層和語言層的對(duì)齊等方面,都離不開多模態(tài)技術(shù)的參與。

        但多模態(tài)大模型的 ChatGPT 時(shí)刻還沒到來,可能還需要點(diǎn)時(shí)間,或者需要更多的數(shù)據(jù)、創(chuàng)新的算法,暫時(shí)還沒有爆發(fā)。

        AI 科技評(píng)論:如果說 ChatGPT 可能已經(jīng)是語言大模型的 AGI 終極形態(tài),那么多模態(tài)大模型的 AGI 產(chǎn)品形態(tài)應(yīng)該是什么樣的?您對(duì)多模態(tài)的研究設(shè)想是怎樣的?

        何曉冬:回到本源,當(dāng)我們說通用人工智能時(shí),往往是以人為標(biāo)桿的,我們也希望所有的產(chǎn)品是為人而服務(wù)的,在未來所有的 AGI 藍(lán)圖里,人是一個(gè)核心存在。我們永遠(yuǎn)不希望看到人被邊緣化,如果人被邊緣化,那么這個(gè)世界對(duì)人類沒意義。

        因此,多模態(tài)既是一個(gè)路徑,也是一個(gè)要求。

        一個(gè)路徑是指,人被視為這個(gè)世界上最聰明的智能體,如果想打造一個(gè)像人一樣聰明的 AGI ,就需要向人學(xué)習(xí),通過多模態(tài)方式來進(jìn)行知識(shí)融合、知識(shí)獲取,這是讓機(jī)器走向 AGI 的必經(jīng)之路。

        另一方面,多模態(tài)可能也是個(gè)要求。未來人跟機(jī)器打交道時(shí),必然是通過語言、視覺、語音跟機(jī)器進(jìn)行溝通的,所以機(jī)器也必須能夠理解相應(yīng)的信息,否則機(jī)器就無法服務(wù)人。

        因此,多模態(tài)既是 AGI 的必經(jīng)之路,或許也是對(duì) AGI 的一個(gè)要求。

        (雷峰網(wǎng)雷峰網(wǎng))

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        精彩推送

        推薦閱讀

        亚洲综合在线成人一区| 亚洲视频网站在线观看| 亚洲伊人久久大香线蕉| 久久亚洲私人国产精品| 久久精品亚洲综合一品| 91亚洲精品视频| 亚洲高清视频在线播放| 亚洲天天做日日做天天看| 亚洲永久永久永久永久永久精品| 亚洲AV无码专区亚洲AV伊甸园| 久久精品国产亚洲综合色| 国产∨亚洲V天堂无码久久久| 亚洲精品~无码抽插| 亚洲AV无码专区国产乱码电影| 亚洲国产精品成人久久| 亚洲成熟xxxxx电影| 久久精品亚洲一区二区三区浴池| 亚洲精品视频观看| 亚洲人成在线播放| 亚洲大成色www永久网址| 亚洲精华液一二三产区| 色窝窝亚洲AV网在线观看| 国产成人亚洲精品无码AV大片| 亚洲av日韩片在线观看| 国产精品V亚洲精品V日韩精品| 国产aⅴ无码专区亚洲av麻豆 | 亚洲一区日韩高清中文字幕亚洲| 亚洲精品无码久久不卡| 久久亚洲精品无码播放| 亚洲国产精品成人精品无码区 | 亚洲激情在线观看| 亚洲无限乱码一二三四区| 国产91在线|亚洲| 男人的天堂av亚洲一区2区| 亚洲精品国自产拍在线观看| 亚洲一区二区女搞男| 亚洲无线电影官网| 最新国产成人亚洲精品影院| 久久综合亚洲色hezyo| 久久综合亚洲色HEZYO国产| 亚洲国产精品一区二区第一页|