首頁 > 新聞 > 智能 > 正文

        為了中國市場,Hugging Face 甚至玩上了小紅書

        2023-07-08 21:21:20來源:ZAKER科技  

        提到 AI 競賽,以往人們脫口而出的大多是 OpenAI、谷歌、微軟等一眾大廠,但隨著 Hugging Face 的出圈,人們逐漸意識到,如今的開源社區(qū)也已經(jīng)成長為了一股不容忽視的力量。

        作為開源界的頂流、AI 領(lǐng)域的 GitHub,Hugging Face 的發(fā)展模式是基于開源的協(xié)作與合作,以開放、透明的方式與全球的開發(fā)者和研究者合作,通過提供一鍵式的技術(shù)工具,極大地降低了 AI 的技術(shù)門檻。


        【資料圖】

        7 月 7 日上午,在世界人工智能大會 WAIC 的主會場,Hugging Face 的中國區(qū)負(fù)責(zé)人王鐵震,與未盡研究的創(chuàng)始人周健工,進(jìn)行了一場主題為《開源力量推動生成式 AI 發(fā)展》的對話。

        在王鐵震看來,開源最大的優(yōu)勢就是「透明」,每個(gè)人都能打開大模型的「黑盒」看到數(shù)據(jù)是如何被應(yīng)用于訓(xùn)練的,每個(gè)人也都能依據(jù)自身需求場景去創(chuàng)造屬于自己的 AI 模型。

        同時(shí),作為一家估值至少 20 億美元的開源社區(qū),Hugging Face 主打的就是「貼近群眾」,例如直接將活動搬到小紅書上,讓更多人能近距離接觸 AI。

        王鐵震認(rèn)為,未來 AI 發(fā)展的關(guān)鍵則在于:「不僅僅要讓 AI 的發(fā)展能幫助到各行各業(yè)的人,也要讓各行各業(yè)的人加入進(jìn)來對 AI 的發(fā)展產(chǎn)生幫助。」

        AI 2.0 需要新的「學(xué)習(xí)」

        周健工:之前你說這半年一直在學(xué)習(xí),你在學(xué)什么?通過你的學(xué)習(xí),對生成人工智能這個(gè)行業(yè)的前景有什么新的感悟嗎?

        王鐵震:過去五六年我在谷歌都是在做 AI,我們當(dāng)時(shí)做谷歌人工智能的訓(xùn)練框架,當(dāng)時(shí)我們在服務(wù)器上、手機(jī)上都有做過一些工作。但是我發(fā)現(xiàn)當(dāng)時(shí)那一波的人工智能和現(xiàn)在的 AI 2.0 有很大的不同,因?yàn)橐郧暗哪P推鋵?shí)沒有那么聰明,它的通用性也不好,每一個(gè)新場景都要重新去訓(xùn)練,所以它是面向開發(fā)者的一個(gè) AI 工具,并不是普通人也能用起來的 AI 工具。

        去年大概 10 月、11 月的時(shí)候,我發(fā)現(xiàn)這一波 AI 浪潮非常的不一樣。像是 Stable Diffusion,玩得最火的可能不是 AI 圈的人,而是學(xué)習(xí)藝術(shù)、設(shè)計(jì)的這些人,之后的 ChatGPT 更是很多美國的普通學(xué)生在用來寫作業(yè)了,這個(gè)給我的感覺非常不一樣。

        當(dāng)時(shí)正好有一個(gè)契機(jī),我就加入了 Hugging Face,加入之后一直在學(xué)習(xí)這方面比較新的技術(shù)。其實(shí)也不只是技術(shù),我還需要向開發(fā)者去學(xué)習(xí) To C 的東西,讓每個(gè)人都能把大模型用起來,根據(jù)自己的需求去將大模型與自己的領(lǐng)域相結(jié)合。

        我也在學(xué)習(xí)大家是怎么使用這個(gè)技術(shù)的,它能去解決什么樣的問題,看到大家的一些創(chuàng)新想法會感到非常開心。所以前六個(gè)月,我基本上都在學(xué)習(xí)的過程中,每天都是非常充實(shí),感覺 24 個(gè)小時(shí)完全不夠用。

        王鐵震在 WAIC2023 大會上介紹 Hugging Face 開源社區(qū)|WAIC

        開源的最大優(yōu)勢是「透明」

        周健工:行業(yè)內(nèi)現(xiàn)在產(chǎn)生的一個(gè)爭論是,閉源和開源的模型是怎么共同推動生成式人工智能往前發(fā)展的?它們各自有哪些特點(diǎn)和不同?

        王鐵震:以大模型為例,大家最熟悉的 ChatGPT 其實(shí)就是一個(gè)閉源的模型,目前 GPT-4 是效果最好的模型,這毋庸置疑。很多企業(yè)在創(chuàng)業(yè)的早期也都是選擇接入 ChatGPT,直接在外面做一些 prompt engineering,做 fact database,就可以很快地把產(chǎn)品做成。

        但是隨著規(guī)模的擴(kuò)大,或者說因?yàn)椴煌I(lǐng)域的一些要求,就會發(fā)現(xiàn)數(shù)據(jù)安全、企業(yè)部署的場景、部署的成本以及大模型功能上的問題。大家發(fā)現(xiàn) ChatGPT 并不能完整滿足他們的需求之后,企業(yè)就會想能不能擁有一個(gè)自己可控、可調(diào)、可「魔改」的模型。

        Hugging Face 當(dāng)時(shí)贊助了一個(gè)叫做 Big Science 的開源組織,他們做了一個(gè) Bloom 模型,是一個(gè)千億級的模型。我們當(dāng)時(shí)把這個(gè)模型訓(xùn)練下來,用了 300 多塊 A100(英偉達(dá) GPU),花了 100 多天,最后算下來成本非常高。包括訓(xùn)練產(chǎn)生的碳排量,其實(shí)相當(dāng)于排放了 50 多噸的二氧化碳才計(jì)算出來,所以從頭訓(xùn)練一個(gè)大模型是非常不經(jīng)濟(jì)的,尤其是對于中小型的公司來講。

        但是我們把模型訓(xùn)練完成后,包括很多其他做開源的大模型,會把這個(gè)模型公布出來,大家可以基于這個(gè)模型去做一些場景的調(diào)優(yōu),這樣對于企業(yè)的要求就更低。企業(yè)不再需要那么多顯卡,也不需要那么多時(shí)間,甚至稍微少一點(diǎn)的算力和數(shù)據(jù)都可以做到這個(gè)事情。這其實(shí)是開源社區(qū)給大家?guī)淼姆浅:玫臋C(jī)會。

        往更遠(yuǎn)說,開源社區(qū)所有的東西都是透明的,你知道這個(gè)模型用了哪些數(shù)據(jù),包括最近大家都在說網(wǎng)絡(luò)信息有被遺忘的權(quán)利,但是閉源模型的數(shù)據(jù)被吃掉后,你永遠(yuǎn)不知道是不是有些關(guān)于你的事情會在互聯(lián)網(wǎng)上被公布出去,相反,開源模型所有的數(shù)據(jù)集都是公開的。

        我們在做大模型的時(shí)候設(shè)計(jì)了一個(gè)特殊的機(jī)制,就是允許你 opt out(退出)。因?yàn)槟P偷臄?shù)據(jù)集、模型訓(xùn)練,以及模型的發(fā)布、優(yōu)化都是在網(wǎng)上全部公開的,所以你隨時(shí)可以發(fā)現(xiàn)這個(gè)模型在做什么事情。所謂的 opt out 機(jī)制,是說如果我的數(shù)據(jù)不想被大模型吃掉,不想用于這個(gè)大模型的訓(xùn)練,你隨時(shí)可以把它抹掉。

        所以我認(rèn)為開源相對閉源一個(gè)非常大的優(yōu)勢就是——透明。開源模型可以給每個(gè)人更多的選擇,每個(gè)國家、企業(yè)都可以按照自己的需求去定制。另外,開源還是一個(gè)非常好的工具,它可以通過在線的平臺去團(tuán)結(jié)全世界的開發(fā)者,只要你有想法、有自己的思路,就可以加入到開源社區(qū),把你做的事情很快地跟全世界分享。

        周健工:開幕的那天 Yann LeCun 楊立昆有一個(gè)對話,他認(rèn)為解決大模型現(xiàn)存問題的唯一的出路就是開源,你怎么評論這句話?

        王鐵震:站在 Hugging Face 的角度,我們其實(shí)是非常期望通過開源的方式把大模型普惠化,讓每一個(gè)公司、每一個(gè)人都能擁有自己的大模型去做自己的事情,去解決數(shù)據(jù)隱私、數(shù)據(jù)安全等問題。

        包括最近有很多企業(yè)都明確的規(guī)定他們的員工不允許使用 ChatGPT 這種模型,甚至有一些謠言說 Google 的員工也不允許使用自己的 Bard 模型,因?yàn)閾?dān)心隱私數(shù)據(jù)的泄露。

        還有一點(diǎn)是,為了讓模型在某一個(gè)領(lǐng)域去更加趨同人的行為,ChatGPT 做了很多工作,但是它只給了我們一個(gè)選擇。通過開源,我們每一個(gè)人都可以根據(jù)自己的需求去生成模型。

        「社區(qū)」是 Hugging Face 非常強(qiáng)調(diào)的文化基因|Hugging Face

        AI 玩上小紅書

        周健工:Hugging Face 上有 25 萬個(gè)模型,這個(gè)數(shù)字很令人吃驚,這 25 萬個(gè)模型都是什么樣的模型?他們?yōu)槭裁炊寂艿侥銈兊钠脚_?能不能簡單科普一下。

        王鐵震:我們剛才聊得很多都是 NLP(自然語言處理)領(lǐng)域的文本大模型,其實(shí)在我們開源社區(qū)看來,這只是千千萬萬大模型種類的一種。

        為什么千千萬萬的模型都選擇上傳到 Hugging Face,我想從兩點(diǎn)來回答,一個(gè)是說技術(shù)層面,一個(gè)是從社區(qū)層面。

        技術(shù)層面

        技術(shù)層面上其實(shí)我們是像 AI 界的 GitHub,比 GitHub 更適合 AI 界的一點(diǎn),是我們支持大文件的上傳,我們免費(fèi)提供 hosting,免費(fèi)提供全球 CDN 的 deliver。這些對大家的幫助是非常大的,而且大家基于我們的平臺可以做版本控制以及開源協(xié)作,每個(gè)人都可以來貢獻(xiàn)一點(diǎn),最終把開源模型變得更好。

        在技術(shù)上我們還提供了可以一鍵部署的功能,你可以點(diǎn)一下鼠標(biāo)就將模型快速的部署到亞馬遜云上,很快就可以將模型使用起來。

        文化層面

        從社區(qū)文化上來說,我們是一個(gè)非常重視開源社區(qū)的公司,我們特別希望幫助大家,希望能有更多的開發(fā)者參與到開源的事業(yè)中,所以我們特別愿意去接受大家的反饋,去跟大家做互動。

        比如對于第一次來貢獻(xiàn)代碼的開發(fā)者,我們會對他們進(jìn)行非常細(xì)致的輔導(dǎo),這其實(shí)很花時(shí)間,而且投入產(chǎn)出比不高,但我們覺得這是一個(gè)非常有價(jià)值并且重要的事情,因?yàn)槲覀円岩粋€(gè)開源社區(qū)做起來。

        我舉個(gè)例子,昨天晚上我看到微信群里有人說覺得 Hugging Face 很有意思,因?yàn)樗熬褪潜г沽艘幌挛覀兊南到y(tǒng)有的變量名不是特別好,第二天就發(fā)現(xiàn) Hugging Face 的員工專門開了一個(gè) issue 來討論這個(gè)問題。

        我們社區(qū)的文化實(shí)際上是非常好的,每一個(gè)人到社區(qū)里都有一種家的感覺,大家也更愿意使用我們的平臺。

        周健工:你談到的社區(qū)其實(shí)有三類用戶,第一批是早期的研究者,第二批是開發(fā)者,第三批是真正的技術(shù)使用者,能不能結(jié)合你的工作來聊聊未來 Hugging Face 社區(qū)的發(fā)展方向?

        王鐵震:我們想要做 AI 的普惠化,希望每一個(gè)國家和企業(yè)都能有自己的模型,并且每個(gè)人也有使用 AI 的能力。所以我們早期的工作確實(shí)是在關(guān)注研究者,在思考怎么方便他們?nèi)ジ斓貏?chuàng)造一個(gè)模型,隨后我們設(shè)計(jì)了一套 API 的流程,讓大家可以用同樣的 API 去快速的調(diào)用基于 Transformer 或者 Diffusion base 的模型。

        慢慢地我們擴(kuò)展到了工業(yè)界,希望抹平學(xué)術(shù)界和工業(yè)界之間的差異,讓一個(gè)模型從學(xué)術(shù)界拿過來之后很快就能在工業(yè)界用起來。現(xiàn)在我們發(fā)現(xiàn)新一波的生成式人工智能對每一個(gè)非技術(shù)向的用戶都有很大的幫助,所以我們也希望進(jìn)一步抹平這方面的門檻。

        我們在 Hugging Face 上提供了一些非常有意思的工具。正常來說你在 GitHub 上看到一個(gè) repo(repository,可以理解為存放項(xiàng)目的倉庫),要把它用起來需要自己裝環(huán)境搭配,對于很多非技術(shù)向的用戶這是一個(gè)很麻煩的事情,因?yàn)樗赡芸吹竭@堆代碼之后也用不起來。

        我們做了一個(gè) spaces,可以在線免費(fèi)給用戶提供一個(gè)容器環(huán)境,開發(fā)者可以把它的模型直接部署在 spaces 上,當(dāng)用戶進(jìn)來的時(shí)候看到就不僅僅是一堆代碼,他看到的是一個(gè)鮮活的應(yīng)用,可以直接在上面點(diǎn)一點(diǎn)玩起來,直接看到效果。我覺得這個(gè)對大家?guī)椭翘貏e大的。

        另外我們也會在國內(nèi)搞很多活動,希望幫助更多人去了解 AI 模型是怎么回事兒。

        Hugging Face 在小紅書上開展的 AI 頭像活動|Hugging Face

        插個(gè)廣告,我們最近在小紅書上進(jìn)行基于我們 Diffusion 的活動,希望大家能去生成自己的卡通風(fēng)格頭像,跟其他產(chǎn)品不同的是我們提供了一個(gè)開發(fā)的環(huán)境,你可以在其中看到每執(zhí)行一步程序,圖像產(chǎn)生的結(jié)果里面會有很多參數(shù),你可以把黑盒打開,了解到這個(gè)模型里面到底在做些什么,然后進(jìn)一步將更多的 AI 能力和實(shí)際需求結(jié)合起來。

        我們最近也在做 AI for Gaming,希望做游戲的同學(xué)能夠了解 AI 的能力,讓做 AI 的人也了解游戲場景中他們在關(guān)注什么,把兩者結(jié)合起來,我們認(rèn)為這個(gè)方向會有很多有意思的探索。

        總結(jié)一下,我認(rèn)為不僅僅要讓 AI 的發(fā)展能幫助到各行各業(yè)的人,其實(shí)也要讓各行各業(yè)的人加入進(jìn)來對 AI 的發(fā)展產(chǎn)生幫助。大家可以一起探索這些前沿未來的方向,這不是 AI 圈自己就能解決的一個(gè)問題,我們要把具體的場景帶進(jìn)來。

        關(guān)鍵詞:

        責(zé)任編輯:hnmd003

        相關(guān)閱讀

        相關(guān)閱讀

        推薦閱讀

        亚洲无线一二三四区手机| 亚洲区精品久久一区二区三区| 亚洲黄网站wwwwww| 久久精品国产精品亚洲艾| 亚洲情XO亚洲色XO无码| 亚洲最大AV网站在线观看| 国产亚洲精品资在线| 亚洲午夜精品久久久久久浪潮| 亚洲成A人片在线观看无码3D| 国产偷国产偷亚洲高清人| 日本系列1页亚洲系列| 国产成人高清亚洲一区91| 国产亚洲蜜芽精品久久| 亚洲精品高清在线| 国产亚洲精久久久久久无码77777| 中文字幕亚洲一区| 黑人精品videos亚洲人| 香蕉视频在线观看亚洲| 亚洲天堂久久精品| 亚洲日产2021三区| 2017亚洲男人天堂一| 亚洲精品色播一区二区 | 日韩亚洲翔田千里在线| 亚洲av高清在线观看一区二区 | 亚洲av日韩片在线观看| 亚洲中文无韩国r级电影| 亚洲亚洲人成综合网络| 久久亚洲一区二区| 亚洲视频精品在线观看| 亚洲伊人久久大香线蕉结合| 亚洲sss综合天堂久久久| 亚洲欧洲免费无码| 亚洲AV无码乱码精品国产| 亚洲色偷偷狠狠综合网| 久久精品国产亚洲网站| 亚洲精品国产肉丝袜久久| 亚洲最大av资源站无码av网址| 国产精品国产亚洲区艳妇糸列短篇| 亚洲国产精品视频| 国产精品亚洲аv无码播放| 在线观看亚洲人成网站|