首頁 > 新聞 > 智能 > 正文

        Transformer 六周年:在它之前世界平淡,在它之后世界地覆天翻

        2023-06-13 20:23:07來源:ZAKER科技  

        理解了人類的語言,就理解了世界。

        一直以來,人工智能領域的學者和工程師們都試圖讓機器學習人類的語言和說話方式,但進展始終不大。

        因為人類的語言太復雜,太多樣,而組成它背后的機制,往往又充滿著不可名狀的規律。

        過去人們在自然語言處理中多采用 RNN 循環神經網絡,它十分類似于人類邏輯上對語言的理解——強調上下文順序、前后文邏輯關系。


        【資料圖】

        但是這種順序方式讓 RNN 無法實現并行計算,也就是說,它的速度十分緩慢,而規模也很難擴大。

        直到 2017 年 6 月 12 日,一篇名為 Attention is All You Need 的論文被提交到預印論文平臺 arXiv 上。

        一切從此改變。

        Transformer 的提出直接導致導致了現在生成式 AI 風暴。機器好像在一瞬間就學會了如何與人類自如交流。

        在 Transformer 提出前,人們討論的是如何讓智能音箱聽懂你的提問,而 Transformer 之后,人們討論的重點變成了該如何防范 AGI 通用智能對人類造成的危險。

        Attention is All You Need 這篇論文的重要性可見一斑,剛剛過去的 12 號正是它六周歲生日。

        Transformer 這個名字據說來自論文聯合作者之一的 Llion Jones,原因無它,因為 attention (注意力)這個詞聽上去實在是有點不酷。

        Llion Jones 也是目前八個論文聯合作者中唯一一個還在谷歌上班的人。剩下的七個人都紛紛離職創業。最有名的大概是 Character AI,創始人是論文作者之一的 Noam Shazeer,他之前在谷歌工作了 20 年,負責構建了 LaMDA。

        那么 Transformer 究竟有什么點石成金的魔力呢?我們盡量用通俗易懂的話來解釋。

        Transformer 徹底拋棄了前面提到的 RNN 循環神經網絡這套邏輯,它完全由自注意力機制組成。

        大家都有過這樣的經驗,打亂個一子句中字詞序順的多很時候不并響影對你句子的解理。比如上面這句。

        這是因為人腦在處理信息時會區分權重,也就是說,我們的注意力總是被最重要的東西吸引走,次要的細節則被忽略。

        Transformer 模仿了這一點,它能夠自動學習輸入的序列中不同位置之間的依賴關系并計算其相關性(而不是對整個輸入進行編碼)。這讓針對序列的建模變得更加容易和精準。

        在深度學習中引入這種機制,產生了兩個明顯好處。

        一方面,并行計算得以實現,基于 Transformer 架構的模型可以更好地利用 GPU 進行加速。由此,Transformer 為預訓練模型的興起奠定了基礎,隨著模型的規模越來越大,神經網絡開始出現所謂 " 智能涌現 ",這正是人們認為像 GPT 這樣的大模型打開了 AGI 通用人工智能大門的原因。

        另一方面,盡管最開始 Transformer 的提出是被用來解決自然語言,更準確地說,機器翻譯問題,但很快人們就發現,這種注意力機制可以推廣到更多領域——比如語音識別和計算機視覺。基于 Transformer 的深度學習方法實際上適用于任何序列——無論是語言還是圖像,在機器眼中它們不過是一個個帶規律的向量。

        在這兩種優點的共同作用下,人工智能領域迎來了前所未有的爆發,后面的故事我們都知道了。

        下面是關于 Transformer 的幾個 fun facts。前面三個來自英偉達 AI 科學家 Jim Fan 慶祝 Transformer 架構被提出六周年的推文。

        1、注意力機制不是 Transformer 提出的。

        注意力機制是深度學習三巨頭之一的 Yoshua Bengio 于 2014 年提出的。這篇名為 Neural Machine Translation by Jointly Learning to Align and Translate 的論文中首次提出了注意力機制。堪稱自然語言處理里程碑級的論文。在那之后許多人都投身于對注意力機制的研究,但直到 Transformer 論文的出現大家才明白——相對別的因素而言,只有注意力機制本身才是重要的。

        2、Transformer 和注意力機制最初都只為了解決機器翻譯問題。

        未來人們回溯 AGI 的起源,說不定要從谷歌翻譯開始。盡管注意力機制幾乎可以用在深度學習的所有領域,但一開始不管是 Yoshua Bengio 的論文還是 Transformer 架構,都單純是為了提高機器翻譯的效果。

        3、Transformer 一開始并未引人注意,至少對 NeurIPS 來說如此。

        NeurIPS 2017 上一共有 600 多篇論文被接受,Transformer 是其中之一,但也僅此而已了。諷刺的是當年 NeurIPS 上的三篇最佳論文聯合起來的引用次數只有五百多次。

        4、OpenAI 在 Transformer 發布的第二天就 all in 。

        雖然很多人一開始并沒有意識到 Transformer 的威力,但這其中顯然不包括 OpenAI。他們在 Transformer 甫一發布就迅速意識到了這意味著什么,并迅速決定完全投入其中。

        實際上,GPT 中的 T 正是 Transformer。

        5、Transformer 幾乎立刻取代了 LSTM 的地位。

        在 Transformer 提出之前,自然語言處理使用廣泛的是名叫長短期記憶網絡 LSTM 的序列生成模型,它的一大缺陷是對輸入內容的先后順序敏感,因此無法大規模使用并行網絡計算。

        然而在 Transformer 被提出之前,許多人都認為 LSTM 將在很長一段時間內容主導 NLP 的發展。

        關鍵詞:

        責任編輯:hnmd003

        相關閱讀

        相關閱讀

        推薦閱讀

        亚洲精品无码久久久久久| 亚洲欧洲精品视频在线观看| 亚洲精品无码av人在线观看| 亚洲尹人九九大色香蕉网站 | 亚洲精品成人久久久| 亚洲AV无码久久精品狠狠爱浪潮| 色婷婷亚洲十月十月色天| 亚洲AV无码专区在线观看成人| 亚洲AV无码久久精品色欲| 亚洲午夜理论片在线观看| 亚洲AV无码一区二区二三区入口| 亚洲国产成人无码AV在线影院| 亚洲精品高清视频| 亚洲麻豆精品国偷自产在线91| 亚洲免费在线视频播放| 亚洲色大成网站www永久一区 | 亚洲av无码专区在线播放 | 亚洲伊人久久大香线蕉影院| 亚洲国产三级在线观看| 亚洲heyzo专区无码综合| 亚洲美女免费视频| 亚洲午夜久久久影院| 亚洲一区二区三区高清不卡| 亚洲av丰满熟妇在线播放| 亚洲国产成人久久综合野外| 亚洲国产日韩综合久久精品| 久久亚洲AV无码西西人体| 精品久久久久久亚洲精品| 久久久久久亚洲精品| 亚洲国产香蕉人人爽成AV片久久| 激情内射亚洲一区二区三区爱妻| 亚洲成AV人片在线观看无| 亚洲AⅤ优女AV综合久久久| 亚洲av产在线精品亚洲第一站| 久久影院亚洲一区| 国产精品久久久久久亚洲影视 | 亚洲精品中文字幕无码AV| 亚洲国产精品无码久久一区二区| WWW国产亚洲精品久久麻豆| 亚洲av乱码一区二区三区| 亚洲免费在线视频|