首頁 > 科技 > 正文

        IPU 正面挑戰 GPU 云端芯片市場或改變

        2020-12-29 11:12:23來源:雷鋒網  

        英偉達在云端 AI 訓練芯片市場超九成的市占率讓新入局的競爭者們都將槍口指向這家當紅 AI 公司。聲稱 AI 性能比英偉達 GPU 的新產品不少,但真正突破英偉達護城河的現在仍未看到。

        相比在硬件性能上超越英偉達,軟件生態的趕超難度顯然更大。不過,微軟亞洲研究院的 NNFusion 項目以及阿里云的 HALO 開源項目,正努力降低從 GPU 遷移到新的硬件平臺的難度和成本,再加上在多個重要 AI 模型上性能超英偉達最新 A100 GPU 的 IPU,云端 AI 芯片市場的格局未來幾年可能會發生變化。

        微軟、阿里云開源項目降低遷移出 GPU 的難度

        目前 AI 的落地,仍以互聯網和云計算為主。因此,科技巨頭們很快發現遷移到新平臺不能只看峰值算力。Graphcore 高級副總裁兼中國區總經理盧濤表示:“客戶考慮為一個新的軟硬件平臺買單時,首先考慮的是能夠獲得多少收益。其次考慮的是需要多少成本,這涉及軟硬件的遷移成本。”

        對于科技巨頭們而言,GPU 確實是一個好選擇,但考慮到成本、功耗以及自身業務的特點,仍然有自研或者遷移到其它高性能芯片的動力。此時,軟件成為能否快速、低成本遷移的關鍵。

        將已有的 AI 模型遷移到新的 AI 加速器時,現在普遍的做法是在 TensorFlow 寫一些后端集成新硬件,這給社區和 AI 芯片公司都帶來了負擔,也增加了遷移的難度和成本。

        微軟亞洲研究院的 NNFusion 以及阿里云的 HALO 開源項目,都是希望從 AI 編譯的角度,避免重復性的工作,讓用戶能夠在 GPU 和其它 AI 加速器之間盡量平滑遷移,特別是 GPU 和 IPU 之間的遷移。

        也就是說,NNFusion 和 HALO 向上跨 AI 框架,既可以集成 TensorFlow 生成的模型,也可以集成 PyTorch 或其他框架生成的模型。向下用戶只要通過 NNFusion 或者 HALO 的接口就可以在不同的 AI 芯片上做訓練或者推理。

        這種調度框架在降低遷移難度和成本的同時,還能提升性能。根據 2020 OSDI(計算機學界最頂級學術會議之一)發布的研究結果,研究者在英偉達和 AMD 的 GPU,還有 Graphcore IPU 上做了各種測試后得出結果,在 IPU 上 LSTM 的訓練模型得到了 3 倍的提升。

        當然,這樣的收益還是需要開源社區與硬件提供方的緊密合作,比如 Graphcore 與微軟亞洲研究院以及阿里云的合作。

        增加遷入 IPU 的便捷性

        “我們與阿里云 HALO 和微軟 NNFusion 緊密合作,這兩個項目支持的最主要的平臺是 GPU 和 IPU。”盧濤表示,“目前在阿里云 HALO 的 GitHub 里已經有 IPU 的完整支持代碼 odla_PopArt,下載開源代碼就已經可以在 IPU 上使用。”

        能夠便捷地使用 IPU 也離不開主流機器學習框架的支持。Graphcore 本月最新發布了面向 IPU 的 PyTorch 產品級版本與 Poplar SDK 1.4。PyTorch 是 AI 研究者社區炙手可熱的機器學習框架,與 TensorFlow 兩分天下。

        PyTorch 支持 IPU 引起了機器學習大神 Yann LeCun 的關注。之所以引發廣泛關注,是因為這個支持對于 IPU 的廣泛應用有著積極意義。

        Graphcore 中國工程總負責人,AI 算法科學家金琛介紹,“在 PyTorch 的代碼里,我們引入了一個叫 PopTorch 的輕量級接口。通過這個接口,用戶可以基于他們當前的 PyTorch 的模型做輕量級封裝,之后就可以無縫的在 IPU 和 CPU 上運行這個模型。”

        這也能更好地與 HALO 和 NNFusion 開源社區合作。金琛表示,“不同的框架會有不同中間表示格式,也就是 IR(Intermediate Representation)。我們希望將不同的 IR 格式轉換到我們通用的 PopART 計算圖上,這也是兼容性中最關鍵的一點。”

        據悉,IPU 對 TensorFlow 的支持,是像 TPU 一樣,通過 TensorFlow XLA backend 接入到 TensorFlow 的框架,相當于把一個 TensorFlow 計算圖轉換成為一個 XLA 的計算圖,然后再通過接入 XLA 的計算圖下沉到 PopART 的計算圖,通過編譯,就可以生成可以在 IPU 上執行的二進制文件。

        金琛認為,“各個層級圖的轉換是一個非常關鍵的因素,也需要一些定制化工作,因為里面的一些通用算子也是基于 IPU 進行開發的,這是我們比較特殊的工作。”

        除了需要增加對不同 AI 框架以及 AI 框架里自定義算子的支持,增強對模型的覆蓋度的支持,也能夠降低遷移成本。

        金琛介紹,對于訓練模型的遷移,如果是遷移一個不太復雜的模型,一般一個開發者一周就可以完成,比較復雜的模型則需要兩周時間。如果是遷移推理模型,一般只需要 1-2 天就可以完成。

        IPU 正面挑戰 GPU,云端芯片市場或改變

        AI 時代,軟硬件一體化的重要性更加突顯。盧濤說:“AI 處理器公司大致可以分為三類,一類公司是正在講 PPT 的公司,一類公司是有了芯片的公司,一類公司是真正接近或者是有了軟件的公司。”

        已經在軟件方面有進展的 Graphcore,硬件的表現能否也讓用戶有足夠的切換動力?本月,Graphcore 發布了基于 MK2 IPU 的 IPU-M2000 的多個模型的訓練 Benchmark,包括典型的 CV 模型 ResNet、基于分組卷積的 ResNeXt、EfficientNet、語音模型、BERT-Large 等自然語言處理模型,MCMC 等傳統機器學習模型。

        其中有一些比較大的提升,比如與 A100 GPU 相比,IPU-M2000 的 ResNet50 的吞吐量大概能實現 2.6 倍的性能提升,ResNeXt101 的吞吐量提升了 3.6 倍,EfficientNet 的吞吐量達到了 18 倍,Deep Voice 3 達到了 13 倍。

        值得一提的還有 IPU-POD64 訓練 BERT-Large 的時間比 1 臺 DGX-A100 快 5.3 倍,比 3 臺 DGX-A100 快 1.8 倍。1 個 IPU-POD64 和 3 個 DGX-A100 的功率和價格基本相同。

        強調 IPU 訓練 BERT-Large 的成績不僅因為這是英偉達 GPU 和谷歌 TPU 之后第三個發布能夠訓練這一模型的 AI 芯片,還因為 BERT-Large 模型對現在芯片落地的意義。

        盧濤說:“在今天,BERT-Large 模型不管是對于工業界,還是對研究界都是一個比較好的基準,它在未來至少一年內是一個上線的模型水準。”

        不過,這一成績目前并非 MLPerf 發布的結果,正式結果需要等待 Graphcore 在明年上半年正式參與 MLPerf 性能測試。近期,Graphcore 宣布加入 MLPerf 管理機構 MLCommons。

        “我覺得我們加入 MLCommons 和提交 MLPerf 表明,IPU 即將在 GPU 的核心領域里面和 GPU 正面 PK,表明了 IPU 除了能做 GPU 不能做的事情,在 GPU 最擅長的領域,IPU 也能以更好 TCO 實現相等,甚至更優的表現。”盧濤表示。

        微軟亞洲研究院、阿里云、Graphcore 都在共同推動 GPU 轉向 IPU,什么時候會迎來破局時刻?

        責任編輯:hnmd003

        相關閱讀

        推薦閱讀

        亚洲国产精品专区在线观看 | 亚洲AV无码国产精品麻豆天美 | 亚洲日本在线免费观看| 亚洲成在人线av| 伊人久久亚洲综合| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 91亚洲一区二区在线观看不卡| 久久精品国产精品亚洲蜜月| 好看的电影网站亚洲一区| 亚洲精品国产品国语在线| 亚洲色婷婷一区二区三区| 超清首页国产亚洲丝袜| 国产亚洲精品自在线观看| 最新精品亚洲成a人在线观看| 亚洲熟妇丰满多毛XXXX| 亚洲精品V欧洲精品V日韩精品| 亚洲一区无码中文字幕| 国产亚洲高清不卡在线观看| 亚洲国产成人片在线观看无码| 亚洲国产精彩中文乱码AV| 亚洲五月激情综合图片区| 亚洲高清视频免费| 亚洲av永久无码嘿嘿嘿| 亚洲国产乱码最新视频| 亚洲精品日韩一区二区小说| 日本亚洲欧美色视频在线播放| 亚洲AⅤ无码一区二区三区在线 | 中文字幕乱码亚洲无线三区 | 亚洲精品无码久久久久久| 国产亚洲欧美在线观看| 偷自拍亚洲视频在线观看99| 亚洲人成网站观看在线播放| 国产成人A亚洲精V品无码| 亚洲Av综合色区无码专区桃色| 亚洲免费视频网站| 亚洲xxxxxx| 日本亚洲欧美色视频在线播放| 亚洲午夜精品久久久久久浪潮 | 国产亚洲综合色就色| 亚洲黄色网址大全| 亚洲国产精品免费观看|