首頁 > 新聞 > IT資訊 > 正文

        中國最大AI單芯片邃思2.0正式發(fā)布 面向AI云端訓(xùn)練

        2021-07-08 10:26:44來源:雷鋒網(wǎng)  

        今天,中國最大AI單芯片邃思2.0在上海正式發(fā)布,這款芯片面向AI云端訓(xùn)練,尺寸為57.5毫米 x 57.5毫米(面積為3306mm2),達到了芯片采用的日月光2.5D封裝的極限,與上代產(chǎn)品一樣采用格羅方德12nm工藝,單精度FP32算力為40TFLOPS,單精度張量TF32算力為160TFLOPS,整數(shù)精度INT8算力為320TOPS。

        燧原科技創(chuàng)始人兼 COO 張亞林告訴雷鋒網(wǎng)(公眾號:雷鋒網(wǎng)):“基于邃思2.0芯片打造的云燧T20加速卡支持的集群規(guī)模從上一代云燧T10的千張卡提升至8000卡,用云燧T20可以打造一個E級單精度算力集群CloudBlazer Matrix 2.0。”

        E(Exascale)級計算也就是百萬兆級的計算,是目前全球頂尖超算系統(tǒng)新的追逐目標。用一個不精確的說法來解釋百萬兆級計算,一個百萬兆級計算機一瞬間進行的計算,相當于地球上所有人每天每秒都不停地計算四年。

        那號稱中國最大AI單芯片,有何特色?競爭力到底如何?

        中國最大AI計算單芯片的兩個“首個”

        2019年底,燧原科技發(fā)布了從啟動項目研發(fā)到發(fā)布用時僅18個月的云端訓(xùn)練芯片邃思1.0,基于邃思1.0的云燧T10加速卡單精度算力高達20TFLOPS。時隔一年半,邃思2.0和云燧T20就推向市場。之所以說“就”,是因為云端訓(xùn)練這樣復(fù)雜的超高算力芯片通常的迭代周期是兩到三年一代,如果遇上特殊情況可能還會延遲半年。

        “我們第一代和第二代產(chǎn)品的迭代節(jié)奏快于業(yè)內(nèi)速度,主要有兩方面的原因,一方面是首代產(chǎn)品落地后得到了用戶的反饋,另一方面是我們內(nèi)部技術(shù)和架構(gòu)的更新,催生了第二代產(chǎn)品。”張亞林說,“從一開始我們就強調(diào)精準執(zhí)行產(chǎn)品路線圖,第二代產(chǎn)品精準符合燧原的產(chǎn)品路線圖。”

        至于燧原未來是否會保持云端AI訓(xùn)練芯片一年半一代的更新速度,張亞林表示目前暫不方便透露,但會精準執(zhí)行其產(chǎn)品路線圖。

        想要在整個行業(yè)缺芯的大背景下精準執(zhí)行產(chǎn)品路線圖顯然是一個巨大的挑戰(zhàn),雷鋒網(wǎng)了解到,在2020年疫情開始的時候,燧原準備了兩套方案,同時發(fā)揮團隊成員超過15年以上行業(yè)經(jīng)驗的優(yōu)勢,以及第一代產(chǎn)品開發(fā)過程中建立的供應(yīng)鏈關(guān)系,最終保證產(chǎn)品的如期推出。

        張亞林說:“燧原的整個供應(yīng)鏈非常穩(wěn)健,客戶不必擔心燧原產(chǎn)品的供貨問題。”

        在路線圖精準下,為什么要把芯片面積做大?張亞林解釋,燧原做芯片是高舉高打,做大芯片和高端芯片是我們追求的目標,芯片的尺寸大小背后代表的是科技含量,對于中國芯片行業(yè)的貢獻才是更大的價值體現(xiàn)。

        但更大的芯片面積,就代表著更高成本。對此,張亞林表示:“一個成熟的產(chǎn)品必須考慮回報率(ROI)。我們需要做的是在定義產(chǎn)品時,計算好這個產(chǎn)品在市場上的整體收入和銷量,從整個產(chǎn)品的成本角度和能夠帶給客戶的價值定義產(chǎn)品。所以我們會持續(xù)關(guān)注前沿技術(shù),但不會一味追求最新的技術(shù),依然從芯片的性能、成本、功耗三方面考慮。”

        邃思2.0的特性中,有兩個中國首個,一個是首個支持TF32精度的AI芯片,另一個是首個支持最先進內(nèi)存HBM2E的產(chǎn)品。

        AI業(yè)界一直在追求用更小的數(shù)據(jù)位寬實現(xiàn)更高的模型精度。因此,AI模型不斷優(yōu)化,數(shù)據(jù)類型不斷推新,AI芯片作為底層支撐就需要在支持更多數(shù)據(jù)類型的同時消耗更低能耗。

        TF32代表的是張量單精度32位數(shù)據(jù)類型,相比傳統(tǒng)的FP32,TF32在位寬更大的同時,消耗的帶寬以及計算資源顯著更小,被業(yè)界視為能夠取代全尺寸單精度數(shù)據(jù)的革新性數(shù)據(jù)精度。

        “目前業(yè)界的判斷是,TF32對大部分AI場景都有應(yīng)用潛力。我們緊跟國際創(chuàng)新者的步伐,很早就布局數(shù)據(jù)進度的研究和分析,所以才有了燧原第二代產(chǎn)品就支持TF32精度。”張亞林同時指出:“邃思2.0支持全精度AI精度范圍,包括FP32、TF32、FP16、BF16和INT8。要用一個非常革命性的算力引擎囊括所有的精度,并且能夠做到所有的精度的算力都有效,這是非常大的挑戰(zhàn)。”

        打破算力與存儲之間的瓶頸,高效利用數(shù)據(jù)是AI芯片的另一大挑戰(zhàn)。在國內(nèi)最大的AI計算單芯片中,集成了4顆三星HBM2E,支持最高64 GB內(nèi)存,內(nèi)存帶寬最高達1.8 TB/s。

        “HBM2E是目前全球最快的存儲芯片,通過集成4顆HBM2E,邃思2.0可以實現(xiàn)算力和存儲帶寬的匹配,實現(xiàn)更強算力。我們一直努力把理論算力和理論帶寬匹配,有效控制整個產(chǎn)品的成本。采用最新的技術(shù)并不會使我們產(chǎn)品的整體擁有成本增加。”張亞林表示。

        在燧原的產(chǎn)品理念中,更好的AI芯片只是構(gòu)建AI系統(tǒng)的基礎(chǔ),客戶最關(guān)心的并非底層AI芯片的參數(shù)。

        AI芯片的比拼上升到系統(tǒng)級

        “客戶并不會直接關(guān)心芯片層面的理論參數(shù),AI落地的時候,他們更看重的是包括硬件、軟件、互聯(lián)的整體解決方案的有效利用率。所以我們已經(jīng)從單芯片的維度升級到了更高的系統(tǒng)層面。這也是燧原推出整機多卡、多卡互聯(lián)、分布式軟件、云端部署的一整套交鑰匙解決方案的原因。”張亞林說道,“我們也更強調(diào)通過低碳綠色化的云燧智算集群服務(wù)客戶。”

        AI芯片的比拼要升級到AI系統(tǒng)的比拼,從用戶角度,對比AI系統(tǒng)的維度就會包含五個:軟硬件一體的性價比、能效比、易用性、遷移成本、范化性。

        既然是系統(tǒng),互聯(lián)技術(shù)非常關(guān)鍵。目前,業(yè)界通過不同的遠程直接內(nèi)存訪問技術(shù)(RDMA)進行互聯(lián),比如InfiniBand、iWARP、RoCE。燧原采用的是自研GCU-LARE互聯(lián)技術(shù)實現(xiàn)云燧AI加速卡的多卡集群互聯(lián),同時兼容業(yè)界其它RDMA技術(shù)便于與其它系統(tǒng)互連。

        據(jù)介紹,燧原自研的GCU-LARE多卡集群互聯(lián)技術(shù),支持6個帶寬50GB/s的卡間傳輸端口,總帶寬達到300 GB/s。

        GCU-LARE具備兩大特色,一個是不需要傳統(tǒng)互聯(lián)技術(shù)的連接卡或橋接卡,可以直接通過線纜的方式直連,降低成本。另一個是能夠根據(jù)用戶的需求和機房的實際情況,定制不同的拓撲結(jié)構(gòu),能夠輕松構(gòu)建4000卡以上的大型訓(xùn)練集訓(xùn)拓撲,實現(xiàn)定制化集群產(chǎn)品CloudBlazer Matrix。

        在云燧T20的發(fā)布會上,燧原發(fā)布了云燧智算集群 CloudBlazer Matrix 2.0,最高可實現(xiàn)1.3E(130000T)的單精度只能算力集群。

        “云燧的互聯(lián)接口在單口速度保持不變的前提下,接口數(shù)量從T10的4個增加到T20的6個,帶寬提升150%。用云燧T20可以打造中國E級單精度算力集群。”張亞林表示。

        “在軟件易用性和遷移成本方面,我們投入了大量精力。”

        與云燧T20一起發(fā)布的還有軟件平臺馭算2.0,進行了多方面提升,包括:為用戶提供高度契合業(yè)界標準的編程接口,以支持高性能自定義算子開發(fā);全面優(yōu)化的動態(tài)性模型支持;引入業(yè)界先進的MLIR編譯框架;基于啟發(fā)式自適應(yīng)方法的算子泛化實現(xiàn)以及圖優(yōu)化策略,可以廣泛支持更多標準模型和自定義模型訓(xùn)練。

        張亞林介紹:“馭算2.0的重點是提升易用和泛化,同時也能降低遷移用戶的成本。我們的產(chǎn)品從第一代開始就采用的熱啟動的方式降低用戶的遷移難度和成本,也就是在進行硬件架構(gòu)設(shè)計的時候就已經(jīng)考慮了客戶的需求,在落地的時候得到了客戶認可。如今第二代產(chǎn)品,同樣采用熱啟動的方法,使用更多的用戶反饋進一步降低遷移難度和成本。”

        “在軟件層面,現(xiàn)在業(yè)內(nèi)比較通用的兩個AI框架是TensorFlow和Pytorch,如果他們的模型完全基于框架開發(fā),切換到燧原的產(chǎn)品只需要硬件切換,軟件可以無縫切換。軟硬件一定是一體化,也只有軟硬一體化設(shè)計才對客戶有更高價值。”張亞林進一步表示。

        因此,馭算2.0還支持資源虛化、重組以及系統(tǒng)級設(shè)備虛擬化,使用戶在業(yè)務(wù)部署和資源整合上可擁有更為靈活的方法;支持4000卡規(guī)模以上的集群分布式訓(xùn)練;升級系統(tǒng)兼容性方案、部署方案和RAS,支持主流操作系統(tǒng)最新發(fā)型版,開箱即用,簡化客戶定制系統(tǒng)集成,對客戶的部署和運維更加友好。

        實際上,芯片實力的比拼從來都不是單芯片的比拼,而是系統(tǒng)和生態(tài)實力的比拼。縱觀目前全球前幾大芯片巨頭,持續(xù)迭代的芯片只是其保持競爭力的基礎(chǔ),圍繞芯片的互聯(lián)技術(shù)、軟件棧以及不斷拓展的生態(tài)才是競爭的護城河。

        燧原既然已經(jīng)從單芯片的能力拓展到系統(tǒng)層面,那如何挑戰(zhàn)云端訓(xùn)練芯片的霸主英偉達?

        聚焦三個業(yè)務(wù)群,與霸主差異化競爭

        “作為一個追趕或者新生者,差異化競爭是必然的。燧原進行差異化競爭時一直注重三個部分,第一是我們提供的算力性價比一定要越來越好,第二是中國有最豐富的業(yè)務(wù)場景,也有最豐富業(yè)務(wù)場景使用者,所以我們與最豐富的業(yè)務(wù)場景做更多深入的結(jié)合,并進一步做業(yè)務(wù)場景的泛化,第三就是本土化、定制化、客戶的服務(wù)開發(fā)。”張亞林說。

        據(jù)雷鋒網(wǎng)了解,燧原從2020年公布第一個落地客戶騰訊開始,一直堅持的是三條業(yè)務(wù)線:泛互聯(lián)網(wǎng)、垂直行業(yè)(金融、交通、電力、醫(yī)療、工業(yè)等)以及新基建。

        “我們在這三個業(yè)務(wù)線上不斷發(fā)力,構(gòu)筑整個業(yè)務(wù)群,三個業(yè)務(wù)群都已經(jīng)實現(xiàn)客戶接入,同時也拿到非常多的客戶反饋。有了因第一代產(chǎn)品開拓的戰(zhàn)略合作伙伴,利用第二代產(chǎn)品我們可以把這三個業(yè)務(wù)群的場景和客戶群擴大,這也是燧原的生態(tài)護城河。”張亞林表示。

        燧原科技CEO趙立東還宣布了燧原的異構(gòu)計算生態(tài)——“燎原”計劃,目標是以AI為起點構(gòu)建通用異構(gòu)計算生態(tài),構(gòu)建標準化技術(shù)體系,共建完整生態(tài)服務(wù)數(shù)字中國。

        三個業(yè)務(wù)群對燧原的產(chǎn)品生態(tài)也有不同的意義。商業(yè)客戶更看重整個業(yè)務(wù),或產(chǎn)品的性價比。傳統(tǒng)行業(yè)更多看重的端對端的解決方案,而不是一個簡單的加速卡。

        張亞林解釋,燧原與商業(yè)客戶一起打磨產(chǎn)品,建立原始創(chuàng)新生態(tài)。在傳統(tǒng)行業(yè)客戶端打磨端對端的場景生態(tài)。同時,燧原科技響應(yīng)國家綠色化的號召,實現(xiàn)集群的功耗、能效進一步的優(yōu)化,真正能夠在新基建層面做出更加普惠的綠色算力,符合國家關(guān)于碳中和、碳達峰的政策導(dǎo)向。

        “對于初創(chuàng)公司而言,剛開始需要盡快證明我們的執(zhí)行力、產(chǎn)品以及商業(yè)化的價值,所以與一些戰(zhàn)略伙伴展開了合作,但這并不代表我們的產(chǎn)品是專用的。隨著我們第二代產(chǎn)品的推出,會進一步泛化場景和拓展客戶,從一個點切開一條線最后達到一個面。并且,對于任何一家初創(chuàng)公司而言,智能計算的任何一個市場都已經(jīng)足夠龐大。”張亞林說。

        除此之外,燧原還通過與之江實驗室、上海交通大學(xué)、西安交通大學(xué)等高校的合作,構(gòu)建生態(tài)的同時培養(yǎng)人才。

        對于與國內(nèi)和國際巨頭的競爭,張亞林的態(tài)度是,“目前對國內(nèi)芯片行業(yè)的發(fā)展是天時地利人和,我認為國內(nèi)半導(dǎo)體和AI賽道百花齊放是好事,我們會堅持自己,志存高遠、腳踏實地。追趕國際巨頭,作為中國芯片公司有市場、政策和資金的優(yōu)勢,我們的普惠智能算力只是第一步,未來燧原會在異構(gòu)計算領(lǐng)域不斷拓展產(chǎn)品線,提供更多異構(gòu)計算的整體解決方案。”

        小結(jié)

        芯片性能參數(shù)的提升是最容易感知和理解的產(chǎn)品升級,但這卻不是芯片公司最強大的競爭力所在,圍繞芯片構(gòu)建的接口、標準、互聯(lián)技術(shù),以及軟件棧、客戶認可、合作伙伴生態(tài)才是以芯片為核心構(gòu)建競爭力公司的終極目標。

        這也是在AI時代眾多芯片初創(chuàng)公司宣稱的算力超越行業(yè)領(lǐng)導(dǎo)者,卻未能獲得大量訂單的關(guān)鍵所在。很好的現(xiàn)象是,已經(jīng)有以燧原為代表的AI芯片初創(chuàng)公司,開始去強調(diào)AI算力系統(tǒng)的價值。

        責任編輯:hnmd003

        相關(guān)閱讀

        推薦閱讀

        亚洲午夜精品久久久久久app| 亚洲精品无码久久千人斩| 久久影视国产亚洲| 亚洲av无码专区在线电影| 中文日韩亚洲欧美制服| 国产精品亚洲四区在线观看| 亚洲综合一区二区| 亚洲精品影院久久久久久| 亚洲最新永久在线观看| 亚洲免费在线播放| 亚洲一区二区电影| 亚洲精品国产福利片| 亚洲最新在线视频| 亚洲av产在线精品亚洲第一站| 亚洲国产精品网站久久| 亚洲二区在线视频| 7777久久亚洲中文字幕| 亚洲中文字幕无码av| 亚洲精品成a人在线观看夫| 亚洲精品国产摄像头| 亚洲精品女同中文字幕| 色偷偷亚洲第一综合| 亚洲国产成人VA在线观看 | 亚洲高清偷拍一区二区三区| 久久久青草青青国产亚洲免观| 国产亚洲精品a在线观看| 亚洲精品无码MV在线观看| 五月天网站亚洲小说| 亚洲视频在线不卡| 国产成人精品日本亚洲网址 | 亚洲色大成网站www永久一区| 亚洲国产精品一区二区第一页| 亚洲av不卡一区二区三区| 久久久久亚洲AV无码观看| 亚洲精品乱码久久久久久下载 | 精品亚洲成α人无码成α在线观看| 永久亚洲成a人片777777| 亚洲av永久无码制服河南实里| 91亚洲国产成人精品下载| 亚洲一区二区三区免费在线观看 | 亚洲无线一二三四区|