近日,英國人工智能芯片硬件設計初創公司Graphcore發布其參與MLPerf測試的最新結果。相較此前,新發布的Bow系統本次在圖像分類模型ResNet-50和自然語言處理模型BERT上分別實現了高達31%和37%的性能提升。此外,還新增了語音轉錄模型RNN-T的提交。
Graphcore本次提交有三點值得關注:
1. 提交了不同規格和尺度的Bow IPU計算平臺,包括Bow Pod16、Bow Pod64、Bow Pod128及Bow Pod256,取得令人欣慰的成績;
2. 經過兩年的迭代和打磨,公司的軟件已可以較為快速地接入不同的軟件框架。除NVIDIA之外,Graphcore是為數不多具備足夠軟件成熟度的芯片公司,這是一個重要的里程碑;
3. 在投入大量人力、物力資源對硬件、軟件、模型進行優化的同時,公司持續推進客戶業務工作,致力于將算力轉化為客戶的價值。
Graphcore中國工程副總裁、AI算法科學家金琛以上述三點為中心展開詳盡介紹。
首先,作為MIMD架構的圖處理器,Graphcore的芯片是多核的,共1472顆。每個核都有自己的SRAM,是一個多核分布式、片上內存分布式的多指令多數據處理器。除了支持NVIDIA、谷歌、英特爾等公司能夠支持的模型之外,Graphcore還能夠讓這些模型在IPU上也同樣高效運行。因此,雖然公司的技術路線有所不同,但依舊可以取得好成績,并且擁有更多可能性。
(注:這里的圖處理器不是矢量處理器,而是基于AI計算圖的處理器,所以支持運行一些矢量處理器運行效果不佳的應用場景。)
另外,Graphcore在軟件和產品方面進展豐富。據介紹,IPU-POD計算平臺發布于2020年第四季度,當時軟件棧為SDK 1.4。經過幾代IPU-POD平臺的演進,Graphcore在軟件上進行了大量優化(從SDK 1.4到SDK 2.5),提升了對不同的AI框架的支持,例如TensorFlow、PyTorch和百度飛槳。同時,也提供了對高層的開源框架的支持,使開發者可以通過這些高級API快速構造模型。
平臺方面,公司在今年第一季度發布了最新的基于Bow芯片的Bow Pod平臺,這也是本次MLPerf 2.0主要提交的計算平臺。“我們在兩個月的時間內把新發布的產品轉化為實際的性能以及用戶可以使用的價值,這對Graphcore來說是一個特別大的收獲。”金琛表示,“我們在去年7月提交了MLPerf 1.0,當時使用的是SDK 2.1。在提交MLPerf 1.1時,我們橫向擴展到了IPU-POD128和IPU-POD256。現在使用新一代的芯片迭代,基本上每半年就會有一個特別大的提升,對于一家擁有七百名員工的芯片公司來說,這個迭代速度也是相當驚人的。”從使用SDK 1.4的IPU-POD16在ResNet-50模型進行訓練,到如今使用SDK 2.5的Bow Pod256在ResNet-50模型上進行訓練,Graphcore的客戶獲得了整體高達64倍訓練時間的提升。
Graphcore本次提交產品的規格(從左到右,訓練時間尺度從小到大,算力從低到高)
在模型提交類別上,ResNet-50和BERT是標準提交的集合。此外,公司在語音方面開放分區提交了RNN-T(Recurrent Neural Network Transducer)。“這是始于我們客戶的項目,提交開放分區一方面可以促進MLPerf模型的迭代,另一方面也可以讓其他有類似業務需求的客戶了解到我們的性能指標,這對我們來說是比較有意義的。”金琛表示。
MLPerf V2.0提交結果出爐,Graphcore AI性能再創佳績
Bow Pod在ResNet-50上的提交結果。2021年底,Graphcore提交過一次ResNet-50。在NVIDIA的DGX-A100和IPU-POD16的對比上,后者超過NVIDIA,IPU-POD16耗時28.3分鐘。本次提交結果為19.64分鐘。而在Bow Pod256上,訓練時間僅需2.67分鐘。
“從幾年前的1小時到現在的只需大概3分鐘,這就是算力的進步給模型迭代帶來的紅利。”金琛講道。
Bow Pod在ResNet-50上的提交結果。從Bow Pod16到Bow Pod256,也存在一個線性提升。
與2021年提交ResNet MLPerf結果的對比。從IPU-POD16到Bow Pod16的訓練時間提升了31%;吞吐量的提升約為1.6倍,其中1.3倍來自硬件提升,1.26倍來自軟件提升。Bow Pod256提升了接近30%。
“系統越大,越難提升。我們在大尺度的系統上做了很多通信庫,做了很多集合通信(Collective Communication)上的優化,使得在大尺度系統上的表現也有類似的同比例提升。”金琛解釋。
與2021年提交BERT MLPerf結果的對比。訓練時間提升了接近37%,吞吐量提升了1.6倍。
本次MLPerf提交中,首次有第三方使用了Graphcore的系統。百度飛槳使用Graphcore系統進行了BERT的提交,并展現出和Graphcore的BERT提交幾乎一致的性能,證明了Graphcore的IPU所提供的性能可以有效地跨框架復現,以及IPU生態進一步繁榮的潛力。
“我們與百度飛槳聯合提交的結果也十分喜人。PopART是Graphcore自研的框架,是基于芯片所構造的高效的訓練推理引擎。百度飛槳使用Bow Pod16和Bow Pod64進行了BERT在封閉分區的提交,結果與Graphcore使用PopART進行提交的結果幾乎一致。此次聯合提交一方面證明我們的軟件棧非常成熟,能夠快速對接一個新的AI框架;另一方面也證明百度飛槳的框架非常高效,沒有任何性能侵入式的設計。”
此外,金琛還談及Graphcore在價格方面占據的優勢。
“以DGX-A100為參考,在ResNet-50模型上,Bow Pod比DGX-A100快了約30%。如果用大尺度計算平臺,比如8臺DGX-A100和Bow Pod256相比,性能對比約為6x:10x,而Bow Pod的價格又遠遠低于DGX-A100的8倍。”金琛指出。
Intel HLS-Gaudi2在本次提交的性能表現也非常不錯,但因未公布價格,無法定位他們在價格圖譜上的位置。
將算力轉化為客戶價值
黃標為Graphcore歷屆提交的MLPerf模型;紅標為客戶需求所帶來的模型遷移。
部分客戶成功案例展示。
Graphcore + Aleph Alpha,強強聯合就模型創新開展合作
橫軸為2016年至2024年;縱軸為模型計算量。
“從2018年BERT-Large的3.3億到2020年GPT3 1750億的模型規格,在短短兩年的時間內這個模型就增長了500倍。再到2021年,悟道2.0的1.75萬億和Google Switch Transformer的1.6萬億,一年時間增長了10倍。我們預計未來兩到四年也有百倍的增長,基本上達到相當于人腦的100萬億規模,在算力上遠遠達不到指數增長的趨勢。有什么辦法能夠盡量接近模型增長的速度?這是我們接下來想考慮的問題。”依據上圖,金琛講道。
Aleph Alpha是一家成立于2019年,總部位于德國海德堡的人工智能初創公司。它的創立旨在改變歐洲的人工通用智能(AGI)研究與應用。據介紹,未來Graphcore和Aleph Alpha將依據各自優勢強強結合,對大模型、大算力做出聯合貢獻。
與百度飛槳聯手閃耀MLPerf,開啟全球范圍首次雙方共同提交先例
百度飛槳對接硬件廠商的適配統一方案。
“Graphcore給我們提供了一個新的思路——以子圖或者整圖的方式,跟硬件廠商做高效率對接。最終的成果大家可以通過MLPerf看到,無論是基于PopART的成績還是基于百度飛槳的成績,基本上性能一致性是比較高的。”百度飛槳產品團隊負責人趙喬表示。據介紹,Graphcore是首家在訓練場景中和百度飛槳對接的硬件廠商,幫助后者在這一過程中使軟件棧得到更好的升級。另外,雙方本次合作也開啟了全球范圍內首次雙方共同提交的先例。“這個過程有很多技術上的合作,也在MLPerf的規則內收獲了一些來自MLPerf整個組織的官方認可,同時這個過程也存在很多不確定性以及挑戰。”趙喬表示,“在與Graphcore合作的整個過程中,我們也感受到無論是Graphcore本地的工程、營銷團隊,還是國際團隊,都非常崇尚技術,非常開放,并且抱有一個愿意緊密合作的態度,所以我們以很高的效率,大概一個季度多一點的時間,就完成了整體的聯合提交。”未來,Graphcore將與百度飛槳在AI Ecosystem的共創方面,以技術為核心,在生態、產業、社區方面開展更多合作,推動AI產業變革。