《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 解決方案 > Achronix白皮書:軟件定義的硬件提供打開高性能數據加速大門的鑰匙

Achronix白皮書:軟件定義的硬件提供打開高性能數據加速大門的鑰匙

2020-03-23
來源:Achronix

本文概要

  在眾多的行業中,數據加速是構建高效、智能系統的關鍵之處。傳統的通用處理器在支持用戶去突破性能和延遲限制方面性能不足。而已經出現的許多加速器技術填補了基于定制芯片、圖形處理器或動態可重構硬件的空白,但其成功的關鍵在于它們能夠集成到一個以高吞吐量、低延遲和易于開發為首要條件的環境之中。由Achronix和BittWare聯合開發的板級平臺已針對這些應用進行了優化,從而為開發人員提供了一條可部署高吞吐量數據加速的快捷途徑。

日益增長的分布式加速需求

  在云計算和邊緣計算中,業界渴求能夠支持各種應用的高性能。為了滿足這一需求,數據中心、網絡集群和邊緣計算站點的運營商正在轉向定制化的加速器技術。

  對于需要高性能計算平臺的用戶,專用加速器在實踐中被常用來應對各種挑戰;這些用戶不再依靠諸如Intel Xeon系列CPU這樣的傳統通用CPU來支持數據吞吐量不斷增長這一需求。通用CPU的核心問題在于,盡管摩爾定律一直在以大約每兩年就會使每平方毫米硅片中集成的晶體管數量增加一倍的速度演進,但它不再支持時鐘速率的增長。此外,CPU內的并行性很快達到了天花板。因此,其他技術更適合支持新型工作負載,包括如機器學習、基因組研究、數學和統計分析、語音和圖像識別以及數據挖掘和搜索。

  與傳統由數據庫驅動的應用相比,這些新的工作負載通常無法很好地映射到傳統CPU流水線上;例如一些神經網絡的訓練已被驗證可以在GPU上運行良好,這些算法可以利用數百個并行浮點著色器內核通過所需的數萬億個步驟來迭代更新一個大型網絡。另一方面,基因組研究和數據搜索需要利用大量的對比步驟,并需處理低分辨率的整數數據。盡管這些工作負載可以利用CPU或GPU來完成處理,但是在這些平臺上運行時,這些任務的計算效率和能效相對較低。自定義的基于ASIC或FPGA的加速器能夠以更低的功耗提供更大的吞吐量,這是因為它們支持設計人員去構建針對這些操作和數據類型進行優化的專用電路。

  互聯網搜索和社交媒體等領域內的超大規模數據中心運營商已采用加速器概念來保障其服務器載荷的高效運轉。語音響應系統現在已經被用于日常生活中,并得到了運行在傳統刀片服務器與自定義加速器組合上的人工智能算法的支持。隨著對這些基于機器學習和數據挖掘等技術的應用的需求不斷增長,大量的企業用戶正在轉向基于加速器的方案,以使他們自己能跟上需求的步伐。據研究機構Research and Markets的分析預測,僅數據中心加速器這一市場的規模,就將從2018年的28億美元增長到2023年的212億美元,復合年增長率接近50%。

  在這種增長之外,加速器的應用還注定將擴展到數據中心之外。諸如虛擬現實、自動駕駛、機器人技術和工業4.0等領域無法忍受信息在經過遠程數據中心中繼后帶來的電信延遲。越來越多的計算能力將需要被部署在邊緣計算機架中,而被安裝于路邊機柜中、移動基站旁或校園柜子內。

  在各種數據中心和邊緣計算用例中,有諸多常見的需求驅動因素,比如能效,快速轉型,以及可擴展性。能效是降低冷卻成本和復雜性以及將電費花銷降到最低的核心要求。低功耗操作在邊緣計算裝置中至關重要,因為其中的環境溫度的控制功能較弱,并且還需將維護的需求保持在最低限度。

  在許多領域中,快速轉型是不可避免的,并會創造新的需求,以便在變化出現時能夠根據要求對應用進行調整和再加工。它不僅僅是對現有應用的更新;通常,新的用例在出現時,都會挑戰用戶及時做出反應的能力。而這些用例可能需要開發將不同的技術和概念結合在一起的應用,例如將人工智能(AI)功能添加到數學建模和數據挖掘系統中。為了應對這些轉型,用戶需要調用可以很好地進行協同工作的加速器技術,并且各個組件可以通過網絡連接來進行高速通信。

  可擴展性同樣重要。隨著面向特定服務的客戶群不斷增長,運營商需要知道他們能夠輕松地增加容量。同樣至關重要的是,具有高效通信能力的高度可編程解決方案通過增加并行性來支持其擴展能力。對諸如100 Gbps以太網和更快的鏈路等協議的支持,可確保能夠使用分布式處理去適應增長。例如,邊緣應用可能會調用云支持,直到本地機柜升級到具有額外的處理能力。

用于加速的硬件平臺

  加速器的硬件可以有多種形式。理想的配置是提供PCI Express(PCIe)和高速以太網連接的組合,并可以選擇添加自定義連接以支持諸如環形、網狀和菊花鏈結構等各種拓撲結構,以滿足應用的各種數據吞吐量需求。對PCIe的支持通過內存映射接口將加速引擎與主處理器和其他加速器緊密集成。能夠在諸如PCIe之類的接口上存儲共享結構來交換數據,就可以極大地簡化分布式應用的開發。

  以100 Gbps或更高速率運行的以太網連接進一步提供了擴展范圍。通過使用它們自有的以太網端口,而不是通過主機的主網絡接口來路由數據包,加速器可以彼此間高效地相互協調。例如,在一個分布式存儲配置中,加速卡可以被直接連接到嵌入式非易失性存儲器(NVMe)模塊上,每個模塊中的獨立搜索引擎使用通過其以太網連接發送的消息,來識別分散在多個節點上的數據,從而可以很容易地進行協調。

  無論是作為主要的加速技術還是與GPU和其他技術配合使用,FPGA都非常適合數據中心和邊緣計算應用的需求。FPGA的一個關鍵優勢是可以在系統中來對其進行編程,以創建各種各樣的數字電路。軟件可以為目標應用選擇配置比特流,并將其發送以配置FPGA。通過將新模式加載到器件上的邏輯陣列中,FPGA可以根據需要進行動態更新以承擔新的任務。可編程性創建了由軟件定義的硬件,從而完全支持用戶不僅能夠動態更改應用,還可以動態更改支持它們運行的硬件。將硬件可編程性與連接多個加速器的能力相結合,為用戶提供了極大的靈活性。

  許多計算類用戶已經意識到FPGA在加速應用中的強大功能。例如,微軟的Catapult項目使用FPGA為其搜索服務構建加速器,并且在其BrainWave項目中使用FPGA進行高速人工智能推理。亞馬遜通過其F1服務提供了可在云端使用的FPGA,這使得到遠程用戶可以容易地部署這項技術。

  在其他領域選擇使用FPGA加速也已有一些時間。例如, FPGA邏輯陣列多年來一直被用于軍事和航空航天領域的雷達處理,以及醫學領域的實時成像。隨著工業領域接受了實時機器設備健康監測等概念,以作為邁向工業4.0的一部分,用戶可以轉向使用FPGA來提高其算法的質量和響應能力。

  相對于使用GPU來進行數據加速,采用FPGA的實現方式通常受益于較低的延遲和更高的能效。GPU的一個關鍵問題是:它們的計算效率通常只是其理論吞吐量的一小部分。因為GPU針對3D圖形渲染流水線進行了優化,基于數據高度重用的執行流水線設計,導致著色器內核往往會在相對較小的本地存儲以外運行。數據流式工作負載提供的數據重用機會更少,這就意味著需要更頻繁地用新數據來填充存儲器,而這會影響處理時間。CPU中面向緩存的子系統也同樣受制于類似的問題。FPGA可以實現數據自由流動的完整流水線,因此可以提供了遠遠高于GPU或者CPU的計算效率。例如,基因組研究應用的基準測試表明,與基于CPU的實現方式相比,基于FPGA的硬件可將速度提高80倍。

  在高性能計算和云計算環境中,架構師正在轉向FPGA加速以避開系統中其他部分出現的瓶頸。通過將更多工作移交給存儲子系統本身,數據中心用戶可以在效率上得到大幅提升。數據庫加速、數據分析和其他適用于計算型存儲的處理形式可以與加密、去重復數據和安全擦除編碼等低層級服務功能一起被部署在加速器上。

  隨著諸如軟件定義網絡(SDN)和網絡功能虛擬化(NFV)等概念的流行,刀片服務器在數據中心內部和數據中心之間的通信管理任務中正發揮著更為重要的作用。但是,隨著線速增加到100 Gbps甚至更高,Xeon級服務器處理器的處理負擔是非常巨大的,數據中心運營商熱衷于將許多SDN功能的處理工作卸載到附近的加速卡上。在新興的架構中,通用服務器CPU被用于處理異常事件,而同時加速器則負責處理大量的網絡流量。當新的需求、應用和安全威脅出現時,FPGA能夠更新算法和網絡協議處理,從而使它們成為網絡加速的理想基礎平臺。

實施有效加速

  被亞馬遜(Amazon)、Facebook和微軟(Microsoft)等超大規模用戶采用的第一批加速器都是大幅度定制的設計。這些公司能夠在打造自己的板卡設計中確保所需的規模經濟,無論是基于自己設計的專用集成電路(ASIC),還是采用現成的FPGA和GPU。從成本和時間的角度來看,對于企業數據中心和邊緣計算用戶來說,他們難以在這種定制芯片級設計中找到合理的規模。然而,設計定制的ASIC和板卡并不是必需的。對諸如以太網和PCIe等標準接口的需求,不僅使使用標準板卡級產品成為可能,而且也是可取的。

  作為一家長期提供硬件加速產品的供應商,BittWare一直在為從高性能計算到云加速到儀器儀表等眾多領域內的客戶設計采用PCIe尺寸的、基于FPGA的板卡,并在這方面積累了豐富的經驗。現在,作為Molex集團的子公司,BittWare能夠充分借助其全球供應網絡以及與戴爾(Dell)和惠普企業(HP Enterprise)等服務器供應商的深厚關系。BittWare是唯一一家可與多家主流FPGA供應商合作的重要批量化供應商,能夠滿足企業客戶的質量認證、驗證、產品生命周期管理和支持需求,這些客戶希望為關鍵任務型應用去大規模部署FPGA加速器。

  在這些應用中,BittWare實現的一個重要差異化在于該公司為其基于FPGA的加速器提供了廣泛的軟件支持。每個加速卡均配有適用于Linux和Windows系統的驅動軟件,可通過PCIe和以太網連接將其快速集成到各種系統中。除了支持主CPU和加速卡之間的通信外,該驅動還支持接入加速卡上的嵌入式固件。這個固件可以處理眾多管理和自檢功能。

  它們使FPGA電路能夠根據需要的新功能重新進行配置,此外還提供了一些對功耗、電壓和溫度的監測程序。如果主機系統中的冷卻功能失效,那么擔任管理者的固件可以關閉加速卡,以避免熱過載。此外,軟件組合包還包括各種參考設計,以便開發人員能夠快速構建配置,使他們可以測試加速卡的功能并開始在其自己的應用上工作。

  對于最新一代的加速卡,BittWare與Achronix緊密合作。Achronix是唯一一家能夠同時提供獨立FPGA芯片和嵌入式FPGA(eFPGA)半導體知識產權(IP)的FPGA供應商。VectorPath?S7t-VG6加速卡使用了Achronix采用7nm 工藝打造的、結合了很多功能的Speedster?7t FPGA芯片,不僅可以在內部提供高吞吐量數據加速,而且還支持現今從機器學習到先進儀器等系統所需的高度分布式、網絡化的架構。

圖片1.png

  圖1:VectorPath S7t-VG6加速卡

軟件友好型的硬件提供了最大的靈活性

  通過對分布式架構提供直接支持,VectorPath S7t-VG6加速卡中使用的Speedster7t FPGA芯片標志著與傳統FPGA架構不同的重大轉變,它使面向軟件的開發人員更容易地構建定制化的處理單元。這種創新的全新架構與諸如英特爾(Intel)和賽靈思(Xilinx)等供應商生產的傳統FPGA完全不同,傳統FPGA的設計關注點并不在數據加速。

  在設計Speedster7t的架構時,Achronix創建了一種可最大限度地提高系統吞吐量的FPGA芯片,同時還為計算機架構師和開發人員提高了易用性。與傳統的FPGA架構相比,Speedster7t FPGA芯片的一個關鍵差異化點在于它包括一個創新的二維片上網絡(2D NoC),可以在邏輯陣列內的處理單元與各種片上高速接口和存儲器端口之間流傳數據。

  傳統的FPGA要求用戶去設計電路來將其加速器連接到高速以太網或PCIe數據端口和/或存儲器端口。通常,一個獨立系統是由連接到多個高速端口的多個加速器組成。例如,下圖就說明了一種場景,其中有兩個加速器連接到兩個存儲端口上,以共享一個存儲空間。這種場景使用了FIFO來管理存儲器和FPGA時鐘之間的時鐘域交叉(CDC)。此外,FPGA邏輯架構中還需要一個交換功能來管理尋址、仲裁和反壓。在傳統的FPGA中,這項功能會消耗大量的FPGA資源,并且其復雜程度足以降低系統性能并使時序收斂變得復雜。

  Achronix采用了由軟件設計來實現硬件的方法,而這種硬件中的以太網和其他高速I / O端口可用二維片上網絡(2D NoC)輕松地連接到定制的加速器功能上。Speedster7t NoC不再需要設計CDC和交換功能來將加速器連接到高速數據或內存端口。通過簡單地將這些功能連接到NoC,就消除了連接方面的難題,從而簡化了設計,減少了FPGA資源的消耗,提高了性能并簡化了時序收斂。

圖片2.png

  圖2:傳統FPGA設計面臨的挑戰

圖片3.png

  圖3:Speedster7t二維片上網絡支持軟件友好型硬件

  為了實現高性能的算術運算,每個Speedster7t器件都具有一個大型可編程計算單元陣列,它們被有序地放置在機器學習處理器(MLP)單元模塊中。MLP是一個高度可配置的計算密集型單元模塊,在每個周期內可支持多達32個乘法/累加(MAC)運算。在以加速器為中心的設計中,MLP的存在使得在完全可編程邏輯和硬連線算術單元之間能夠有效地共享資源。

  盡管有些FPGA傾向于使用HBM2存儲器,其中FPGA和存儲器被組裝成一個昂貴的2.5D封裝,而Speedster7t系列卻采用GDDR6內存標準接口。這種接口提供了當今片外存儲器可實現的最高性能,并且成本顯著降低,從而使團隊更容易去實現帶有高帶寬存儲陣列的加速器。一個GDDR6存儲控制器可以支持512 Gbps的帶寬。VectorPath S7t-VG6加速卡可提供八組存儲器,總存儲帶寬可以達到4 Tbps。此外,板上還有一個DDR4接口,可用于訪問頻率較低或不需要GDDR6吞吐量的數據。

  VectorPath S7t-VG6加速卡提供了許多高性能接口,用來支持分布式架構和高速主機通信。現在,該加速卡提供了PCIe Gen 3.0的16通道合規性和認證,并提供獲取Gen 4和Gen 5資質認證的途徑。在以太網連接方面,該加速卡采用已獲得廣泛支持的光學接口模塊,依據QSFP-DD和QSFP56標準,能夠處理高達400 Gbps的超高線速。

  在加速卡的另一端還有一個OCuLink擴展端口,以支持很多其他的低延遲應用場景。例如,OCuLink端口可用于將加速卡連接到各種外圍設備上,比如用于計算存儲或數據庫加速應用的NVMe存儲陣列。與采用連接到主處理器的PCIe接口相比,OCuLink連接能夠成為一個更好的選擇,因為它提供了一種消除了系統級延遲和抖動的高確定性的連接。OCuLink端口還可以引入其他網絡連接,從而可擴展實現QSPF-DD或QSFP56之外的各種端口規格。

圖片4.png

  圖4:VectorPath的網絡和存儲接口

  在VectorPath S7t-VG6加速卡的前面板上還包括多個時鐘輸入,它們是在將多個加速卡同步到一起時通常需要的。兩個SMB時鐘輸入連接器支持從1PPS和10 MHz的時鐘輸入,它們在進入FPGA之前,就已被連接到抖動清除器。一旦進入FPGA,這些時鐘就可以被倍頻或分頻成為特定應用所需的頻率。

  還可以通過通用數字I / O端頭進行進一步擴展。該I / O端口支持單端3.3V連接和低電壓差分(LVDS)信號,支持外部時鐘、觸發器和專用I / O等自定義信號直接連接到Speedster7t FPGA。該擴展端口還可用于將VectorPath加速卡改造為傳統硬件。

圖片5.png

  圖5:VectorPath時鐘輸入和GPIO

適用于小批量和大批量需求

  VectorPath S7t-VG6加速卡已考慮到了每個細節,例如可支持被動和主動空氣散熱和液體散熱。此外,BittWare和Achronix還為醫療等需要更長產品生命周期的領域確保提供長期的供應與支持。在這些市場中,基于GPU的PCIe加速卡較短的產品生命周期與超過10年的系統服務支持需求是不符的。

  對于更大批量需求,特別是在邊緣計算等場景中,客戶可以使用BittWare的成本降低計劃來簡化硬件,其設計僅僅支持客戶所需的I / O選項。此外,BittWare也可提供電路板設計文件以及VectorPath S7t-VG6加速卡隨附的軟件和驅動器的使用。利用Achronix的Speedcore eFPGA IP,也可以走向定制系統級芯片(SoC)器件。客戶可以構建自己其中包括Speedster7t可編程性的SoC,但又具有ASIC的成本結構。

  為了實現更好的開發和更便捷的部署,VectorPath S7t-VG6加速卡可以由BittWare以其TeraBox平臺的形式來提供預先集成的多核服務器。外形從2U到5U,TeraBox的機架式機箱最多可容納16個BittWare PCIe加速卡,并由雙路英特爾(Intel) Xeon處理器管理。作為一個完整的解決方案,TeraBox為客戶提供了啟動和運行FPGA開發的最快機制。在Bittworks II和FPGA Devkit軟件的支持下,用戶可以直接使用TeraBox并立即開始開發工作。或者,客戶也可以從Dell和HP Enterprise購買包含BittWare加速卡的預配置服務器。

圖片6.png

圖6:TeraBox平臺的部署

結論

  考慮到用戶需要在多種多樣的應用中尋求數據加速功能,BittWare和Achronix已經創建了一種高度靈活的引擎,無論它們是被單獨使用,還是作為大型異構處理陣列中的一部分,都可以被輕松部署。作為該加速卡的核心芯片,Speedster7t FPGA為開發人員提供了構建高吞吐量應用的能力,這些應用可以充分利用可編程邏輯、PCIe以及高達400 Gbps的以太網連接。BittWare的軟件和支持保證了這些開發人員在插入卡后就可以立即開始工作。FPGA和Speedster7t NoC的靈活特性意味著:隨著應用的變化和發展,這些加速卡可以最大限度地延長其使用壽命。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 777影视电视剧免费看 | 乱码精品一区二区三区 | 我和岳交换夫妇中文字幕在线 | 欧美在线一级视频 | 久久精品国产99久久 | 欧1州区2区3区4区产品 | 国产偷国产偷亚洲高清午夜 | 欧美两性网 | 午夜美女福利视频 | 欧美性色黄大片四虎影视 | 精品国产精品久久一区免费式 | 男人的天堂2021 | 欧美97色伦影院在线观看 | 看片视频在线观看 | 黑人一级黄色片 | 国产成人亚洲午夜电影 | 国产成人青草视频 | 国产成人精品日本亚洲11 | 男人女人的免费视频网站 | 精品一区二区三区四区乱码 | 精品动漫一区二区三区 | 欧美a√在线| 一区二区三区不卡免费视频97 | 日韩高清第一页 | 欧美日韩在线精品成人综合网 | 色客成人网 | 国产日韩在线观看视频 | 国产视频每日更新 | 五月网站 | 国产一级一级片 | 毛片久久| 亚洲国产精品成人综合色在线婷婷 | 色久天 | 黄视频免费网站 | 设计(2014)韩国 | 五月花在线视频 | 国产精品久久久久久久牛牛 | 国产成人综合精品一区 | 久久免费观看视频 | 日本免费a视频 | 国产成人在线视频播放 |