DSP產生的初衷是為了增強系統計算功能,經過近三十年的發展,DSP已經從單純數字信號處理器發展為片上系統(SoC)。德州儀器(TI)不斷增加DSP的處理能力,其DSP的處理速度已飛速發展到了10 GHz,并且在內部集成了ARM內核。然而,在綠色環保被高度關注的今天,低功耗也是DSP發展的主題之一,而不是一味的追求高性能。TI在2011年超級計算大會(SC´11)上演示了其針對超低功耗、超高性能計算應用的TMS320C66x系列最新產品TMS320C6678多核DSP,它是業界性能最高、功耗最低的DSP,這預示著全新高性能計算(HPC)時代的到來。TI中國區通用DSP業務發展經理鄭小龍先生向記者介紹了相關情況。
為低功耗HPC樹立榜樣
說它功耗低,到底低到什么程度呢?圖1是一個C6678和知名電信計算刀片及多核處理器平臺制造商研華(Advantech)開發的采用了4個C6678的半長PCIe卡DSPC-8681多媒體處理引擎的性能表。可以看到,C6678只需要消耗1 W就可以運算6 FFT GFLOP或者5.4 SGEMM GFLOP;DSPC-8681消耗1 W則可運算3.85 FFT GFLOP或者3.5 SGEMM GFLOP。也就是說,C6678 用10 W功耗就可實現160 GFLOP的性能,半長PCIe卡在50 W極低功耗下能實現超過500 GFLOP的性能。小龍介紹到:“TI和研華還將很快推出在200 W極低功耗下支持1~2萬億次浮點運算性能的全長卡,為HPC應用帶來更高效率更快速度的解決方案,實現業界轉型。”此外,TI低功耗SmartReflex技術也使設計更加綠色環保。
據了解,研華發布DSPC-8681以來,該產品已經在高強度計算雷達與醫療影像應用中得到早期市場采用。TI最新系列多核開發工具的推出不但將顯著加速HPC應用客戶的評估,而且還將在超級計算領域全面發揮C6678多核DSP的潛力。
繼續創高性能計算新“低”
C6678基于C66x KeyStone架構,是目前業界最高性能的量產多核DSP,具有8個1.25 GHz DSP 內核,可在10 W功耗下實現160 GFLOP的性能。TI即將推出極致性能、超低功耗的TMS320TCI6609多核DSP,它4倍于C6678性能,32 W就能實現512 GFLOP的性能。不但可使DSP成為HPC的理想解決方案,而且還正改變著開發人員選擇應用解決方案的方式。將于2012年提供樣片的TCIC6609代碼兼容于C6678 DSP,有助于開發人員重復使用現有軟件,保護其對TI 多核DSP 的投資。
TMS320C6678與TMS320TCI6609非常適合諸如油氣勘探、金融建模以及分子動力學等需要超高性能、低功耗以及簡單可編程性的計算應用。
助力簡化HPC開發
TI提供功能強大的軟件開發工具以及低成本評估板(EVM),還特別提供針對科學計算優化的庫,無需花費時間優化代碼,便可更便捷地實現最高性能,而且還支持C與OpenMP等標準編程語言,因此開發人員可便捷地移植應用,充分發揮低功耗與高性能優勢。在這方面,TI的確下了很大的功夫,TI與德州大學奧斯汀分校(UT Austin)成功將該校科學計算高密度線性代數庫(libflame 庫)移植至TI TMS320C6678多核DSP,該移植可帶來所有libflame功能,能夠為油氣勘探、金融建模以及分子動力學等眾多HPC應用提供基本軟件構件組塊,成為多內核創新的又一里程碑。