2 月 5 日消息,百度智能云今日宣布成功點亮昆侖芯三代萬卡集群,這也是國內首個正式點亮的自研萬卡集群。百度智能云將進一步點亮 3 萬卡集群。
首先,突破硬件擴展性瓶頸,如卡間互聯(lián)的拓撲限制,避免通信帶寬成為瓶頸;
同時,圍繞芯片及集群功耗,基于萬卡規(guī)模常規(guī)方案功耗可達十兆瓦或更高,采用創(chuàng)新性散熱方案,從而解決萬卡集群的能效與散熱問題;
完善模型的分布式訓練優(yōu)化,采用高效并行化任務切分策略,訓練主流開源模型的集群 MFU 提升至 58%;
在提升穩(wěn)定性方面,提供容錯與穩(wěn)定性機制,避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓練率達到 98%;
最后,針對機間通信帶寬需求,建設超大規(guī)模 HPN 高性能網(wǎng)絡,優(yōu)化拓撲結構,從而降低通信瓶頸,帶寬有效性達到 90% 以上。
從昆侖芯科技官方獲悉,本次點亮的昆侖芯三代萬卡集群,采用的是昆侖芯 P800。昆侖芯官網(wǎng)暫未公布該卡的參數(shù)。
本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。