近日,在中國電信集團公司統一組織下,中國電信研究院、天翼云、北京電信成功完成業內首個1024卡千億參數商用大模型分布式聯合訓練真實用戶試商用,通過武清到瀛海之間的真實光路環回實現了500公里長距互聯分布式訓練,訓練性能達到單數據中心的97%以上,這一重大突破為大模型訓練的跨地域協同發展開辟了新的道路。
本次試商用基于北京現網800G廣域智聯無損網絡以及息壤一站式智算服務平臺開展,在互聯距離、帶寬收斂比以及模型參數方面均產生突破,實現了多數據中心互聯及資源整合支持商用模型分布式聯合訓練。
在廣域智聯無損網絡技術方面,中國電信創新廣域無損調度算法、關鍵幀識別技術,將帶寬收斂比提升到32:1;創新WSON 50ms極速倒換技術,實現長距鏈路中斷無感知切換。系列技術有效解決了長距離傳輸中網絡擁塞丟包、鏈路故障、建網成本等問題,確保了訓練過程的穩定性和高效性——在500公里的長距離傳輸下,網絡傳輸吞吐率仍能保持在較高水平,為千卡千億參數商用大模型的聯合訓練提供了堅實的網絡支撐。與此同時,息壤平臺支持算力插件、跨地域算網協同、跨數據中心自動并行、斷點續訓等一系列關鍵技術能力,實現故障秒級定位、分鐘級處理與恢復,保證了百川千億參數商用模型的快速部署和穩定高效運行。
此次試商用的成功是中國電信在智算網絡領域持續創新和實踐的成果,也是積極響應國家戰略推動算力網絡協同發展的重要舉措。未來,中國電信將繼續加大在智算網絡領域的投入和研發力度,為人工智能產業的發展提供更加強有力的網絡支持,助力我國數字經濟的高質量發展。
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。