近期,36氪于北京盛大召開“WISE2024 商業之王”大會,吸引各行各業精英齊聚,共探艱難卻正確之事。北京電子數智科技有限責任公司(以下簡稱“北電數智”)應邀出席,其CMO兼戰略與市場負責人楊震發表《“國產算力 PoC 平臺”,以場景測評尋找算力最優解》主題演講,在大會上分享了北電數智對于國產算力應用的深刻見解與前沿探索成果,為行業發展提供了極具價值的思路與方向。
OpenAI o1發布后,強化學習提升大模型智力的推理模型路線獲得了業內認可,不少公司紛紛發布推理模型。而推理模型雖信奉以長思考時間提高智能水平,但實際應用中用戶仍看重響應速度快、推理成本低、吞吐能力長這些指標。且推理模型注重垂直場景落地,存在產業鏈斷層,模型方與算力供給需按場景系統化適配痛點。北電數智首個國產算力PoC平臺可助力推理模型落地,提供低成本算力,幫大模型適配國產芯片提升推理效果、加速推理速度。
國產算力PoC平臺構建于北電數智先進計算迭代驗證平臺(即前進?AI 異構計算平臺)之上,坐落于由北電數智統籌規劃建設、設計運營的北京數字經濟算力中心。國產算力PoC平臺可針對不同廠家的算力芯片,實施算力納管與統一調度,依據各類模型任務的特性差異,精準調配適宜的算力資源。同時,借助構建豐富的算子庫、打造通信庫等手段,有力推動模型訓練加速進程,為大模型供給兼具高性價比與高品質的算力支持,使其以更低成本、更高效率開展運算,助力大模型落地。
當模型與行業、場景深入結合,定制化的重要性日益凸顯。北電數智推出的國產算力PoC平臺能夠為用戶在垂直場景下提供算力集群的評測、適配以及驗證服務,協助算力需求方探尋出最為適宜的“軟件+硬件”組合方案,以此提升模型訓推算力的效率,削減訓推所需時間與成本,為用戶締造更優質的使用體驗。
國產算力PoC平臺大幅提升國產芯片利用率和集群利用率。借助調度、算法以及算子等多層面優化,國產算力PoC平臺可大幅改善國產集群的訓推效能,混訓集群的訓練成果能夠達到單一集群綜合訓練效果的1.2倍,在進行混推操作時使平均MFU(模型對算力的利用率)從30%躍升至60%。
經過國產算力PoC平臺多層優化后,反映在模型生成速度上表現為基于國產芯片的模型首字延遲最多可優化10倍,解碼延遲可達10倍優化,能更迅速地完成數據解析工作,推理吞吐量最高可實現80倍的提升。意味著在單位時間內能夠處理更多的數據,進而更快速地響應模型推理需求,有效提升用戶體驗并提高數據處理效率。
為進一步提升運行效率并節約資源,北電數智在集群中運用了一系列推理優化策略。例如,憑借scoping to zero特性能夠有效縮短冷啟動時長;在集群推理環節,支持Continuous batch、Page attention、CPU / GPU 異步等推理策略,提高GPU利用率。
當前,北電數智的國產算力PoC平臺已經實現了對十多種國內知名算力芯片的評測支持以及與二十多款主流模型的適配。北電數智的國產算力PoC平臺在當下AI發展進程中已彰顯出關鍵價值與強大競爭力。其憑借精準的算力納管與調度、卓越的模型適配能力以及全方位的優化舉措,有效解決了推理模型在落地應用時面臨的諸多難題,極大地提升了國產芯片利用率與集群效能,降低了模型訓推成本并顯著提高了運行效率。
身為肩負“建設數字中國”使命的AI原生國企,北電數智始終堅持做難而正確的事,致力于強化行業間的生態聯動,打通模型、場景與芯片在商業運營及研發創新層面的閉環鏈路。在人工智能產業蓬勃發展的浪潮中,北電數智積極布局,通過持續優化國產算力PoC平臺整合行業資源,不僅為產業鏈上下游企業提供了高效的合作橋梁,也致力于提升我國人工智能產業自主化創新能力,為國家科技戰略推進做出創新示范。