阿里巴巴11月7日宣布,其大數據團隊自研的實時數據計算平臺Galaxy,目前每秒可運算數據超過500萬條,預計雙十一當天每秒運算量將超過1000萬條,日處理消息數將超過1萬億條。針對每一筆交易數據,系統將實時反復檢測70余次以保證數據質量。
一分鐘成交破億,一千多萬人涌入天貓。這是2013雙十一購物狂歡節第一分鐘的戰況。這些數據在杭州淘寶城內的數據大屏實時播報。大屏上跳動的每個數字,來自于阿里內部60多個系統間的緊密合作:當你在以最快速度秒殺到雙十一熱賣商品的同時,這些系統已經完成了無數輪的數據采集、傳輸、加工、計算以及反饋到頁面的工作。這正是阿里未曾公開的技術-如何在保障數據質量的前提下實現實時計算?
Galaxy是阿里巴巴自研的通用增量計算平臺,能提供從分鐘級別到秒級別、甚至毫秒級別延遲的實時數據計算能力。Galaxy解決了計算通用性、開發成本、數據質量等諸多難題,并提供可擴展、規模化的集群服務能力。
目前,Galaxy每秒可計算數據已達500萬條,每日處理的記錄數超過2500億,日處理數據量近2PB。想象一下:當你還在努力算出1024×1024等于多少時,這一秒鐘內Galaxy已經拿到數據、計算結束、交出結果這一整套流程500萬遍了。今年雙十一,用戶瀏覽、成交、手機APP等產生的數據量都將大規模增長。當天Galaxy的運算量預計每秒將超過1000萬,日處理消息數將超過1萬億條。
阿里巴巴數據質量團隊介紹:“Galaxy不光要算得快,還得保證不能算錯。”除了Galaxy之外,阿里研發了一套可以實時檢測線上數據的系統,能夠在1秒鐘以內完成從數據產生到校驗的過程,每筆交易可以實時建議70多次,以保障雙十一的數據不會算錯。
比如,一個美國用戶在雙十一活動下單,剛付完款,可能由于國際間網絡突然閃斷,導致“已付款”狀態數據沒有傳輸回來。這時,呈現給買家的可能就是“交易失敗”的狀態。但通過數據實時檢測系統,能在這個問題被消費者發現之前就開始報警進行處理。也許,還沒消費者回過神來,這個問題就已經被糾正,絲毫感受不到“交易失敗”曾經出現過。
此外,Galaxy還設計了數據“防漏”措施,哪怕服務器突然宕機,也能保障數據不丟失,快速恢復后繼續工作。想象一下:如果在你跟朋友約好晚上看電影的時候,你突然發了一場高燒昏厥過去,正常情況下,要去醫院才能治好,并且得休息好幾天。Galaxy不僅能自我修復,而且還能將時光倒回到那個晚上,你和朋友繼續去看電影。
目前,Galaxy已逐步支撐阿里集團絕大部分的實時業務和應用,包括淘寶、天貓、阿里云、菜鳥、聚劃算、無線、搜索、廣告、數據魔方等業務提供實時計算服務。