與谷歌、百度、阿里這樣的科技巨頭一樣,亞馬遜希望掌握自身業務的全部。在昨天拉斯維加斯舉行的 AWS re:Invent 大會上,這家公司發布了一款名為 Inferentia 的機器學習芯片。
「Inferentia 將會是一款超高吞吐量、低延遲、性能強大,且功耗比極佳的處理器,」AWS 首席執行官 Andy Jassy 在發布中介紹道。
對于亞馬遜來說,這或許是必然要走的一步。來自 Constellation Research 的分析師 Holger Mueller 對此表示,亞馬遜在自研芯片上遠遠落后于其他巨頭,但這一步頗具意義,在未來這家公司或許會嘗試不同的機器學習方法。
Inferentia 支持 INT8、FP16 等流行框架以及混合精度。此外,它也支持 TensorFlow、Caffe2 和 ONNX 等機器學習框架。
當然,作為亞馬遜的產品,它也支持處理 AWS 產品中的數據,例如 EC2、SageMaker,以及今天公布的 Elastic 推理引擎。這款產品專為推理而設計,這方面與專為訓練機器學習模型設計的谷歌 TPU 不同。Jassy 表示,目前為機器學習計算設計加速器的芯片公司——如其中最大的英偉達——已經投入巨大精力對于模型訓練進行優化,這就是 AWS 決定專注于設計更好的推理芯片的原因。
亞馬遜稱,若在已訓練模型的基礎上進行推理任務,Inferentia 芯片可以擔負 90% 的算力。通過使用 Amazon Elastic Inference,開發者們可以通過將 GPU 驅動的推理加速功能附加到 Amazon EC2 和 Amazon SageMaker 實例上,將推理成本降低多至 75%左右。
亞馬遜 Inferentia 機器學習芯片的原型,這款芯片由 Annapurna Labs 設計。圖片來自亞馬遜副總裁、杰出工程師 James Hamilton。
與亞馬遜此前的定制 Arm 處理器 Graviton 一樣,Inferentia 是這家公司在 2015 年收購的以色列創業公司 Annapurna 的幫助下設計的。在 Inferentia 之前不久,亞馬遜還發布了 Graviton 芯片——這是一款基于 ARM Cortex-A72 架構的定制化 CPU 處理器,其最高時鐘速度為 2.3GHz。
開啟科技巨頭自研機器學習芯片風潮的公司是谷歌。2016 年,谷歌就正式發布了 TPU(其時谷歌已在內部使用 TPU 超過一年時間了),時至今天,TPU 已經發展到了第三代。這款產品的算力也已經成為谷歌云服務的一部分,可為所有開發者提供算力支持。亞馬遜的最大競爭對手微軟 Azure 尚未推出自己的處理器。當然,所有三家公司的機器學習云服務算力主要基于英偉達 GPU。此外,AWS 和 Azure 還提供用于機器學習的 FPGA 服務。
雖然亞馬遜今天對外發布了此芯片,但 AWS CEO Andy Jassy 表示 Inferentia 在明年之前不會上線。在發布會上,亞馬遜也沒有公布有關這款芯片的更多技術細節。該公司表示,每塊 Inferentia 芯片可提供「提供數百 TOPS」的推理吞吐量...... 為獲得更高性能,可以將多個 AWS Inferentia 芯片并聯實現數千 TOPS 的吞吐量。
目前的 AI 專用芯片在性能指標上最為強大的是華為今年 10 月推出的昇騰 910,據稱其半精度(FP16)算力可達 256TFLOPS,最大功耗為 350W。
在云服務方面,亞馬遜正在成為行業領導者,而其推出的 AI 芯片與定制化 CPU,勢必更將鞏固這家公司的領先地位。