昇騰910是一款具有超高算力的AI處理器,其最大功耗為310W,華為自研的達芬奇架構大大提升了其能效比。八位整數精度(INT8)下的性能達到640TOPS,16位浮點數(FP16)下的性能達到320 TFLOPS。
作為一款高集成度的片上系統(tǒng)(SoC),除了基于達芬奇架構的AI核外,昇騰910還集成了多個CPU、DVPP和任務調度器(Task Scheduler),因而具有自我管理能力,可以充分發(fā)揮其高算力的優(yōu)勢。
昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,為構建橫向擴展(Scale Out)和縱向擴展(Scale Up)系統(tǒng)提供了靈活高效的方法。HCCS是華為自研的高速互聯(lián)接口,片內RoCE可用于節(jié)點間直接互聯(lián)。最新的PCIe 4.0的吞吐量比上一代提升一倍。
實際測試結果表明,在算力方面,昇騰910完全達到了設計規(guī)格,即:半精度(FP16)算力達到256 Tera-FLOPS,整數精度(INT8)算力達到512 Tera-OPS;重要的是,達到規(guī)格算力所需功耗僅310W,明顯低于設計規(guī)格的350W。
徐直軍表示:昇騰910總體技術表現(xiàn)超出預期,作為算力最強AI處理器,當之無愧。我們已經把昇騰910用于實際AI訓練任務。比如,在典型的ResNet50網絡的訓練中,昇騰910與MindSpore配合,與現(xiàn)有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。
面向未來,針對不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景,華為將持續(xù)投資,推出更多的AI處理器,面向全場景持續(xù)提供更充裕、更經濟、更適配的AI算力。