又色又爽的视频-天天插伊人-黄色短视频免费观看,中文字幕精品亚洲无线码二区,精品久久91,欧美色就是色

解密昇騰AI處理器--Ascend310簡介

解密昇騰AI處理器--Ascend310簡介

解密昇騰AI處理器--Ascend310簡介

【摘要】 Ascend310 AI處理器規(guī)格Ascend310 AI處理器邏輯架構(gòu)昇騰AI處理器的主要架構(gòu)組成:芯片系統(tǒng)控制CPU(Control CPU)AI計(jì)算引擎(包括AI Core和AI CPU)多層級的片上系統(tǒng)緩存(Cache)或緩沖區(qū)(Buffer)數(shù)字視覺預(yù)處理模塊(Digital Vision Pre-Processing,DVPP)等AI Core:集成了2個(gè)AI Core。


Ascend310 AI處理器規(guī)格

 

Ascend310 AI處理器邏輯架構(gòu)

昇騰AI處理器本質(zhì)上是一個(gè)片上系統(tǒng)(System on Chip,SoC),主要可以應(yīng)用在和圖像、視頻、語音、文字處理相關(guān)的應(yīng)用場景。其主要的架構(gòu)組成部件包括特制的計(jì)算單元、大容量的存儲單元和相應(yīng)的控制單元。該芯片大致可以劃為:芯片系統(tǒng)控制CPU(Control CPU),AI計(jì)算引擎(包括AI Core和AI CPU),多層級的片上系統(tǒng)緩存(Cache)或緩沖區(qū)(Buffer),數(shù)字視覺預(yù)處理模塊(Digital Vision Pre-Processing,DVPP)等。芯片可以采用LPDDR4高速主存控制器接口,價(jià)格較低。目前主流SoC芯片的主存一般由DDR(Double Data Rate)或HBM(High Bandwidth Memory)構(gòu)成,用來存放大量的數(shù)據(jù)。HBM相對于DDR存儲帶寬較高,是行業(yè)的發(fā)展方向。其它通用的外設(shè)接口模塊包括USB、磁盤、網(wǎng)卡、GPIO、I2C和電源管理接口等。

昇騰AI處理器的主要架構(gòu)組成:

  • 芯片系統(tǒng)控制CPU(Control CPU)

  • AI計(jì)算引擎(包括AI Core和AI CPU)

  • 多層級的片上系統(tǒng)緩存(Cache)或緩沖區(qū)(Buffer)

  • 數(shù)字視覺預(yù)處理模塊(Digital Vision Pre-Processing,DVPP)等

  • AI Core:集成了2個(gè)AI Core。昇騰AI芯片的計(jì)算核心,主要負(fù)責(zé)執(zhí)行矩陣、向量、標(biāo)量計(jì)算密集的算子任務(wù),采用達(dá)芬奇架構(gòu)。

  • ARM CPU核心: 集成了8個(gè)A55。其中一部分部署為AI CPU,負(fù)責(zé)執(zhí)行不適合跑在AI Core上的算子(承擔(dān)非矩陣類復(fù)雜計(jì)算);一部分部署為專用于控制芯片整體運(yùn)行的控制CPU。兩類任務(wù)占用的CPU核數(shù)可由軟件根據(jù)系統(tǒng)實(shí)際運(yùn)行情況動(dòng)態(tài)分配。此外,還部署了一個(gè)專用CPU作為任務(wù)調(diào)度器(Task Scheduler,TS),以實(shí)現(xiàn)計(jì)算任務(wù)在AI Core上的高效分配和調(diào)度;該CPU專門服務(wù)于AI Core和AI CPU,不承擔(dān)任何其他的事務(wù)和工作。

  • DVPP:數(shù)字視覺預(yù)處理子系統(tǒng),完成圖像視頻的編解碼。用于將從網(wǎng)絡(luò)或終端設(shè)備獲得的視覺數(shù)據(jù),進(jìn)行預(yù)處理以實(shí)現(xiàn)格式和精度轉(zhuǎn)換等要求,之后提供給AI計(jì)算引擎。

  • Cache & Buffer:SOC片內(nèi)有層次化的memory結(jié)構(gòu),AI core內(nèi)部有兩級memory buffer,SOC片上還有8MB L2 buffer,專用于AI Core、AI CPU,提供高帶寬、低延遲的memory訪問。芯片還集成了LPDDR4x控制器,為芯片提供更大容量的DDR內(nèi)存。

  • 對外接口:支持PCIE3.0、RGMII、USB3.0等高速接口、以及GPIO、UART、I2C、SPI等低速接口。

昇騰AI處理器集成了多個(gè)ARM公司的CPU核心,每個(gè)核心都有獨(dú)立的L1和L2緩存,所有核心共享一個(gè)片上L3緩存。集成的CPU核心按照功能可以劃分為專用于控制芯片整體運(yùn)行的主控CPU 和專用于承擔(dān)非矩陣類復(fù)雜計(jì)算的AI CPU。兩類任務(wù)占用的CPU核數(shù)可由軟件根據(jù)系統(tǒng)實(shí)際運(yùn)行情況動(dòng)態(tài)分配。

除了CPU之外,該芯片真正的算力擔(dān)當(dāng)是采用了達(dá)芬奇架構(gòu)的AI Core。這些AI Core通過特別設(shè)計(jì)的架構(gòu)和電路實(shí)現(xiàn)了高通量、大算力和低功耗,特別適合處理深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)必須的常用計(jì)算如矩陣相乘等。目前該芯片能對整型數(shù)(INT8、INT4) 或?qū)Ω↑c(diǎn)數(shù)(FP16)提供強(qiáng)大的乘加計(jì)算力。由于采用了模塊化的設(shè)計(jì),可以很方便的通過疊加模塊的方法提高后續(xù)芯片的計(jì)算力。

針對深度神經(jīng)網(wǎng)絡(luò)參數(shù)量大、中間值多的特點(diǎn),該芯片還特意為AI計(jì)算引擎配備了容量為8MB的片上緩沖區(qū)(On-Chip Buffer),提供高帶寬、低延遲、高效率的數(shù)據(jù)交換和訪問。能夠快速訪問到所需的數(shù)據(jù)對于提高神經(jīng)網(wǎng)絡(luò)算法的整體性能至關(guān)重要,同時(shí)將大量需要復(fù)用的中間數(shù)據(jù)緩存在片上對于降低系統(tǒng)整體功耗意義重大。為了能夠?qū)崿F(xiàn)計(jì)算任務(wù)在AI Core上的高效分配和調(diào)度,還特意配備了一個(gè)專用CPU作為任務(wù)調(diào)度器(Task Scheduler,TS)。該CPU專門服務(wù)于AI Core和AI CPU,而不承擔(dān)任何其他的事務(wù)和工作。

數(shù)字視覺預(yù)處理模塊主要完成圖像視頻的編解碼,支持4K分辨率,視頻處理,對圖像支持JPEG和PNG等格式的處理。來自主機(jī)端存儲器或網(wǎng)絡(luò)的視頻和圖像數(shù)據(jù),在進(jìn)入昇騰AI芯片的計(jì)算引擎處理之前,需要生成滿足處理要求的輸入格式、分辨率等,因此需要調(diào)用數(shù)字視覺預(yù)處理模塊進(jìn)行預(yù)處理以實(shí)現(xiàn)格式和精度轉(zhuǎn)換等要求。數(shù)字視覺預(yù)處理模塊主要實(shí)現(xiàn)視頻解碼(Video Decoder,VDEC),視頻編碼(Video Encoder,VENC),JPEG編解碼(JPEG Decoder/Encoder,JPEGD/E),PNG解碼(PNG Decoder,PNGD)和視覺預(yù)處理(Vision Pre-Processing Core,VPC)等功能。圖像預(yù)處理可以完成對輸入圖像的上/下采樣、裁剪、色調(diào)轉(zhuǎn)換等多種功能。數(shù)字視覺預(yù)處理模塊采用了專用定制電路的方式來實(shí)現(xiàn)高效率的圖像處理功能,對應(yīng)于每一種不同的功能都會(huì)設(shè)計(jì)一個(gè)相應(yīng)的硬件電路模塊來完成計(jì)算工作。在數(shù)字視覺預(yù)處理模塊收到圖像視頻處理任務(wù)后,會(huì)讀取需要處理的圖像視頻數(shù)據(jù)并分發(fā)到內(nèi)部對應(yīng)的處理模塊進(jìn)行處理,待處理完成后將數(shù)據(jù)寫回到內(nèi)存中等待后續(xù)步驟。

訂閱快訊

通過快訊訂閱,您將及時(shí)收到我們的信息更新通知。