NineGameSports:人工智能运算中的AI芯片
作者:九游体育发布时间:2025-01-09
AI是现在的热门,可人工智能实际是在干什么,人们一般只是看到各种新奇好玩的应用。这一切的背后,是数据的运算处理九游体育。对应的是各种硬件芯片,作为了运算的支撑。能用于处理AI数据的芯片,现在统一称为AI芯片。CPU、GPU、TPU、NPU、FPGA芯片,一大堆的AI芯片,到底区别在哪?
要搞清楚这些,首先要先了解现在的计算机的体系结构---冯诺依曼体系。
图中的【运算器】+【控制器】部分,就是计算机的核心,完成调度与计算,也就是CPU(Central Process Unit)。
工作流程如下:
控制器读取指令,然后控制读入输入数据到存储器,运算器从存储器获得数据,进行运算,将结果再保存回存储器,再用于输出。
这里面的存储器是一个泛称,包括cpu内部的L1、L2、L3级的缓存和内存。容量上:L1
上面介绍了冯诺依曼体系的CPU,它要处理的内容包括各种指令,还包括各种格式的数据,是一个通用的处理结构。需要在各种数据下不断切换使用模式。特别数据的处理是从存储中读入,结果保存回存储,不停在部件间切换。特别是在处理大数据量时,切换量很大。
8个处理核心CPU
即使多核心的CPU,其内部也仅仅是若干工作单元,内存数据I/O始终是瓶颈。

CPU是一个核心的指挥官,特定的工作还是派发给专门的设备(设备上有专门的处理单元,如网卡,需要专门的网卡芯片),本身体能一般NineGameSports。通用的CPU厂商有Intel、AMD。GPU
GPU(Graphic Process Unit)专门处理图形数据,数据的类型、结构单一,但吞吐量大。于是,显卡厂商的策略就是加宽路面,大量同步通行。
一款Nvidia GPU的架构图
通过增加同类处理单元,增加显示内存,可以大量提高图形数据处理能量。目前最新的RTX 3090GPU,Tensor Core数达到328个(CUDA core为10496个),显存24G,当然功耗达到350W。
对于单一类型的数据并行处理,GPU很适合,速度是同期CPU的几十倍。但它的处理方式比较粗犷,是在原有显卡发展基础上直接扩展,带来的显存扩张及能耗也很大。最初谷歌在跑Alpha GO的时候,下一盘棋,电费代价达到3000美金。目前的代表是Nvidia和ATI,只是前者涉及AI计算更领先。TPU
第三代 Cloud TPU
TPU全称为Tensor Process Unit,称为张量处理单元,是谷歌发展的AI芯片,专用于神经网络工作负载的矩阵处理器,主要进行乘法与加法运算,用于云端的模型训练,内部有很多处理单元。输入为张量,一个处理单元运算后,进入下一单元继续运算,输出即是结果。内存的读写,内存需求都很小。
2018年4月,在 DAWNBench比赛(斯坦福大学发布的深度学习和推理基准)中,非 TPU 处理器的最低训练成本是 72.40 美元(使用现场实例训练 ResNet-50 达到 93% 准确率)。使用 Cloud TPU v2 ,以 12.87 美元的价格完成相同的训练结果,这仅相当于非 TPU 1/5 的成本。NPU
NPU全称是Neural network Processing Unit, 即神经网络处理器。
嵌入式神经网络处理器(NPU)采用“数据驱动并行计算”的架构,特别擅长处理视频、图像类的海量多媒体数据。
2016年6 月 20 日,中星微数字多媒体芯片技术 国家重点实验室在北京宣布,已研发成功了中国首款嵌入式神经网络处理器(NPU)芯片,成为全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,并取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。
NPU一般作为辅助处理芯片,比如华为麒麟990中,借助NPU,实现手势操作,智能去背景等酷炫效果。NPU主要用于嵌入式端侧部署,如手机、监控摄像头等。
FPGA
FPGA(Field-Programmable Gate Array),即现场可编程门阵列。
原来是硬件工程师才能玩转的半导体芯片,而随着工艺的进步和当今人工智能(AI)时代的发展和数据的爆炸性发展,一举跻身三大处理器主流芯片:FPGA,CPU,GPU。
FPGA可以反复编程重写,因而可以适应变化的AI计算环境。
目前百度、微软都选择的是这种方式。
如果具体的应用场景或算法发展得太快,或者硬件规模太小的时候,可以继续使用FPGA实现这些硬件功能。当应用规模逐渐扩大时,我们可以在合适的时机,选择将这些已经成熟的定制化硬件设计直接转化成定制化芯片,以提高它们的稳定性,降低功耗和成本。
Catapult FPGA板卡,图片来自微软
FPGA的主要供应商为 Xilinx (赛灵思)、altera (阿特拉)、Lattice。