智慧校园_手机
智慧照明_手机
物联网软硬件定制开发边缘AI处理的的选择
发布时间:2021-11-02 16:28:17 TAGS:
云计算在边缘端的弱势使得边缘AI处理器有了崛起的机会,在工业4.0、自动化系统和智能IoT的潮流下,边缘AI还需要继续开拓应用场景,而不仅仅是用于机器视觉任务。
北京中联科创物联网软硬件系统平台大数据云计算定制建设开发公司
AI应用如同燃起的野火一般,从消费级的手机端,出现在了工业级的超级游轮和航空级的空间站上。然而在边缘端,这些应用遇上了传统应用也挣扎了数年的需求:更高的性能、更大的容量和更低的功耗。
更糟糕的是,机器学习模型正在以指数级的速度增长,每3到5个月就会翻一番。要想应用这些模型的话,传统的计算芯片已经难以利用有限的内存资源和功率提供高性能,连数据中心都在AI工作负载上感到吃力了,更不用说在边缘侧运行的大型模型。为此,边缘AI处理器成了不少芯片大厂和初创企业的发力方向。然而在处理器的选取上,并不是仅仅看算力、功耗和成本而已。

边缘AI处理器的选择

首先,AI芯片公司不仅要有硬件开发实力,也要具备强大的AI软件栈和工具。比如英特尔或英伟达之类的厂商,其CPU或GPU设计早已为TensorFlow、Caffe或Pytorch等框架提供了支持,但初创企业自研架构的AI处理器往往需要打造自己的编译器来支持这些框架。
其次,是处理器支持的神经网络精度。多数边缘AI处理器精度并不高,这是因为将神经网络转换为低精度简化了硬件设计,同时也极大地降低了功耗。要想保持高精度的话,往往需要重新训练神经网络,下面给大家介绍几款。

Nvidia - Jetson Xavier NX

英伟达于2019年公布了一款名为“Jetson Xavier NX”的AI处理器,专门用于边缘系统和嵌入式应用。Jetson Xavier NX只有70mm x 45mm的大小,却可以在15W的功耗下提供21 TOPS(INT8)的AI算力。
Jetson Xavier NX / Nvidia
Jetson Xavier NX集成了6核CPU、384核GPU、48个Tensor核心、2个NVDLA深度学习加速器和7路VLIW视觉处理器加速器。其中CPU选用了英伟达Carmel Arm核心,GPU则是基于Volta架构。该处理器还配备了8GB 128位的LDDR4x内存,可提供59.7GB/s的带宽性能。
英伟达已经为用户提供了开发者套件,可以创建高性能的AI应用,并快速部署深度神经网络模型和常见的机器学习框架,比如Tensorflow和Pytorch等,除此之外也可以用到cuDNN、TensorRT和DeepStream等一系列软件库和加速工具。
Jetson Xavier NX最大的优势在于其Jetson产品线全部基于同一软件栈,所以可以直接套用更强大的Jetson AGX Xavier上的AI应用,只不过算力要稍低一截而已。凭借其21TOPS的AI算力,加上加速器提供的视频处理器性能,可以毫无压力地完成人体识别、自研语言处理、姿势检测和注视检测等AI应用,适用于自动光学检测和智能摄像头等一系列边缘IoT设备。

Hailo - Hailo-8

Hailo-8 / Hailo
Hailo是一家来自于以色列的AI芯片公司,不少核心开发成员来自于以色列国防科技部门,主要负责为边缘设备开发高性能的AI处理器。早在2019年,Hailo就公布了其自研的边缘AI处理器Hailo-8,其算力可达26TOPS(INT8),但该处理器的典型功耗仅有2.5W。在完成了多轮融资后,Hailo也在今年开始了Hailo-8的量产。
Hailo-8与Jetson产品的对比 / Hailo
与传统的CPU、GPU、DSP或硬件加速器的架构不同,Hailo在这款处理器上运用了自研的结构定义数据流架构。在ResNet-50的神经网络测试中,Hailo-8取得了1330FPS@3.2W的成绩。Hailo还在官网晒出出了Hailo-8与英伟达Jetson Nano与Xavier NX在ResNet和SSD_MobileNet等模型下的预期表现对比,我们从上图可以看出,Hailo-8在性能上优势明显,能耗比更是让英伟达的两款Jetson处理器望尘莫及。
Hailo还准备好了开源的Model Zoo,其中囊括了物体识别、分类、人脸检测识别等60多种计算机视觉任务的深度学习模型。开发者利用这些预训练的Tensorflow和ONNX模型,只需用上自己的数据重新训练,即可在Hailo设备上迅速创建好原型。

Mythic - M1076

M1076模拟矩阵处理器 / Mythic
美国德州的初创公司Mythic推出了利用存内计算技术的M1076模拟矩阵处理器(AMP)。单个M1076芯片的面积只有360mm2,却可以在3W至4W的功耗下提供35 TOPS的算力,与常见的SoC或GPU方案相比,功耗低了10倍以上。
但这并不是M1076的最大特色,与传统数字计算方式不同,Mythic在M1076上运用了模拟计算。模拟计算虽然理论上要要与数字计算,但长久以来收到尺寸的限制,在速度与扩展性上一直提不上去。然而Mythic通过将模拟运算与嵌入式闪存结合,选择了存内计算的方式。
M1076同时支持INT4、INT8和INT16三种数据类型,非常适合作为TinyML的开发平台。Mythic也为客户提供了物体识别/分类、图像分割和姿势评估等模型,可用于AR/VR中的智能健身和游戏等应用。
小结
云计算在边缘端的弱势使得边缘AI处理器有了崛起的机会,在工业4.0、自动化系统和智能IoT的潮流下,边缘AI还需要继续开拓应用场景,而不仅仅是用于机器视觉任务。边缘AI处理器厂商也必须继续提供更多的模型,帮助开发者加速边缘AI应用的落地。

阅读( 700)