深度自学的可编程 DSP,且就在今天,具有软件生态系统的新型 XM6 IP 也被发售,其效率更高,计算能力更加强劲,还有新的节约能源专利。玩游戏 IP 游戏当 CEVA 宣告 XM4 DSP 推测定点算法中实训练的精度与全算法基本一样,误差将近 1 %时,它夺得了该领域许多的分析师奖项,CEVA 称之为高性能和功率效率让其从竞争,及软件框架的可行性进展中脱颖而出。IP 公告公布于 Q1 2015 季度,第二年取得了许可证,第一批用于 IP 生产的硅钢将于今年下线。此后,CEVA 公布了其 CDNN2 平台,它是一款一键编译器工具,训练网络,并将其转换成合适 CEVA XM IPS 的代码。
新一代 XM6 统合了历代 XM4 的特点,改良了配备,可以采访硬件加速器,还享有新型的硬件加速器,而且,它还保有着 CDNN2 平台的兼容性,这样的编码可相容 XM4,也可以在 XM6 上高性能运营。CEVA 归属于 IP 业务,如 ARM,并与半导体公司合作,然后卖给 OEMs。这一般来说必须很长的时间,来将新产品从构想实际跳入市场,特别是在是在安全性和汽车等行业于是以较慢发展时。
CEVA 将 XM6 改为了一种可拓展的、可编程的 DSP,它可以用单一的代码库跨越市场,同时利用额外的功能来提高功率、性能,并降低成本。今天的公告中,还包括新型 XM6 DSP,CEVA 新的系列的图像和视觉软件库,一套新的硬件加速器,并将其带入 CDNN2 生态系统。CDNN2 是一款一键编译器工具,检测卷积,并应用于高于逻辑块和加速器的最佳方法传输数据。
XM6 将反对 OpenCL 和 C++ 开发工具,以及软件元素还包括 CEVA 的计算机视觉、神经网络和具有第三方工具的视觉处置库。硬件为标准 XM6 核心的处置部分构建 了AXI 相连,从而与加速器和内存交互。XM6 IP 里面有卷积的硬件加速器 CDNN 助手,它容许较低功率相同功能硬件,处置神经网络系统的疑难部分,如 GoogleNet,校正鱼眼上的图像或变形镜头,图像的杂讯未知,转换的函数是相同功能友好关系型的,以及其他的第三方硬件加速器。XM6 的两大新的硬件功能,将协助大多数图像处理和机器学习算法。
第一个是集中-挤满,或者说是读者一个周期中,L1 内存到向量寄存器中的 32 地址值的能力。CDNN2 编译器工具辨识串行代码读取,并构建矢量化来容许这一功能,当所需的数据通过记忆结构产于时,集中-挤满提升了数据读取时间。由于 XM6 是可配备的 IP,L1 数据储存的大小/相关性在硅设计水平是可调节的,CEVA 回应,这项功能对于给定尺寸的 L1 都有效地。
此级用作处置的向量寄存器是宽度为 8 的 VLIW 构建器,这样的配备才能满足要求。第二功能称作“滑动-窗口”数据处理,这项视觉处置的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像,一般来说算法将马上用于平台所须要一块或大片像素。
对于智能部分,这些块的数量将重合,造成有所不同区域的图像被有所不同的计算出来区域器重。CEVA 的方法是保有这些数据,从而使下一步分析所须要信息量更加较少。听得一起否很非常简单,在 2009 年,我做到了类似于的三维微分方程分析,显然是这样,我很吃惊,它之前并没构建视觉/图像处理。如果你有地方存储的话,重复使用原始数据,就可以节省时间,节省能源。
CEVA 称之为 XM6 在轻矢量工作量中的性能增益是 XM4 的 3 倍,同比重制内核平均值提高了 2 倍。XM6 在编码方面也比 XM4 更容易配备,获取“ 50% 额外的掌控”。
融合明确的 CDNN 硬件加速器(HWA),CEVA 认为,生态系统中的卷积层,如 GoogleNet 消耗了周期中的大部分时间。CDNN HWA 使用了此编码,后用 512MACs 为它构建了相同的硬件, 用于 16 位反对构建了 8 倍的性能增益,且利用率为 95%。
CEVA 提及用于 12 位的方法将节省芯片面积和成本,同时最小化精度损耗,但也有一些开发商拒绝用原始的 16 位方法,以反对未来的项目,因此,结果是自由选择了 16 位。在该领域的汽车图像/视频处置方面,CEVA 有两大竞争对手,分别是 MobilEye 和 NVIDIA ,后者发售了 TX1 以增进神经网络的训练和推理小说。基于 690 MHz 情况下,TX1 在 TSMC 20nm 的平面处置技术,CEVA 说道,他们内部仿真得出的单体 XM6 在平台方面效率提高了 25 倍,而且,比 AlexNet 和 GoogleNet 速度快四倍。当然,尽管 XM6 也可以在 16nm 或 28nm 的 FinFET 运营,但这些都是其在 20nm 情况下运营的结果。
这意味著,根据单批 TX1 发布的数据,XM6 在 FP16 用于 Alexnet ,比起 67帧/秒,它可以继续执行每秒运营 268 帧图像,比起于 5.1 w,它只要 800 mW。在 16FF 中,功率的数值有可能更加较低,CEVA 告诉他我们,他们内部度量最初是在 28 nm / 16FF 情况下已完成的,但他们在 20 nm 情况下,用于了 TX1 对其各个方面新的展开了度量。应当认为的是,TX1 多出厂的数值指出,其效率比单出厂更佳,然而,它未能获取其他更好的对比值。
CEVA 还用 DVFS 方案构建了功率门控,当 DSP 的各个部分或加速器空闲时,可减少功率。很显著,NVIDIA 的优势是其解决方案的可用性,和 CUDA/OpenCL 软件开发,这两方面 CEVA 都想要通过一键软件平台来构建,如 CDNN2 ,并提高硬件,如 XM6。想到哪些半导体合作伙伴和未来的构建工具,能将这种图像处理与机器学习融合一起。
CEVA 认为,智能手机、汽车、安全性和商业应用于,如无人机、自动化将是主要目标。Via:ANAND TECH引荐读者:微软公司 CEO 纳德纳:我们的 AI 之路将不会与众不同未来无人驾驶首秀,竟然不是自动驾驶轿车?原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:澳门威斯尼斯8883入口-www.jacxtf.com
地址:湖北省孝感市海兴县国用大楼608号 电话:034-548254730 手机:19361964556
Copyright © 2003-2023 www.jacxtf.com. 澳门威斯尼斯8883入口科技 版权所有 ICP备案编号:ICP备73659263号-4