腾讯优图ncnn新版本适配国产CPU,全志D1加持最高速度提升70倍!



随着自主信息技术创新应用的持续推进与发展,国产PC、国产OS和软硬件设备日趋成熟。为了更好的助力国产CPU在AI软件生态从“可用”到“好用”, ncnn作为腾讯优图实验室推出的首个高性能神经网络前向计算开源框架,近期在国产芯片之光D1和CPU龙芯上进行了较为全面的适配和性能优化,ncnn携手全志科技与龙芯共同打通了AI应用和国产CPU硬件间的壁垒!


  • ncnn 是腾讯社交网络事业群公布的首个AI开源项目,也是腾讯优图实验室第一次对外公开深度学习的研究成果。ncnn于2017年7月正式开源,作为一个为手机端极致优化的高性能神经网络前向计算框架,在设计之初便将手机端的特殊场景融入核心理念,是业界首个为移动端优化的开源神经网络推断库。

  • D1 是全志科技首款基于RISC-V指令集的芯片,集成了阿里平头哥64位C906核心,支持RVV,1GHz主频,可支持Linux、RTOS等系统。同时支持最高4K的H.265/H.264解码,内置一颗HiFi4 DSP,最高可外接2GB DDR3,可以应用于智慧城市、智能汽车、智能商显、智能家电、智能办公和科研教育等多个领域。

  • 龙芯 是中国科学院计算所自主研发的通用CPU,采用自主LoongISA指令系统,兼容MIPS指令。


本次ncnn更新的20210720版本,完成了risc-v与mips架构cpu的适配,并利用risc-v vector与mips msa矢量加速扩展指令集,优化了绝大多数常用算子的性能。在ncnn附带的benchmark测试中,在D1上速度可提升最高70倍!在龙芯CPU上速度提升最高18.64倍,满足了AI端侧推理部署的基本需求。



ncnn在全志D1上测试数据,速度最高提升70倍


ncnn在龙芯CPU上测试数据,速度最高提升18.64倍


D1开发板上使用ncnn部署nanodet检测算法效果


龙芯2k派开发板上使用ncnn部署yolov5检测算法效果


ncnn 20210720版本的其他更新

- 支持 x86 avx-only cpu 优化加速

- 数学函数 log/exp/tanh arm 优化

- 提升 ncnn 量化工具的多线程效率

- 修复某些手机gpu推理的内存泄漏和其他bugfix等等

- 支持龙芯自主指令集架构loongarch



测试平台-1

D1,1线程,risc-v架构,开启v扩展



ncnn在全志D1适配测试数据


测试平台-2

龙芯2K1000,2线程,mips架构,开启msa


ncnn在龙芯CPU上适配测试数据


最后,也欢迎大家访问ncnn项目主页,阅读Readme加入ncnn技术交流QQ群,与一线工程师和众多技术大佬沟通交流。


详情见下:

ncnn 20210720版本下载地址或点击阅读原文 (linux/windows/macos/android/ios/webassembly,cpu+gpu) https://github.com/Tencent/ncnn/releases/tag/20210720

ncnn开源项目访问地址 https://github.com/Tencent/ncnn


原贴链接:https://mp.weixin.qq.com/s/f2bgzIwSjhjx3qZNSEC41w


论坛直通车:腾讯优图ncnn新版本适配国产CPU,全志D1加持最高速度提升70倍!

(发布时间 2021/07/22)