近日,人工智能领域国际顶尖期刊IEEE Transactions on Neural Networks and Learning Systems (TNNLS) 在线发表了我校物理与电子科学学院刘双龙教授的最新研究成果“High-Performance Acceleration of 2D and 3D CNNs on FPGAs using Static Block Floating-Point”。刘双龙教授研究组,围绕面向边缘计算的人工智能算法的硬件加速技术展开研究,近年来取得了一系列突破性成果,先后在国际顶级期刊IEEE Trans. on Neural Networks and Learning Systems (TNNLS),IEEE Trans. On Computers (TC),ACM Trans. on Reconfigurable Technology and Systems (TRETS)等发表一系列人工智能加速器方面的研究成果。
人体行为识别(Human Action Recognition,HAR)是人工智能的一个重要应用方向。与卷积神经网络(CNN)应用于2D图像不同,当CNN用于视频中人体动作的识别时,需要采用3D-CNN结构,以计算空间和时间维度特征,捕获在多个连续帧编码的运动信息。3D卷积通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用3D卷积核。由此可见,3D-CNN的运算复杂度远大于2D-CNN,因此对计算力和存储的需求更高。
该研究论文中,项目组首次提出使用块浮点计算技术(block floating-point,BFP)对应用于人体动作识别的3D-CNN进行硬件加速,并设计了基于该技术的并行计算的硬件架构(图1)。该项研究相比使用定点数计算的加速器,在不增加数值位宽的情况下大幅度提升了计算精度(图2),从而在保证计算速度的情况下提高了动作识别的准确率。同时该研究也比较了在不同识别准确率下加速器的处理时间,以适用于不同的应用场景。
图1 利用块浮点计算技术的3D-CNN硬件加速器
图2 不同数值精度下采用块浮点技术的识别准确率比较
刘双龙教授为本论文的唯一通信作者,湖南师范大学为该论文的唯一通讯单位,帝国理工学院计算机系博士研究生范鸿翔为本文第一作者。该工作获得了国家自然科学基金、湖南省自然科学基金和长沙市自然科学基金的资助。
论文链接:
https://ieeexplore.ieee.org/document/9570135
DOI: 10.1109/TNNLS.2021.3116302