暴趣科技网
您的当前位置:首页基于SSD-MobileNet的投篮机器人目标识别算法

基于SSD-MobileNet的投篮机器人目标识别算法

来源:暴趣科技网
《工业控制计算机》2021年第34卷第6期51基于SSD-MobileNet的投篮机器人目标识别算法Target Recognition Algorithm of Basket-Shooting Robot Based on SSD-MobileNet

高洋陈万米林城(上海大学机电工程与自动化学院,上海200444)摘要:目标识别是机器人领域中的研究热点,是机器人与外界交互的起点。在投篮机器人竞赛中,针对球类的识别,传统 的机器视觉方法鲁棒性及准确性较差。提出了基于SSD-MobiIaNat的目标球识别算法,兼具了 SSD识别算法的精确性以

及MobileNet网络的轻量性,同时对SSD算法中的目标识别先验框进行了改进。通过实验验证了该算法在不同场景下的识

别效果均优于传统的轮廓颜色识别算法,鲁棒性及准确性得到提升。关键词:目标识别;SSD-MobileNet;卷积神经网络;投篮机器人Abstract:Target recognition is a research hotspot in the field of robot,and it is the starting point of robot interaction with

the outside world .In the basket-shooting robot competition,the traditional machine vision method for ball recognition has poor robustness snd dccuracy.In this paper,a ball recognition algorithm based on SSD MobileNet is proposed,which has both the

accuracy of SSD recognition algorithm and the lightness of MobileNet network.At the same time,this paper improves the pri­

or box of SSD algorithm.The experimental results show that the recognition effect of the algorithm in different scenes is bet­

ter than the traditional contour rnd color recognition nlgorithm,and the robustness snd accuracy yre improved.Keywords:target recognition,SSD-MobiIeNet,convoIutionaI neural network,basket-shooting robot从视觉摄像头采集到的图像中识别并定位到目标篮球或排 CNN提取特征后直接进行分类与回归。SSD的网络结构如图1:球,是投篮机器人比赛中很重要的问题。投篮机器人作为一种竞 赛用机器人,由运动模块、视觉模块、投篮模块和控制模块组成,

其中视觉模块负责解决目标球的识别问题。针对目标识别,方法

1A主要分为两大类 分别是传统的计算机视觉算法以及当前流行 的卷积神经网络算法[1]。在投篮机器人的比赛中,目标球包括红棕色的篮球、蓝灰色 的篮球、黄蓝白色以及红黄白色排球四种,在不同的回合中需要

图1 SSD网络结构图识别排球或者篮球中的一类。 篮球和排球的球体在摄像头采集 到的图片中表现为圆形。传统方法根据目标颜色和轮廓特征来

SSD网络主要具有以下几个特点:1丿对多尺度特征图进行检测:对CNN网络使用不同步长 (stride)卷积后的特征图进行检测。大特征图用来检测较小的目 标,小特征图用来检测大目标;2) 使用卷积进行检测:与YOLO对比,SSD直接对不同特 征图进行卷积来获得检测结果;识别,虽然该方法可以完成球体识别,但是有准确率低、稳定性

差、速度慢等缺点。基于卷积神经网络的识别算法,历经多年发

展,先后岀现多种算法。R-CNN是将深度学习成功应用于目标识别的首例算法,

但该算法需要对每个图像选取2000个候选区,处理时间较长无 法做到实时识别% Fast R-CNN类似R-CNN算法,使用多任 务损失函数边框回归,但是依旧无法满足实时应用,没有真正实

3) 设置不同长宽比的先验框:SSD借鉴Faster R-CNN中

的锚(a nchor丿的思想,为每个单元设置长宽比不同的先验框遥而 预测的边框(bounding box丿以这些先验框为基础,从而降低了 训练难度。现端到端训练测试回。Faster R-CNN使用了 RPN提取RP ,但 获取RP再对每个候选区域进行分类计算的工作量还是很大咱4]。

2 MobileNet网络结构MobileNet网络的核心是使用了深度可分离卷积,用其替 代标准卷积,可以实现减少模型参数进而提高运算速度。深度可

YOLO算法具有很好的实时性,但局限在于很难识别图像中的 小目标冋。而SSD算法,结合了 Fast R-CNN的anchor机制和

YOLO中的回归思想,兼具了精确度和速度快的优点。Mo­

分离卷积分为深度卷积和逐点卷积两部分冋,深度卷积是对每 个输入的图进行单独的卷积,逐点卷积则是使用卷积核为1x1

bileNet 网络的核心是使用了深度可分离卷积,适用于移动和嵌 入式设备,可以降低模型计算复杂度,并可以降低模型大小问。机器人比赛中,使用的是Intel nuc x86 CPU的硬件平台,

进行普通卷积,通过将第一步输岀的特征图与1x1的卷积线性 结合输岀新的特征图,既实现了标准卷积的效果,又降低了计算 量和模型的参数。如图2对比了两种卷积操作的差异。图 2葬 为标准卷积图 图 2b 为深度卷积图 图 2c 为逐点卷

性能不强,属于边缘设备(edge device)。本文研究实现了一种 基于SSD-MobiIaNat的目标识别方法,在投篮机器人性能不强 的硬件平台下,该方法能兼顾准确性以及竞赛的实时性,同时还 具有轻量的模型特点。1 SSD算法积图。假设输入特征图有M个通道,输岀特征图有N个通道,卷 积核大小是Dk*Dk , Df*Df是特征图尺寸。用公式计算对比深 度可分离卷积与标准卷积的差别:假设网络输入的特征图大小 卷积后输岀的特征图。对于图 2葬 标准卷积 标准卷积的计算结果为:Dk * Dk 鄢 M 鄢 N 鄢 Df * Df

(1)SSD[7]是基于一个前向传播反馈的CNN网络,属于one- stage 类型的,针对检测实例,其主要思路是均匀地在图片的不同 位置进行密集抽样,抽样时可以采用不同尺度和长宽比,然后利用52基于SSD-MobiljNet的投篮机器人目标识别算法的先验框进行位置和类别置信度回归,最后通过NMS(非极大 值抑制)得到最终识别结果回。3.2对算法中先验框设置的改进SSD-MobileNet采用多尺度检测,在不同层次获得的不同 尺寸的特征图上需要预设先验框。根据高层次特征图设置大的

3 O - S先验框,低层次特征图设置小的先验框。在本文中,待识别目标

的形状是圆形,采集到的图片中目标识别的尺寸用矩形框框岀,

0 3f.«l«F!应该是个正方形的形状。且考虑到机器人识别球时距离实际是 在1m以外,目标球在图像中所占比例不会超过0.5遥根据先验框设计线性递增的原理,由公式(6),其中m=5, Sk表示先验框尺寸与特征图的比例,在本实验中,设置St&=0.2, Smax=0.5 遥默认使用的宽高比{1,2,3, 1 /2, 1 /3},但在识别对象为

图2标准卷积与深度可分离卷积对比球体时,这样是不合理的,本文将宽高比设置为{0.45,0.50, 0.80,1,1.55}。默认情况下,每个特征图会有一个比例为1且尺

(2)对于图 2b 深度卷积,计算结果为:Dk * Dk * M * Df * Df

对于图 2c 逐点卷积,计算结果为:M * N * Df * Df

(3)度为Sk的先验框,除此之外,还会设置一个尺度为Smax且Smin 的先验框, 这样每个特征图都将得到两个长宽比为 1 但大小不 同的正方形先验框。可以较好地识别岀圆形的目标球体。S -SSk=Smin+ 皂皂原1k-)),kT[),m]

深度可分离卷积是对b、c进行线性结合:Dk * Dk * M * Df * Df+M * N * Df * Df

(4)(6)4训练过程比较深度可分离卷积和标准卷积:Dk * Dk * M * Df * Df+M * N * Df * Df 1 1

Dk * Dk * M * N * Df * Df =N + _D^

牛)()本文实验中训练模型所使用的硬件环境为Intel Core i7- 8750H,NVIDIA GeForce GTX 1080Ti,系统为 Ubuntu16.04,

根据式(5),当使用3x3的卷积核时,忽略极小项1/N,可 看岀当使用标准卷积的计算量是深度可分离卷积的9倍遥深度可分离卷积是组成MobiljNet的基本单元,每个单一

使用TensorFlow框架。训练数据来源于历年比赛现场拍摄视频 抽取的图片,并使用了数据增强的方法获得更多图片,最终使用 4000张图片,75%用于训练,25%用于测试。对数据集手工标注 真实框及类别标签,类别分为两类,“ baskTtbal l ”和“ volleyball ”,

的深度可分离卷积由深度卷积,后面接BN(批标准化)层,ReLu 激活函数遥并将尺寸修改成300 * 300输入到网络中。为了避免预测值靠向负样本,使用难负样本挖掘(Hard

对比MobiljNet和VGG-16的实验结果,如表1所示:表1 MobileNet和VGG-16的实验对比Vliil: IlJlINjgativj Mining生方法,从负样本中获得置信度最高的作为训 练的负样本,使得正负样本比例保持1:3遥训练过程的流程图如

rjT fit I ;■ ”:」、

■ I

>1 ■:■;'

.'(iS11W:F

4.- v.:1 冷图4所示。Ull綁开姑根据表1,我们可以直观地看岀,MobileNet准确度与VGG- 16 基本相同,在计算量和参数数量上却有很大程度的降低遥3 基于SSD-MobileNet的目标球识别算法3.1 SSD-MobileNet 算法原理掏建网劭議订默氏肿弓曲中

梃瓯I邛

工本文实现了基于SSD-MobileNet的目标识别网络。标准 SSD网络使用VGG-16作为骨干网络,本文使用MobileNet作

权『i妨散和Mi槪找匚:配涪私淆備

il讦捋失更新网络屮曲忙忻为骨干特征提取网络。在Mobilenet v1的Conv13卷积层后面 增加8个卷积层,对应模型图3上Conv14_1到Conv17_2之 间这些遥 其中在 Conv11、Conv13、Conv14_2、Conv15_2、

砂认権■Conv16_2、Conv17_2六个箭头层上进行了特征提取,获得六个 不同尺度的特征图进行多尺度特征融合。对以上特征图中预设撼3課沖世朋云l]图4网络训练流程图[Lui' I :

订5实验验证及分析为了验证本文设计的基于SSD-MobileNet的目标球识别 算法的准确性,与传统的基于颜色和轮廓识别的算法进行了对

Ua-FA iVAIUI ICkr.丽•:■'iisCo.-:亠 I

ism■叙1比,设置场景变化的实验,验证两种算法在不同场景下的检测效 果遥分别是背景为正常光、暗光、模拟太阳直射光;简单背景、复

杂背景下的识别效果遥轮廓颜色识别算法采用的kinect摄像头 视角更广,所采集图像视角更大,本文采取将两摄像头放置同一

图3 SSD-MobileNet网络结构位置进行目标识别遥图5、图6为识别效果图遥左边图是轮廓形

《工业控制计算机》2021年第34卷第6期状算法,右边是本文SSD-MobilaNat算法。53确;弱光下和模拟太阳光强光照射场景下,轮廓颜色算法不能识

1)不同光照强度下目标球为排球时的识别效果,分为正常 别目标球,SSD-MobileNet可以识别目标球。从图6可以看到, 当用复杂背景时,轮廓颜色算法不能识别目标球’SSD-Mo­

光、弱光、和模拟强光直射的三种场景。如图5所示。bileNet 可以识别目标球。从上述实验中,说明了轮廓颜色算法 虽然在常规场景下能完成识别,但是鲁棒性较差,环境稍微有变

'0U 1.1 i'.AJW化就会识别失败;而SSD-MobilaNat算法,在实验中稳定性极 好,针对不同场景均能完成目标球识别。6结束语后续将研究实现投篮机器人的目标跟踪算法,并进一步提 高本文算法的实时性和鲁棒性,并且将尝试使用树莓派等边缘 设备进行算法部署,进一步测试算法的实用性,提高投篮机器人 检测的准确度和稳定度。参考文献[1] 李兆冬,陶进,安旭阳•移动机器人目标识别与定位算法发展综述

[J].车辆与动力技术,2020(1 ): 43-48[2] Ross Girshick,Jeff Donahue,Trevor Darrell,et al.Rich Feature

Hierarchies for Accurate Object Detection and Semantic Veg- mentation[C]// CVPR. IEEE, 2014

[3] Girshick R . Fast R-CNN[J]. Computer Vcience, 2015[4] Ren S,He K,Girshick R,et al.Faster R -CNN:Towards Real -

c崛牺」汕射”.取Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,

图5光照变化下两种算法的识别效果2)复杂背景下两种算法的识别效果,目标球分别为排球和

2017[5] 杨晓丽,段敏,虞汉年,等•基于YOLO算法的车辆实时检测研究[J].

篮球,如图6所示。仪器仪表与分析监测,2021(1):7-10[6] 胡佳玲,施一萍,谢思雅,等•基于Jetson nano的改进MobileNet人

脸识别系统[J].传感器与微系统,2021,40(3):102-105[7] Liu W,Anguelov D,Erhan D,et al.VVD:Vingle Shot MultiBox De-

tector[C]椅European Conference on Computer Aision,Vpringer,

Cham, 2016[8] 冯毅博,仇大伟,曹慧,等•基于深度可分离稠密网络的新型冠状病毒

肺炎X线图像检测方法研究[J].生物医学工程学杂志,2020,37

图6复杂背景下两种算法的识别效果(4)院557-565如图 5a 所示,正常光照下,两种算法都可以识别到目标球, 但是SSD-MobileNet算法的目标框更加精准,着圆心识别更准

(上接第50页)[9] 李戈斐•基于SSD模型的图像目标检测研究[D]•西安:西北大学,2019 [收稿日期:2021.3.22]ings of the IEEE international conference on computer vi­

[3] 苏世雄,马新华•基于物联网的智能停车系统的设计与研究[J].实验 sion. 2017: 2961-2969[11 ]Redmon J, Divvala S, Girshick R, et al. You only look once:

技术与管理,2020,37(6):68-70[4] Jung H G, Kim D S, Yoon P J, et al. Light Stripe Projection

Unified, real-time object detection [C]//Proceedings of the IEEE conference on computer vision and pattern recogni- tion.2016: 779-788[12] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]

Based Parking Space Detection for Intelligent Parking Assist System [C]//2007 IEEE Intelligent Aehicles Symposium.IEEE, 2007:962-968[5] 安旭骁,邓洪敏,史兴宇•基于迷你卷积神经网络的停车场空车位检

//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271[13] Redmon J,Farhadi A.YOLOv3:An incremental improvement[J].

测方法[J ] •计算机应用,2018,38(4): 935-938[6] 徐乐先,陈西江,班亚,等•基于深度学习的车位智能检测方法[J].中

国激光,2019,46(4):230-241[7] Carion N, Massa F, Vynnaeve G, et al. End-to-end object

Computer Vision and Pattern Recognition,arXiv:1804.02767,

2018[14] Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: Optimal

detection with transformers [C]//European Conference on

Computer Vision. Vpringer, Cham, 2020: 213-229[8] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE interna­

Speed and Accuracy of Object Detection[J],arXiv:2004.10934,

2020[15] Amato G,Carrara F,Falchi F,et al.Deep learning for decen­

tional conference on computer vision. 2015: 1440-1448[9] Ren S, He K, Girshick R,et al. Faster r-cnn: Towards real­

tralized parking lot occupancy detection[J]. Expert Systems

time object detection with region proposal networks[C]//Ad- with Applications.2017,72:327-334[收稿日期:202122]vances in neural information processing systems,2015:91-99[10] He K, Gkioxari G, Doll佗r P,et al. Mask r-cnn[C]//Proceed­

因篇幅问题不能全部显示,请点此查看更多更全内容