logo好方法网

一种基于信息增强的目标检测方法


技术摘要:
本发明公开了一种基于信息增强的目标检测方法,目的是解决单阶段检测方法精度低的缺点。技术方案是构建由特征提取模块、语义提升模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统,采用训练数据集对目标检测网络进行训练,采用训练后的目标检测系统对单  全部
背景技术:
目标检测是计算机视觉领域重要的研究方向之一,传统的目标检测方法是通过对 一定区域内的图像构建特征描述子(如方向梯度直方图等)提取特征,然后利用分类器对特 征进行分类实现目标检测,如支持向量机SVM(Support  Vector  Machine)等。近来随着卷积 神经网络的发展,工程特征大部分已经被卷积神经网络特征所取代,目标检测系统在精度 和速度上都取得了很大的进步。 当前,基于深度学习的目标检测方法分为双阶段检测方法和单阶段检测方法。 双阶段检测方法采用Fast  R-CNN、Faster  R-CNN、R-FCN双阶段网络,首先对输入 图片提取候选区域,然后对提取的候选区域进行分类和定位。目前,该类方法达到了检测精 度非常好的效果,但是存在速度较慢的缺点,达不到实时性的要求。 单阶段检测方法采用SSD(Single  Shot  MultiBox  Detector,单阶段多参考窗口 检测器)等单阶段网络直接对设置的默认框进行定位和分类,省略了双阶段方法中提取候 选区域的操作,检测速度得到了提升,但是检测精度较双阶段方法略有下降,尤其是对小尺 寸目标的检测。出现这种情况主要是因为面向小尺寸目标检测的低层特征的卷积层数少, 语义信息不够丰富,导致小目标的检测效果仍然不尽如人意。 FPN(见文献“Lin ,Tsung-Yi ,et  al .Feature  pyramid  networks  for  object  detection[C]//Proceedings  of  the  IEEE  conference  on  computer  vision  and  pattern  recognition.2017”,Lin  Tsung-Yi的论文:目标检测特征金字塔网络)网络通过 侧向连接将高层特征丰富的语义逐层传递给低层特征,Libra  r-cnn(见文献“Pang , Jiangmiao ,et  al.Libra  r-cnn:Towards  balanced  learning  for  object  detection [C]//Proceedings  of  the  IEEE  Conference  on  Computer  Vision  and  Pattern  Recognition.2019”,Pang  Jiangmiao的论文:针对目标检测的平衡学习)网络通过特征相 加求均值的方法使每层特征都获得了其他所有特征的信息。采用了FPN和Libra  r-cnn网络 进行特征融合的目标检测方法都是将已有特征直接进行结合,没有经过筛选以抑制无用的 信息、增强有用的信息,无法达到很好的融合效果,因此检测精度仍然比较低。 因此,如何充分利用全局信息,在不降低单阶段检测方法速度的同时,提供一种检 测精度更高的目标检测方法,是本领域技术人员正在探讨的热点问题。
技术实现要素:
本发明要解决的技术问题是解决目前单阶段检测方法虽然检测速度快,但精度低 的缺点。 本发明提供一种基于信息增强的目标检测方法,在单阶段SSD网络中加入注意力 8 CN 111612017 A 说 明 书 2/14 页 机制,达到提升目标检测尤其是小目标检测精度的目的。 为解决上述技术问题,本发明的技术方案是:首先构建由特征提取模块、语义提升 模块、特征选择模块、特征融合模块、检测模块构成的目标检测系统。然后选择PASCAL  VOC  2007、PASCAL  2012的训练集和验证集的组合数据集作为对目标检测网络进行训练的训练 数据集,拟合后得到目标检测系统的网络参数。最后采用训练后的目标检测系统对单帧图 像进行特征提取、语义提升、特征选择、特征融合,识别目标的位置和类别。 本发明主要包括以下具体步骤: 第一步:构建目标检测系统。该系统由特征提取模块、语义提升模块、特征选择模 块、特征融合模块、检测模块组成。 特征提取模块为一个卷积神经网络,与语义提升模块相连。特征提取模块共包括 23个卷积层,5个池化层,共28层。池化层分别为第3、6、10、14、18层,其他层均为卷积层。特 征提取模块接收图像I,对图像I进行特征提取,得到多尺度特征图集合F(I),将F(I)发送给 语义提升模块。多尺度特征图集合包含六个尺度的特征图,六个尺度的特征图的尺寸分别 为38×38×512,19×19×1024,10×10×512,5×5×256,3×3×256,1×1×256,分别由第 13层、第21层、第23层、第25层、第27层、第28层输出给语义提升模块。其中,第13层、第21层、 第23层、第25层、第27层特征既输出给语义提升模块,也输出给它们各自的下一层。(即,第 13层将尺寸为38×38×512的特征图输出给语义提升模块和第14层;第21层将尺寸为19× 19×1024的特征图输出给语义提升模块和第22层;第23层将尺寸为10×10×512的特征图 输出给语义提升模块和第24层;第25层将尺寸为5×5×256的特征图输出给语义提升模块 和第26层;第27层将尺寸为3×3×256的特征图输出给语义提升模块和第28层;第28层将尺 寸为1×1×256的特征图输出给语义提升模块。)特征图的尺寸的含义是:前两个维度是特 征图中每个通道中的像素长和宽,第三个维度为通道数。以尺寸为10×10×256的特征图为 例,256为通道数,前两个维度是特征图中每个通道中的像素点的坐标。 语义提升模块包含一个1×1卷积层和一个ReLU激活函数(见文献“Krizhevsky , Alex,et  al.ImageNet  Classification  with  Deep  Convolutional  Neural  Networks [C]//Advances  in  neural  information  processing  systems,2012”,Krizhevsky,Alex 的论文:ImageNet分类与深度卷积神经网络),与特征提取模块、特征选择模块、特征融合模 块相连。语义提升模块的1×1卷积层从特征提取模块接收F(I),对F(I)中的6个特征图逐张 进行卷积操作,将F(I)中的6个特征图的第三个维度统一为256,得到S'(I),将S'(I)发送给 ReLU激活函数;ReLU激活函数从1×1卷积网络接收到S'(I),对S'(I)进行激活操作,以提升 特征的语义信息,得到S(I),将S(I)输出给特征选择模块和特征融合模块。S(I)包含的特征 图尺寸分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1× 256。 特征选择模块与语义提升模块、特征融合模块相连,对S(I)进行选择性地融合,得 到全局特征图集合G(I),将G(I)发送给特征融合模块。特征选择模块由第一变形模块、第一 特征图相加模块、全局池化模块、非线性增加模块、特征生成模块(含6个注意力模块、归一 化模块、通道赋权模块)、第二特征图相加模块、第二变形模块组成。 第一变形模块是对S(I)进行插值和下采样操作的模块,与语义提升模块和第一特 征图相加模块相连;对S(I)中的特征图进行上采样或插值操作,统一特征图的尺寸,得到A1 9 CN 111612017 A 说 明 书 3/14 页 (I),将A1(I)发送给第一特征图相加模块,A1(I)包含的6个特征图尺寸都为10×10×256,由 于缩小特征图会损失信息,在没引入较大计算量的前提下,为了减少特征图的信息损失,统 一将特征图尺寸调整至10×10×256。 第一特征图相加模块与第一变形模块和全局池化模块连接,对A1(I)中的六个特 征图执行像素级别的加法操作,获得尺寸为10×10×256的第一全局特征图,记为I2,将I2发 送给全局池化模块。 全局池化模块和第一特征图相加模块和非线性增加模块相连,对I2进行全局池化 操作,获得第一一维向量A3(I),将A3(I)发送给非线性增加模块。A3(I)中共有256个元素。 非线性增加模块包含一个全连接层和一个ReLU激活函数,与全局池化模块、特征 生成模块相连,对A3(I)采用全连接操作,以降低模型复杂度,得到包含16个元素的激活前 向量A4(I) ',将A4(I) '发送给ReLU激活函数;ReLU激活函数从全连接层接收到A4(I) ',对A4 (I) '进行激活操作,提升A4(I) '的非线性,得到第二一维向量A4(I),A4(I)中包含16个元素, 将A4(I)发送给特征生成模块。 特征生成模块和非线性增加模块、第二特征图相加模块相连。特征生成模块由6个 注意力模块、1个归一化模块和1个通道赋权模块组成。6个注意力模块均为一层全连接层。 注意力模块是一种注意力模型,注意力模型可以宏观上理解为一个查询(Query)到一系列 (键Key-值Value)对的映射。将Source(源)中的构成元素想象成由一系列的数 据对构成,给定某个Query(查询),通过注意力模块计算Query和各个Key的相似性或者相关 性,得到每个Key对应Value的权重系数。 6个注意力模块均与非线性增加模块和归一化模块相连,6个注意力模块并行地对 A4(I)进行全连接操作,分别得到6个包含256个元素的一维向量,这6个一维向量即为S(I) 中6个特征图的权重系数,用w1,w2,w3,w4,w5,w6表示,wi(1≤i≤6)为S(I)中第i个特征图的 权重系数。6个注意力模块分别将w1,w2,w3,w4,w5,w6发送给归一化模块。归一化模块与6个注 意力模块、通道赋权模块相连,归一化模块对w1 ,w2 ,w3 ,w4 ,w5 ,w6的256个元素分别执行 softmax操作以进行归一化,得到归一化后的权重系数s1,s2,s3,s4,s5,s6,将s1,s2,s3,s4,s5, s6,发送给通道赋权模块。 通道赋权模块和归一化模块、第一变形模块相连,对s1,s2,s3,s4,s5,s6,与A1(I)中 对应的特征图分别执行通道级乘法操作,以获得A1(I)中更符合检测目标尺度的特征图信 息,得到6个经过赋权后的特征图,将这6个经过赋权后的特征图放到特征图集合A5(I)中, 将A5(I)发送给第二特征图相加模块。 第二特征图相加模块与通道赋权模块、第二变形模块相连,对A5(I)中的6个特征 图执行加法操作,获得第二全局特征图I3,I3中融合了不同尺度特征图的信息,尺寸为10× 10×256。将I3发送给第二变形模块。 第二变形模块与第二特征图相加模块、特征融合模块相连。第二变形模块对I3进 行变形,即进行插值和下采样操作,得到变形后的特征图集合G(I),G(I)包含的特征图尺寸 分别为38×38×256,19×19×256,10×10×256,5×5×256,3×3×256,1×1×256,将G (I)发送给特征融合模块。 特征融合模块与特征选择模块、语义提升模块、检测模块相连,它从特征选择模块 接收G(I)、从语义提升模块接收S(I),将G(I)和S(I)中相同尺寸的特征图相加,得到用于检 10 CN 111612017 A 说 明 书 4/14 页 测的特征图集合D(I)。在相加过程中,多尺度特征图的尺寸不变,D(I)具有与G(I)和S(I)相 同的尺寸,但融合了G(I)和S(I)的特征图信息,使得特征图包含的位置信息和语义信息得 到了增强。 检测模块与特征融合模块相连,由分类网络、定位网络和非极大值抑制(NMS)模块 组成。定位网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3×3、卷积 核个数为k×E的卷积网络(其中k为图片上每个位置预定义框的数量,E为数据集中包含的 目标类别数量);定位网络从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操 作,向非极大值抑制模块输出预测目标的坐标值(即预测框坐标值,包括左上和右下2个坐 标,共4个值);分类网络与特征融合模块、非极大值抑制模块相连,是一个卷积核大小为3× 3、卷积核数量为k×4的卷积网络(其中4表示需要用4个坐标值表示一个预测目标的位置), 从特征融合模块接收D(I),对D(I)中的每一个特征图进行卷积操作,向NMS模块输出预测目 标的类别(即目标最属于某类的概率值)。非极大值抑制模块与分类网络和定位网络相连, 采用非极大值抑制方法(NMS,Non-Maximum  Suppression方法,见文献“Efficient  Non- Maximum  Suppression .”18th  International  Conference  on  Pattern  Recognition (ICPR’06)3(2006):850-855,Neubeck,Alexander和Luc  Van  Gool的论文:有效的非极大值 抑制方法)将重复预测的目标的坐标值和类别去除,获得目标最佳的预测框坐标值和预测 类别。 第二步:准备目标检测系统的训练数据集。方法为: 选择PASCAL  VOC  2007、PASCAL  VOC  2012(见文献“M.Everingham ,L.Van  Gool, C.K .I.Williams ,J .Winn ,and  A.Zisserman.The  pascal  visual  object  classes  VOC  challenge[J]//International  Journal  of  Computer  Vision .2010:303-338”,Mark  Everingham的论文:视觉目标类别挑战,2010年出版的《国际计算机视觉杂志》第303页)的 训练集、验证集中的所有图片作为训练数据集,训练数据集图片中共包含E种目标类别,E为 正整数。对于训练数据集中的第d(1≤d≤16551)张图片,PASCAL  VOC  2007、PASCAL  VOC  2012中给出了第d张图片所包含的目标的类别以及位置向量gd, 为包 含四个值的一维向量,z表示一张图片中的第z个目标, 为目标区域矩形框的左上 角的坐标值, 为目标区域举行框的右下角的坐标值,四个坐标值均为标量,四个 值表示出一个矩形的目标区域。 第三步,采用第二步构建的训练数据集训练目标检测系统中的各个模块,方法是: 3 .1  采用SSD(见文献“SSD:Single  Shot  MultiBox  Detector .”European  Conference  on  Computer  Vision,2016.”Liu  Wei等人的论文:单阶段多参考窗口检测器) 中的初始化方法对特征提取模块的网络参数Φ1进行初始化;采用Kaiming初始化方法(见 文献“Delving  deep  into  rectifiers:Surpassing  human-level  performance  on  imagenet  classification.”Proceedings  of  the  IEEE  international  conference  on  computer  vision.2015.He  Kaiming等人的论文:深入研究整流器:在ImageNet数据集上超 越人类水平的性能)对其余模块(即语义提升模块的网络参数Φ2、特征选择模块的网络参 数Φ2、特征融合模块的网络参数Φ3、检测模块的网络参数Φ4)进行初始化。 3.2  将训练数据集中的图片依次输入到目标检测系统中,对目标检测系统进行训 11 CN 111612017 A 说 明 书 5/14 页 练,拟合得到目标检测系统的网络参数,具体步骤是: 3.2.1  初始化迭代次数epoch=1;初始化批处理大小batchsize=32;初始化学习 率lr=4*10-3; 3.2.2  采用训练数据集中的图片对目标检测系统进行训练,具体步骤为: 3.2.2.1.初始化变量d=1; 3.2.2.2.将训练数据集中的第d张至第(d batchsize)张图片输入到目标检测系 统中,使用随机梯度下降算法(SGD)(见文献“Backpropagation  applied  to  handwritten  zip  code  recognition[J]//Neural  Computation,1989”,Yann  Lecun等人的论文:反向传 播应用于手写邮政编码识别)使损失函数最小化,以更新目标检测系统中各模块的网络参 数。所述损失函数采用SSD中的损失函数作为训练的损失函数,形式为: 其中L为总损失函数,Lloc为位置预测损失函数,通过计算预测框和真实框(即真实 图像的左上坐标和右下坐标围起来的框)之间的Smooth  L1损失函数获得,Lconf为类别预测 损失函数,通过计算预测类别和真实类别之间的Softmax损失函数获得,N为训练数据集中 图片的预测目标的坐标框与真实框匹配的样本数量,即训练数据集中所有IOU大于0.5的样 本数量,也即: 的样本数量。 其中,IOU表示交并比,A表示定位网络输出的一个目标框的坐标所包围的面积,B 表示目标真实坐标值所包围的面积。 3 .2 .2 .3 .若d 2*batchsize<16551,令d=d batchsize,转3.2 .2 .2;若d 2* batchsize≥16551,转3.2.3。 3.2.3  若epoch<160,令epoch=epoch 1,转3.2.2;若epoch=160,令lr=lr*0.1, 令epoch=epoch 1,转3.2.2;若160
分享到:
收藏