logo好方法网

目标检测中候选框去冗余方法


技术摘要:
本发明公开了一种目标检测中候选框去冗余方法,目的是解决去冗余时间过长的问题。技术方案是先构建由数据预处理模块、最大值比较模块、筛选模块、数据恢复模块组成的候选框去冗余加速器,筛选模块中的交并比单元组由S个交并比单元组成,交并比单元均为九级流水结构,最  全部
背景技术:
目标检测即检测出图像中物体的位置和类别,比起人工检测具有速度快,大批量 等特点,具有极高的使用价值。目前目标检测技术已经成熟应用在人脸识别,汽车自动驾驶 和视频监控中,给人们的生活、工作带来极大便利。 在深度学习浪潮来袭前目标检测发展缓慢,大多依靠DPM(deformable  part  m od e l零件模型) (见文献“F e l z e n s z wa l b  P ,M ca l l e s te r  D ,Ra ma na n  D .A  discriminatively  trained ,multiscale,deformable  part  model[J].Cvpr,2008,8::1- 8 .”即Felzenszwalb  P的“一种经过鉴别训练的、多尺度、可变形的零件模型”)HOG (Histograms  of  oriented  gradients梯度直方图)特征(见文献“Dalal  N ,Triggs  B.Histograms  of  oriented  gradients  for  human  detection[C]//Computer  Vision  and  Pattern  Recognition ,2005 .CVPR  2005 .IEEE  Computer  Society  Conference  on.IEEE,2005,1:886-893.(2016:Google  Citation:14046)”即Dalal  N的“面向人类检测 的梯度直方图”)等传统方法来提高精度。直到在ImageNet图像分类大赛中提出了卷积神经 网络的方法,目标检测开始飞速发展起来。目前主流的方法有MTCNN,YOLO,RCNN,SSD, RetinaNet等,以采用MTCNN网络的图像识别方法为例(见文献“Zhang  K,Zhang  Z,Li  Z,et  al.Joint  Face  Detection  and  Alignment  Using  Multitask  Cascaded  Convolutional  Networks[J].IEEE  Signal  Processing  Letters,2016,23(10):1499-1503.”即Zhang  K的 “基于多任务级联卷积网络的人脸联合检测与对准”),如论文中第2页所描述的,MTCNN是一 个级联神经网络,由三个网络即P网络,R网络,O网络串联而成。其中P网络是一个全卷积的 神经网络结构,P网络进行特征提取的步骤是: 1 .原图片I经过金字塔缩放后,通过10个3*3*3的卷积层,2*2的池化层操作,生成 10个特征图。 2.  10个特征图通过16个3*3的卷积层,生成16个特征图。 3.  16个特征图通过32个3*3的卷积层,生成32个特征图。 4.  32个特征图通过2个1*1的卷积层,生成2个特征图用于分类;同时这32个特征 图通过4个1*1的卷积层,生成4个特征图作为回归候选框;同时这32个特征图通过10个1*1 的卷积层,生成10个特征图用于人脸轮廓点的判断。 R网络,O网络与P网络结构类似,基本功能相同,在逻辑上是串行的。P网络对原图 片I进行第一次提取回归候选框,之后将这些回归候选框和原图片I发送到R网络;R网络提 取第二候选框,将第二候选框和原图片I发送到O网络;O网络提取第三候选框,第三候选框 作为MTCNN系统的输出结果,即目标在原图I中的位置。MTCNN神经网络对原始图像进行目标 检测的基本流程为: 11 CN 111582226 A 说 明 书 2/23 页 第一步,MTCNN神经网络对从网络、摄像头、视频中获得的数字图像进行预处理,生 成数据集WIDER  FACE,定义数据集WIDER  FACE的任意一张原始图片为原图I。 第二步,MTCNN神经网络对原图I采用图像金字塔方法进行缩小,得到S张原图片I 的按不同比例缩小的图片,称为S张小图片。为了识别各种尺度的目标人脸,需要把待识别 的目标人脸的尺度先变化到接近MTCNN网络模型能检测的尺度,因此将数据集中的原图片I 进行等比例放缩,得到S张小图片。这S张小图片堆叠在一起从立体的角度上看像一个金字 塔,因此此方法称为图像金字塔方法,其中S为正整数。 第三步,MTCNN神经网络的P网络对经过图像金字塔方法处理后的S张小图片依次 进行特征提取和边框回归,提取 个得分值大于60%的人脸候选框,得到人脸候选框 集合,Ni是第i张小图片通过P网络进行特征提取后输出的人脸候选框的数目。Ni为一个正 整数。 第四步,MTCNN神经网络采用非极大值抑制算法对人脸候选框集合中的候选框逐 个进行去冗余操作,经过S次去冗余操作后得到 个候选框。Ni’是第i张小图片的Ni 个人脸候选框进行去冗余操作后剩余的人脸候选框的数目。Ni’为一个正整数且Ni’≤Ni。 第五步,MTCNN神经网络的R网络对第四步得到的 个候选框和原图片I进行 特征提取和边框回归,得到NR个人脸候选框。NR是图片通过R网络进行特征提取后输出的人 脸候选框的数目。NR为正整数。 第六步,MTCNN神经网络采用非极大值抑制算法对第五步R网络输出的NR个人脸候 选框进行去冗余,得到KR个人脸候选框。KR为正整数且KR技术实现要素:
中所描述的: 其使用的策略为将所有的框按得分值score(得分值score指候选框覆盖的部分可 12 CN 111582226 A 说 明 书 3/23 页 能存在目标物体的概率)从高到低排序,选取得分值最高的,删除所有和它的面积交并比超 出阈值的框,对未删除的框选取分最高的继续此操作。 假设有N个候选框,其中只有K个完美候选框,其余N-K个都为冗余候选框,目前非 极大值抑制方法筛除冗余候选框的方法如下: 第1步:构建一个存放待处理候选框的集合H,集合H初始化为包含全部N个候选框; 构建一个存放完美框的集合M,M初始化为空集。 第2步:将集合H中的所有候选框按得分值score的高低进行排序,选出分数最高的 框标记为完美候选框,将完美候选框从集合H移到集合M。 第3步:判断H是否为空,若为空,转第五步,若不为空,转第4步。 第4步,设此时集合H中还有T个候选框,0
分享到:
收藏