
技术摘要:
一种基于正则化稠密连接特征金字塔的实例显著性检测的方法。该方法的目的是构造稠密连接的特征金字塔来进行图像实例级显著性检测。该方法设计了一种新的卷积神经网络模型,这种新的卷积神经网络模型通过构建该发明提出的正则化的稠密连接在原有特征金字塔的基础上构造 全部
背景技术:
实例显著性物体检测相对显著性检测来说,是一个较新的问题。显著性检测致力 于模拟人类视觉系统来检测一张图像中显著的物体或者区域,而最近的显著性模型研究成 果也在显著性物体检测上取得了巨大的成功,但很少有研究实例显著性检测的成果。实例 显著性物体检测技术相比显著性物体检测技术,它需要检测出输入图像下每个显著性实 例,且生成每个显著性实例的像素级分割,而不是简单地生成输入图像对应的无法区分出 不同显著性实例的显著性图。实例显著性物体检测和显著性物体检测也类似,因为它们在 计算机视觉中都有着广泛的用途,比如图像检索、视觉跟踪、场景分类、基于内容的视频压 缩和弱监督学习。虽然已经有一些实例显著性模型已经被提出了,但是实例显著性检测的 精度仍然差强人意,尤其是在很多复杂的场景下。 实例显著性检测方法一般使用卷积神经网络作为主体。卷积神经网络的主干网络 通常由几个堆叠在一起的卷积/池化模块组成,其中靠近输入的模块被称作底层,而离输入 较远的模块被称作高层。在深度学习社区中,人们普遍认为神经网络的高层包含语义相关 的信息,而神经网络的底层包含辅助的细节信息。2017年在IEEE CVPR上发表的“Instance- level salient object segmentation”提出的MSRNet是第一个使用卷积神经网络设计实 例显著性检测方法的文章,其先使用显著性检测方法预测出输入图像的显著性图,再使用 卷积神经网络预测出显著性轮廓,最后利用“Multiscale Combinatorial Grouping”中的 MCG方法生成建议的物体分割结果生成实例显著性检测结果。这个方法的不足之处在于:它 是基于后处理的手段生成的实例显著性检测结果,这种处理手段难以优化,因为它需要分 阶段地对每个阶段单独进行优化,也正是因此它的检测效果很差;此外,它的检测速度也很 慢,难以用于实际的应用中。2019年在IEEE CVPR上发表的“S4Net:Single Stage Salient- Instance Segmentation”在Mask R-CNN的基础上设计了能整体进行优化的实例显著性分 割方法,这种方法的创新点是学习“GrabCut:Interactive foreground extraction using iterated graph cuts”中的策略,通过整合检测到的实例区域及其周围的一小部分背景来 预测每个实例的像素级分割结果,这种操作被叫做RoIMasking。除此之外,它也利用扩张卷 积设计了一个分割分支来从特征金字塔中的一个特定的特征层级上预测检测到的每个实 例的像素级分割。虽然这种方法能取得相对于2017年在IEEE CVPR上发表的MSRNet方法较 好的效果,但这种方法缺陷在于它没有很充分地利用多层级的卷积特征来预测显著性实例 的位置和对应的像素级分割,无法更充分捕捉周围的环境信息从而导致检测准确度的下 降。 3 CN 111598841 A 说 明 书 2/5 页
技术实现要素:
本发明目的是更加充分地利用多层级的卷积特征,通过引入正则化的稠密连接构 建更加强大的特征金字塔,通过多级的RoIAlign方法充分考虑多层级的卷积特征从而更加 精确地预测每个实例的像素级分割结果。为了实现本发明的目的,本发明提出了一种基于 正则化稠密连接特征金字塔的实例显著性检测方法,该方法采用新的卷积神经网络模型, 通过输入一张任意大小的图像,就可以高效的检测出图像中显著性实例和每个实例对应的 像素级分割结果,该方法能够进行更准确的实例显著性检测。 和以往的方法相比,本发明主要的创造性在于两点:首先,本发明设计了正则化的 稠密连接构建新的特征金字塔,它不同于传统方法构建的特征金字塔,它可以更加充分地 利用多层级的卷积特征,在特征金字塔构建的每个阶段吸收有用信息而过滤无用信息;其 次,本发明提出了多级RoIAlign来获得每个检测到的实例的感兴趣区域的特征金字塔,并 设计了一个解码器来自适应地对多层级特征作池化操作从而获得更好的像素级分割预测 结果。 本发明的技术方案: 基于正则化稠密连接(regularized dense connections)特征金字塔的实例显著 性检测方法,该方法包含如下步骤: a .设计一个新的卷积神经网络模型,该模型依次分为三大部分,第一个是特征提 取部分,第二个是侧向物体框预测分支部分,第三个是物体像素级分割分支部分; b.用户向所述卷积神经网络模型中输入一张任意大小的图片到模型的特征提取 部分,即一个带有特征金字塔增强的卷积神经网络中,并输出一个特征金字塔;所述的特征 金字塔增强是先利用“FCOS:Fully Convolutional One-Stage Object Detection”中的特 征金字塔增强方法生成增强的特征金字塔,再在该基础上使用正则化稠密连接构建新的特 征金字塔; c.步骤b中生成的特征金字塔的每个特征层级都连接着所述卷积神经网络模型的 第二部分即侧向物体框预测分支,得到预测到的物体框级别的显著性实例; d .利用步骤c中预测出的物体框级别的显著性实例,在“Mask R-CNN”中提出的 RoIAlign方法基础上,对步骤b中生成的特征金字塔进行特征复用,即使用多级RoIAlign方 法,得到每个预测到的显著性实例的感兴趣区域(Region ofInterest)特征金字塔,再利用 模型的第三部分即物体像素级分割分支部分得到每个实例的像素级分割预测结果,最后将 这些预测结果对应到原图的各个位置,得到最后实例级的显著性物体检测结果。 其中,步骤b所述正则化稠密连接指使用正则化强化后的稠密连接。 步骤d所述多级RoIAlign指对步骤b中生成的特征金字塔的每个层级都使用 RoIAlign。 本发明的优点和有益效果: 本发明通过使用正则化的稠密连接来构建新的特征金字塔,更充分地利用了多层 级的卷积特征,且可以有选择地在构建特征金字塔的每个层级时吸收有用信息而过滤无用 信息。本发明提出的多级RoIAlign方法在预测每个实例对应的像素级分割时更好地利用了 特征金字塔中的各个层级的不同信息,可以更精确地预测出对应的像素级分割。 4 CN 111598841 A 说 明 书 3/5 页 附图说明 图1为本发明的操作步骤。 图2为本发明设计的使用正则化的稠密连接构建新的特征金字塔方法。 图3为基于新的卷积神经网络架构进行实例显著性检测的效果图和其他方法的对 比。