
技术摘要:
本发明涉及一种RGB‑D图像显著性目标检测方法,包括如下步骤:1、从VGG主干网络中提取自顶向下的RGB‑D特征,然后将RGB‑D特征送入跟每个层级相对应的跨模态调制与选择单元;2、通过跨模态特征调制模块对多级RGB‑D特征进行调制;3、通过自适应特征选择模块得到与显著 全部
背景技术:
人类的视觉系统可在大范围、复杂的场景中快速定位出最吸引注意的内容或目 标。而视觉显著检测任务就是受此机制启发,目的在于检测出输入数据(如图像、视频等)最 受关注的目标或区域,已经被广泛应用于目标检测、图像编辑、视频浓缩等研究领域,以及 智能拍照、推荐系统、自动驾驶等工程领域,具有重要的研究价值和广阔的市场前景。随着 各类成像设备与硬件技术的发展,深度信息的获取方式变得更加简单、方便,目前许多手机 生产厂商(如苹果、华为、三星等)都为其旗舰手机配备了深度传感装置。借助深度信息,可 以进一步优化智能拍照效果,同时也可以进一步为AR/VR等新应用提供数据支持,发展前景 和态势良好。 立体图像(RGB-D图像)数据为场景描述提供了彩色和深度两种模态信息,更接近 于人类真实的视觉感知系统,两种模态信息相辅相成、互为补充,可以提供更加全面的数据 表达方法,有利于进一步增强显著性检测等任务的性能。近年来,深度学习技术的蓬勃发展 极大地促进了显著性检测任务的性能提升。Qu等人提出了一种结合顶底层显著性线索与卷 积神经网络(CNN)的RGB-D图像显著性目标检测方法。Han等人提出了双流RGB-D显著检测网 络,并将RGB网络结构迁移到深度视角。Chen等人提出了一种多尺度-多路径融合网络实现 RGB-D显著性目标检测,升级了传统的双流融合架构。Chen等人提出了一种三流注意力感知 的RGB-D显著性目标检测网络,并通道注意力机制实现了自适应选择跨模态互补特征。Zhao 等人首先利用对比度先验来增强深度信息,然后通过流体金字塔集成网络实现了RGB-D显 著性目标检测。Li等人提出了一种基于交织融合的RGB-D显著性检测网络,通过交织融合方 式步进式融合跨模态的互补信息。Piao等人提出了一种多尺度递归的RGB-D显著性网络,在 复杂场景中获得了较好的检测性能。 发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:(1) RGB-D图像设计RGB和深度两种模态,而跨模态数据的不一致问题会降低学习得到的特征的 判别力;(2)RGB-D图像中的深度图质量较差时容易引入噪声干扰,如毛糙的深度图边界会 导致检测结果边缘不够锐利等。
技术实现要素:
本发明旨在充分挖掘彩色和深度的跨模态互补信息,降低低质深度图对检测结果 的影响,设计一种基于跨模态调制与选择的RGB-D图像显著性目标检测方法,获得更佳的检 测性能。 为达到以上目的,本发明采取的技术方案是: 一种RGB-D图像显著性目标检测方法,包括如下步骤: 5 CN 111583173 A 说 明 书 2/8 页 步骤1、将RGB图像和深度图像分别输入VGG主干网络提取多个层级自顶向下的RGB 特征和深度特征; 步骤2、将每个层级得到的RGB特征和深度特征分别送入跟每个层级相对应的跨模 态调制与选择单元得到每个层级的显著性图,并以第1层级输出的显著性图作为网络的最 终输出显著性结果。 在上述方案的基础上,每个层级通过跨模态调制与选择单元得到对应显著性图的 具体步骤如下: 1)通过跨模态特征调制模块学习一个深度特征上的映射函数 进而得到第L层 级上的一组仿射变换参数(γL,βL);根据得到的仿射变换参数,利用深度特征对RGB特征进 行调制,得到调制后的特征 2)将RGB特征、深度特征、调制特征和上采样的高层级修正特征送入自适应特征选 择模块,以选择性地强调不同的通道特征并融合重要的空间特征,得到与显著性相关的特 征 3)通过与显著性相关的特征 和上采样的高层级显著性图 计算第L层 级的位置注意力特征 4)将RGB特征、深度特征、调制特征和上采样的高层级修正特征级联,然后将它们 送入显著性边缘预测部分生成每个层级的显著性边缘图;对于第L个层级,通过第L层级的 位置注意力特征 和第L层级的显著性边缘图 计算出边缘注意力的输出特征 将 作为最终用于显著性预测的第L层级的修正特征; 5)利用第L层级的修正特征通过显著性图预测部分进行显著性图预测,得到第L层 级的显著性图。 在每个层级上都通过标准交叉熵损失来联合优化网络模型进行显著性图预测、显 著性边缘预测,损失函数表示为: 其中, 表示第k个层级的显著性图预测的标准交叉熵损失, 表示第k个层 级的显著性边缘预测的标准交叉熵损失,λ、η用于控制不同损失项比例; 步骤1)中,所述仿射变换参数(γL,βL)的计算公式如下: 其中, 表示第L级的深度特征,上标L表示特征层级, 表示映射函数,通过并 行的堆叠卷积层实现,(γL,βL)表示学习得到的参数; 调制后的特征 的计算公式如下: 其中, 表示第L级上得到的调制特征, 表示第L级的RGB特征, 表示像素 级相乘操作, 表示像素级相加操作。 6 CN 111583173 A 说 明 书 3/8 页 步骤2)中,所述与显著性相关的特征 的计算公式如下: 其中, 表示第L级上得到的与显著性相关的特征, 表示第L级上得到的通道 选择特征, 表示第L级上得到的空间融合特征,cat表示特征级联操作。 所述第L级上通道选择特征 的计算公式如下: 其中, 表示第L级上的通道选择特征,SE表示Squeeze-and-Excitation映射操 作,conv表示卷积操作,cat表示特征级联操作, 表示不同模态的特 征 分别经过SE映射后得到的增强特征, 表示第L层级提取的RGB 特征, 表示第L层级提取的深度特征, 表示第L层级提取的调制特征, 表示第L 1层级得到的上采样修正特征。 所述第L级上得到的空间融合特征 的计算公式如下: 其中, 表示第L级上得到的空间融合特征, 表示不同模 态的特征得到的像素级置信图。 所述像素级置信图的计算公式如下: 其中, 表示不同模态的特征, 表示 不同模态的特征得到的像素级置信图, 表示卷积网络,包含6个堆叠的卷积层。 步骤3)中,第L层级的位置注意力特征 的计算公式如下: 其中, 表示第L级上得到的与显著性相关的特征, 表示上采样的第L 1 级上得到的显著性图。 步骤4)中,第L层级的边缘注意力的输出特征的计算公式为: 其中, 表示第L层级的显著性边缘图。 所述高层级为第L 1级,且所述高层级修正特征和显著性图作为不同模块输入时, 仅适用于第1~4层级,第5层级不包含相关高层级输入。 本发明的有益效果:本发明设计了一种基于跨模态调制与选择的RGB-D图像显著 性目标检测方法,能够充分挖掘跨模态数据之间的互补信息,进而获得更具判别力的特征 7 CN 111583173 A 说 明 书 4/8 页 表达,生成更加完整、准确、边缘清晰的显著性图,且具有较强的背景抑制能力。 附图说明 本发明有如下附图: 图1给出了本发明提出方法的检测结果示例。 图2给出本发明提出方法的整体流程图。 图3给出本发明跨模态调制与选择单元的流程图。