
技术摘要:
本发明公开了一种建筑物检测与识别方法,包括:通过Faster R‑ResNet网络对输入图像进行特征提取,生成特征图;所述Faster R‑ResNet网络是通过使用ResNet残差网络替代Faster R‑CNN中卷积神经网络VGG16而得到;基于RPN网络与所述特征图生在多个候选目标区域建议;基于 全部
背景技术:
在中国,“标志性景观”这一概念最早出现于1999年,但提出者当时并未对其作出 明确的定义。普遍认为,城市标志性景观应该指的是,一个城市中用来浓缩、凝聚、集中反映 和折射、代表城市总体特征的特定地段是城市的缩影区,是城市的代表性区域,是城市的窗 口,是外来游客的必游之地。地标建筑,“网红建筑物”逐渐成为了一座城市的形象,人们通 过这些“网红建筑物”来认识一座城。地标建筑物在城市中具有以下五方面作用:1) .空间标 识作用;2) .空间参照物作用;3) .空间向导作用;4) .空间统辖作用;5) .文化意义。然而,越 来越多的“网红建筑物”的出现,让人眼花缭乱,繁杂的特色建筑物让人们识别混乱。因此, 需要一种方法或智能工具可以帮助人们准确快速地识别“网红建筑”、地标建筑。 常用深度学习方法可以有效检测图像中的目标,完成目标分类和识别,其中R-CNN (Regions with Convolutional Neural Network Feature)算法是将深度模型应用于目标 检测的开创性工作之一,算法的关键在于CNN具有良好的特征提取和分类性能,算法主要分 为四个步骤:1.对输入图像使用选择性搜索(Selective Search);2.选取一个预先训练好 的的卷积神经网络,计算输出提取的提议区域特征;3.将每个区域建议的特征连同其标注 的类别作为一个样本,训练多个支持向量机对目标进行分类;4.将每个提议区域的特征连 同其标注的边界框作为一个样本,训练线性回归模型来预测真实边界框。但R-CNN仍然存在 一些不足,如:R-CNN里面的大量区域可能是相互覆盖,每次重新抽取特征过于浪费;算法检 测耗时和存储压力大的问题。 随后是针对R-CNN的一系列改进方法,从R-CNN到Fast R-CNN再到FasterR-CNN,目 标检测的流程变得越来越精简、精度越来越高、速度也越来越快。目标检测的四个基本步骤 (候选区域生成,特征提取,分类,位置精修)终于被统一到一个深度网络框架之内,那就是 Faster R-CNN。Faster R-CNN的流程图图如图1所示。对任意大小的图片,经过处理后由 VGG16网络生成特征框图,RPN网络在这些特征框图上用3x3的卷积核进行滑动滤波,以特征 框图每个单元为中心,生成多个不同大小和宽高比的锚框并标注它们,然后对经过滑动滤 波的特征框图回归与分类并产生区域建议。这些区域建议在RoI Pooling兴趣区域池化层 映射到之前的特征框图上,然后处理为固定大小的特征向量,接着送入后面的回归层和分 类层。最后使用非极大值抑制算法,从预测类别为目标的预测边界框中移除相似的结果,最 终输出目标物体的类别和所在区域的坐标。但是,Faster R-CNN算法中CNN是VGG16,RPN网 络利用VGG16的Conv5_3输出作为特征框图,而这种特征框图只与上一层卷积网络的输出有 关,与之前层的输出关系较浅,导致随着层数的增加,梯度消失,网络退化,可用的特征信息 越来越少,很有可能网络的准确度已经达到饱和,增加了网络层数,却依然什么东西也学习 不到。 3 CN 111611925 A 说 明 书 2/6 页
技术实现要素:
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种建筑物检测与识别方 法及装置,用于解决现有技术的缺陷。 为实现上述目的及其他相关目的,本发明提供一种建筑物检测与识别方法,包括: 通过Faster R-ResNet网络对输入图像进行特征提取,生成特征图;所述Faster R-ResNet网络是通过使用ResNet残差网络替代Faster R-CNN中卷积神经网络VGG16而得 到; 基于RPN网络与所述特征图生在多个候选目标区域建议; 基于所述多个候选目标区域建议和所述特征图,得到有效目标框图; 对所述有效目标框图进行回归和分类,得到目标物体的类别和所在区域的坐标。 可选地,所述ResNet残差网络包括多个依次连接的残差模块,后一个残差模块的 输入等于前一个残差模块的输出加上第一个残差模块块的输入。 可选地,将所述特征图输入到RPN网络中,通过滑动窗口,进行边界预测,生成多个 候选目标区域建议。 可选地,将所述第一候选框图和所述特征图输入到RoI Pooling兴趣区域池化层 中,生成第二候选框图。 可选地,将所述第二候选框图输入到全连接层中,对全连接层的输出进行回归和 分类。 为实现上述目的及其他相关目的,本发明提供一种建筑物检测与识别装置,包括: 特征提取模块,用于通过Faster R-ResNet网络对输入图像进行特征提取,生成特 征图;所述Faster R-ResNet网络是通过使用ResNet残差网络替代Faster R-CNN中卷积神 经网络VGG16而得到; 区域建议提取模块,用于基于RPN网络与所述特征图生在多个候选目标区域建议; 有效目标框图获取模块,用于基于所述多个候选目标区域建议和所述特征图,得 到有效目标框图; 位置获取模块,用于对所述有效目标框图进行回归和分类,得到目标物体的类别 和所在区域的坐标。 可选地,所述ResNet残差网络包括多个依次连接的残差模块,后一个残差模块的 输入等于前一个残差模块的输出加上第一个残差模块块的输入。 可选地,将所述特征图输入到RPN网络中,通过滑动窗口,进行边界预测,生成多个 候选目标区域建议。 可选地,将所述第一候选框图和所述特征图输入到RoI Pooling兴趣区域池化层 中,生成第二候选框图。 可选地,将所述第二候选框图输入到全连接层中,对全连接层的输出进行回归和 分类。 如上所述,本发明的一种建筑物检测与识别方法及装置,具有以下有益效果: 1.在Faster R-CNN中,引入残差网络,在反向过程中,随着层数的增加,可以无损 传播梯度,让网络学习到更多的图像特征信息。 2.Faster R-ResNet通过直接将输入信息绕道传到输出,保护信息的完整性,整个 4 CN 111611925 A 说 明 书 3/6 页 网络只需要学习输入以及输出差别的那一部分,简化了网络学习难度。 3.ResNet通过残差学习解决了深度网络的退化问题,让我们可以训练出更深的网 络,检测边框信息更加精准。 通过在Faster R-CNN中引入残差网络,使得预测的建筑物区域更接近真实的建筑 区域。 附图说明 图1为本发明一实施例中基于Faster R-CNN的建筑物检测与识别方法的流程图; 图2为本发明一实施例中一种建筑物检测与识别方法的流程图; 图3为本发明一实施例中ResNet残差网络的示意图; 图4为本发明另一实施例中一种建筑物检测与识别方法的流程图; 图5为本发明一实施例中一种建筑物检测与识别装置的示意图。