logo好方法网

一种视频多目标关联与分割方法及系统


技术摘要:
本发明公开了一种视频多目标关联与分割方法及系统,所述方法首先采用目标检测方法对视频的每一帧生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出视频主要目标;然后利用孪生网络计算不同目标之间的相似性,得到视频主要目标在时间上的一致性关系;最后  全部
背景技术:
视频分割技术作为视频处理的关键步骤,对视频分析有很大的影响,在理论和实 际应用中有重要的研究价值。 目前,传统的视频分割方法普遍存在以下问题: (1)多数无监督式视频分割方法是针对视频中只有一个主要目标,而在许多现实 视频中往往需要分析多个视频目标,现有方法不太适用; (2)现有的无监督式视频多目标分割方法少之又少,并且都假设视频每一帧都包 含目标,而这一假设在现实视频中是不成立的,目标往往会交替出入视野,而且常常有不包 含目标的视频帧(噪声帧),现有方法在处理含有噪声帧的视频时分割准确度会降低。 综上,从实际应用情况出发,针对未剪辑长视频,亟需一种多目标数据关联与分割 方法。
技术实现要素:
本发明的目的在于提供一种视频多目标关联与分割方法及系统,以解决上述存在 的一个或多个技术问题。本发明的方法,可在没有额外输入的条件下确定视频的主要目标, 可在有噪声帧的情况下完成数据关联,能够更有效地对视频主要目标进行分割,提高分割 结果的准确性。 为达到上述目的,本发明采用以下技术方案: 本发明的一种视频多目标关联与分割方法,包括以下步骤: 步骤1,用可变形的R-FCN网络对视频的每一帧进行目标检测,得到所述每一帧的N 个目标提议以及每个目标提议的置信度分数;基于注意力机制,定位出视频主要目标所在 区域R;基于门控机制,计算每个目标提议是视频主要目标的置信度分数,设定阈值筛选出 目标,将筛选出的目标作为视频主要目标; 步骤2,利用相同类别相同实例的正样本、相同类别不同实例的负样本和不同类别 不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将视频当前帧中某一 待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训练好的孪生网络, 进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断当前帧待匹配视频 主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹配失败,则将当前帧 待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定阈值,判断当前帧待 匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息; 步骤3,二值分割网络模型的生成,包括: 步骤3.1)采集原始图片,用可变形的R-FCN网络对采集的原始图片进行目标检测, 5 CN 111583288 A 说 明 书 2/10 页 获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不同分辨率 的图像; 步骤3.2)对于每种分辨率的图像,利用分水岭算法得到边缘概率映射的轮廓图, 根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像素,将每个超 像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉树,所述分辨 率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议; 步骤3.3)将三张超度量轮廓图融合在一起,获得第四张超度量轮廓图;基于四张 超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率筛选,将重叠率大于 等于  0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提议; 步骤3.4)提取每个筛选填充后的分割提议的2D特征,训练随机森林回归器,对筛 选填充后的分割提议进行排名,获得排名后的分割提议; 步骤3.5)计算步骤3.4)获得的排名后的分割提议与步骤3.1)获得的目标的边界 框的重叠率;其中,将重叠率最大值对应的分割提议作为伪标注信息; 步骤3.6)通过伪标注信息对应的边界框对原始图片进行裁剪;裁剪后,边界框内 的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为训练数据集,训练二值 分割网络,获得训练好的二值分割网络模型; 步骤4,将步骤1获得的视频主要目标输入步骤3训练好的二值分割网络模型,获得 分割结果;将获得的分割结果与步骤2获得的关联信息相结合,获得视频主要目标的最终输 出,完成视频多目标关联与分割。 本发明的进一步改进在于,步骤1中,视频主要目标选择的表达式为, 式中,α、β是调节系数, 为视频帧中检测到的目标, 为视频帧中检测到的目标 的置信度, 为视频帧中检测到的目标与视频主要目标所在区域R的距离, 是 门控得分。 本发明的进一步改进在于,步骤1中,α、β的取值分别为0.8、0.2。 本发明的进一步改进在于,步骤2中,任意两个目标之间的相似性关系Ab的计算表 达式为, 式中,F(·,·)表示两者之间的相似距离, 表示第t帧的第i个目标, 表 示第t-1 帧的第j个目标。 本发明的进一步改进在于,步骤2中,匹配失败后,相似性Av计算表达式为, 式中,Zq表示第q个目标的检测框集合。 本发明的进一步改进在于,步骤3中,根据超度量轮廓图获得分割提议的计算表达 式为, 6 CN 111583288 A 说 明 书 3/10 页 式中,UCM是超度量轮廓图,S是目标分割块; 其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S* ,S1 , S2,...SN}。 本发明的一种视频多目标关联与分割系统,包括: 视频主要目标获取模块,用于通过可变形的R-FCN网络对视频的每一帧进行目标 检测,得到所述每一帧的N个目标提议以及每个目标提议的置信度分数;基于注意力机制, 定位出视频主要目标所在区域R;基于门控机制,计算每个目标提议是视频主要目标的置信 度分数,设定阈值筛选出目标,将筛选出的目标作为视频主要目标; 关联信息获取模块,用于利用相同类别相同实例的正样本、相同类别不同实例的 负样本和不同类别不同实例的负样本三类数据训练孪生网络,获得训练好的孪生网络;将 视频当前帧中某一待匹配视频主要目标与前一帧中所有视频主要目标,两两成对地输入训 练好的孪生网络,进行特征提取;计算两个视频主要目标之间的相似度Ab,设定阈值,判断 当前帧待匹配视频主要目标属于的实例,获得当前帧待匹配视频主要目标的关联信息;匹 配失败,则将当前帧待匹配视频主要目标与已有目标特征集进行匹配,计算相似度Av,设定 阈值,判断当前帧待匹配视频主要目标属于的实例,获得待匹配视频主要目标的关联信息; 二值分割网络模型获取模块,包括: 图像获取模块,用于采集原始图片,用可变形的R-FCN网络对采集的原始图片进行 目标检测,获得目标的边界框;对原始图片进行1:1、1:2和2:1三种尺寸的缩放,得到三张不 同分辨率的图像; 分割提议获取模块,用于对每种分辨率的图像,利用分水岭算法得到边缘概率映 射的轮廓图,根据轮廓图生成图像的超度量轮廓图;利用超度量轮廓图获取图像的M个超像 素,将每个超像素记为一个叶子结点,两两合并成M-1个非叶子结点,构造出一颗完全二叉 树,所述分辨率的图像为根节点,共有2M-1个分割提议;从二叉树中分离P组分割提议; 分割提议筛选填充模块,用于将三张超度量轮廓图融合在一起,获得第四张超度 量轮廓图;基于四张超度量轮廓图,得到4P组分割提议;将获得的4P组分割提议进行重叠率 筛选,将重叠率大于等于0.95的筛选出来剔除,然后进行孔填充,获得筛选填充后的分割提 议; 分割提议排名模块,用于提取每个筛选填充后的分割提议的2D特征,训练随机森 林回归器,对筛选填充后的分割提议进行排名,获得排名后的分割提议; 伪标注信息获取模块,用于计算获得的排名后的分割提议与目标的边界框的重叠 率;其中,将重叠率最大值对应的分割提议作为伪标注信息; 二值分割网络模型训练模块,用于通过伪标注信息对应的边界框对原始图片进行 裁剪;裁剪后,边界框内的信息作为检测结果;将伪标注信息以及与其对应的检测结果作为 训练数据集,训练二值分割网络,获得训练好的二值分割网络模型; 多目标关联与分割模块,用于将视频主要目标获取模块获得的视频主要目标输入 二值分割网络模型获取模块训练好的二值分割网络模型,获得分割结果;将获得的分割结 果与关联信息获取模块获得的关联信息相结合,获得视频主要目标的最终输出,完成视频 7 CN 111583288 A 说 明 书 4/10 页 多目标关联与分割。 本发明的进一步改进在于,视频主要目标获取模块中,视频主要目标选择的表达 式为, 式中,α、β是调节系数, 为视频帧中检测到的目标, 为视频帧中检测到的目标 的置信度, 为视频帧中检测到的目标与视频主要目标所在区域R的距离, 是 门控得分。 本发明的进一步改进在于,关联信息获取模块中,任意两个目标之间的相似性关 系Ab的计算表达式为, 式中,F(·,·)表示两者之间的相似距离, 表示第t帧的第i个目标, 表 示第t-1 帧的第j个目标; 匹配失败后,相似性Av计算表达式为, 式中,Zq表示第q个目标的检测框集合。 本发明的进一步改进在于,二值分割网络模型获取模块中,根据超度量轮廓图获 得分割提议的计算表达式为, 式中,UCM是超度量轮廓图,S是目标分割块; 其中,对每个层次进行迭代,将超度量轮廓图映射到一组目标分割块{S* ,S1 , S2,...SN}。 与现有技术相比,本发明具有以下有益效果: 本发明的方法是一种未剪辑长视频中的多目标数据关联与分割方法,针对当前视 频分割方法中存在的视频多目标分割算法少、大多数无监督式视频分割方法适用于视频单 目标分割、数据集中噪声帧少等问题;本发明方法首先采用目标检测方法对视频的每一帧 生成多个目标候选,结合注意力机制生成的视频感兴趣区域,筛选出多个视频主要目标,进 一步解决视频多目标分割问题;然后利用孪生网络计算不同目标之间的相似性,得到视频 主要目标在时间上的一致性关系,这种相似计算方法可以解决未剪辑长视频帧中出现的噪 声帧等问题,视频主要目标在重现时便可以重新得到关联关系;最后利用目标分割网络得 到视频主要目标的分割预测,提升了视频多目标分割的准确率。本发明使用检测与注意力 机制相结合的方法自动确认视频主要目标,并计算不同目标之间的相似性来进行数据关 联,再用全卷积网络对已确认目标进行分割,提升了分割性能。本发明的方法可以在没有人 工额外输入的条件下自动确定视频的主要目标,并且在有噪声真的情况下完成数据关联, 从而更有效的对视频主要目标进行分割,提高分割结果的准确性。 8 CN 111583288 A 说 明 书 5/10 页 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有 技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的 一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。 图1是本发明实施例的一种多目标数据关联与分割方法的流程示意图; 图2是本发明实施例中的验证数据集示意图;其中,图2中的(a)为DAVIS2016数据 集示意图,图2中的(b)为UNVOSeg数据集示意图; 图3是本发明实施例中,生成分割结果的示意图; 图4是本发明实施例中,多尺度超度量轮廓示意图; 图5是本发明实施例中,在UNVOSeg数据集上的验证结果示意图。
分享到:
收藏