
技术摘要:
本发明提供的一种基于深度学习的动物视频标签自动生成方法、终端及介质,方法包括以下步骤:抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型中;将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中;记录目标检测算法模型输出的目 全部
背景技术:
动物视频标签自动生成系统是检测视频中是否有动物,以及动物是什么,从而给 视频生成标签。现有动物视频标签自动生成系统中常用的方法包括基于帧间差分法和传统 计算机视觉图像处理方法。 参见图1、2,基于帧间差分法是通过对视频相邻帧或相隔几帧图像的两幅图像像 素值做差分,得到两帧图像亮度差的绝对值,然后进行阈值化来提取图像中的运动区域,从 而推断出视频中出现的动物区域。该方法逻辑简单,处理速度快。但是不能用于运动的摄像 头中,也不能用于识别静止或运动速度很慢或非常快的目标,而且如果目标动物表面有大 面积灰度值相似的情况下,识别效果也不好。更重要的是,这种方法只能用于识别视频中是 否有动物,但并不能识别出动物具体是什么,甚至不能保证识别结果的正确性,因此这种方 法使用场景的局限性较大。 参见图3、4、5,传统计算机视觉图像处理方法需要在训练数据集中对每种动物人 工设计特征,然后再利用提取的特征训练分类器识别。由于在视频帧中检测动物需要先定 位动物在视频帧图像的位置,然后再识别动物的类别。因此识别模型中除了要有分类功能, 还需要有定位功能。在训练的时候,为了让最后训练得到的模型能够适应不同尺度的图片, 会先按不同长宽比将图片缩放成多张图片,然后再采用不同尺度和长宽比的矩形框在图像 中滑动的方法以遍历整幅图像,以这种穷举的策略来得到包含目标可能出现的位置区域。 然后再对以上策略得到的每个位置区域的图像提取特征矩阵。最后将以上提取到的特征矩 阵用于训练分类器。当模型训练好之后,实际应用时,需要以固定时间间隔抽取视频帧,然 后使用模型对每帧图像识别图像中包含的动物类别。最后综合所有抽取到的视频帧的识别 结果作为整个视频的识别结果。 传统计算机视觉图像处理方法虽然能够识别到视频中可能包含的动物类别。但 是,滑动窗口的方式将会产生大量冗余窗口,并且还会增加后续特征提取和识别的负担,严 重影响了处理效率。而且这种人工设计的特征提取模板提取到的特征矩阵的表达能力较 弱,再加上分类器一般使用SVM或Adaboost之类的弱分类器,因此最后模型的识别准确率也 很低。
技术实现要素:
针对现有技术中的缺陷,本发明提供一种基于深度学习的动物视频标签自动生成 方法、终端及介质,提高了识别效率和识别准确性。 第一方面,一种基于深度学习的动物视频标签自动生成方法,包括以下步骤: 抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特征提取模型 4 CN 111552837 A 说 明 书 2/6 页 中; 将特征提取模型输出的特征信息输入到训练好的目标检测算法模型中; 记录目标检测算法模型输出的目标物体在待检测视频中的位置和类别,定义目标 物体的类别为待检测视频的动物标签。 优选地,所述特征提取模型由卷积神经网络构成,并通过ImageNet分类数据集训 练得到。 优选地,所述目标检测算法模型通过以下方法训练得到: 获取由多张训练图片构成的训练集,标注每张训练图片中物体的位置和类别; 基于TensorFlow框架编程实现目标检测算法; 利用所述训练集对所述目标检测算法进行训练; 保存训练好的目标检测算法为所述目标检测算法模型。 优选地,所述目标检测算法模型包括Faster RCNN算法模型。 优选地,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特 征提取模型中具体包括: 以预设的时间间隔抽取待检测视频中若干个帧图像,利用感知哈希算法对抽取到 的帧图像进行去重处理,以获得所述关键帧图像; 将所述关键帧图像输入到特征提取模型中。 优选地,所述目标检测算法模型包括YOLOv2算法模型。 优选地,所述抽取待检测视频中若干个关键帧图像,将所述关键帧图像输入到特 征提取模型中具体包括: 按预设的时间间隔从待检测视频中抽取一帧图像; 利用感知哈希算法对新的帧图像与缓存的关键帧图像进行对比;如果对比结果小 于预设的差异阈值时,丢弃新的帧图像;如果对比结果大于等于所述差异阈值时,定义新的 帧图像为所述关键帧图像,将该关键帧图像输入到特征提取模型中; 缓存该关键帧图像。 优选地,所述记录目标检测算法模型输出的目标物体在待检测视频中的位置和类 别,定义目标物体的类别为待检测视频的动物标签具体包括: 记录Faster RCNN算法模型或YOLOv2算法模型输出的每个关键帧图像中目标物体 的位置和类别; 统计所有关键帧图像中每类动物出现的次数,按照降序排列方式对每类动物在待 检测视频中出现的次数进行排序,以获得所述待检测视频的动物标签。 第二方面,一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输 入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机 程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行第一方面所述的方法。 第三方面,一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所 述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面 所述的方法。 由上述技术方案可知,本发明提供的基于深度学习的动物视频标签自动生成方 法、终端及介质,提高识别效率和识别准确性。 5 CN 111552837 A 说 明 书 3/6 页 附图说明 为了更清楚地说明本发明