logo好方法网

一种音频指纹的生成方法和装置以及设备


技术摘要:
本发明公开了一种音频指纹的生成方法和装置以及设备。其中,所述方法包括:获取用户的音频数据,和产生该获取的音频数据的声谱图和频谱图,和从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适性特征和音频周期性特征,和根据该音频普适性特征和该音频周期性  全部
背景技术:
音频指纹是指通过特定的算法将一段音频中独一无二的数字特征以标识符的形 式提取出来,用于识别海量的声音样本或跟踪定位样本在数据库中的位置。音频指纹作为 内容自动识别技术的的核心算法,已广泛应用于音乐识别,版权内容监播,内容库去重和电 视第二屏互动等领域。 现有的音频指纹的生成方案,一般是获取用户的音频数据,并从该获取的音频数 据中直接提取音频指纹的方式来完成对音频数据的音频指纹的生成,该提取的音频指纹的 准确率主要受到该获取的音频数据准确率的影响。 然而,现有的音频指纹的生成方案,无法实现对用户的音频数据的准确率进行提 高,无法实现提高从该用户的音频数据中提取的音频指纹的准确率。
技术实现要素:
有鉴于此,本发明的目的在于提出一种音频指纹的生成方法和装置以及设备,能 够实现提高从用户的音频数据中提取的音频指纹的准确率。 根据本发明的一个方面,提供一种音频指纹的生成方法,包括:获取用户的音频数 据;产生所述获取的音频数据的声谱图和频谱图;从所述声谱图和所述频谱图中提炼关联 所述获取的音频数据的音频普适性特征和音频周期性特征;根据所述音频普适性特征和所 述音频周期性特征,还原所述获取的音频数据的现场音频;提取所述现场音频的音频指纹。 其中,所述产生所述获取的音频数据的声谱图和频谱图,包括:将所述获取的音频 数据进行声学特征映射,和对所述经声学特征映射后的音频数据进行互相关卷积,和对所 述经互相关卷积后的音频数据进行傅里叶变换,并根据所述经傅里叶变换后的音频数据, 产生声谱图和频谱图。 其中,所述从所述声谱图和所述频谱图中提炼关联所述获取的音频数据的音频普 适性特征和音频周期性特征,包括:从所述声谱图和所述频谱图中取得声学特征分布图、自 功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特征和 对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学特征 的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合,和从 所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征。 其中,所述根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音 频数据的现场音频,包括:根据所述音频普适性特征和所述音频周期性特征,在所述音频周 期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采用音频封装方式, 在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场音频,通过还原所 4 CN 111581430 A 说 明 书 2/8 页 述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所述获取的音频数据 的现场音频。 其中,在所述提取所述现场音频的音频指纹之后,还包括:对所述音频指纹进行标 记。 根据本发明的另一个方面,提供一种音频指纹的生成装置,包括:获取模块、产生 模块、提炼模块、还原模块和提取模块;所述获取模块,用于获取用户的音频数据;所述产生 模块,用于产生所述获取的音频数据的声谱图和频谱图;所述提炼模块,用于从所述声谱图 和所述频谱图中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特征;所述 还原模块,用于根据所述音频普适性特征和所述音频周期性特征,还原所述获取的音频数 据的现场音频;所述提取模块,用于提取所述现场音频的音频指纹。 其中,所述产生模块,具体用于:将所述获取的音频数据进行声学特征映射,和对 所述经声学特征映射后的音频数据进行互相关卷积,和对所述经互相关卷积后的音频数据 进行傅里叶变换,并根据所述经傅里叶变换后的音频数据,产生声谱图和频谱图。 其中,所述提炼模块,具体用于:从所述声谱图和所述频谱图中取得声学特征分布 图、自功率谱分布图,和从所述声学特征分布图、所述自功率谱分布图中筛选出所有声学特 征和对应所述声学特征的周期性特征,和根据所述筛选出的所有声学特征和对应所述声学 特征的周期性特征的数量,形成所述声学特征和对应所述声学特征的周期性特征的集合, 和从所述形成的集合中提炼关联所述获取的音频数据的音频普适性特征和音频周期性特 征。 其中,所述还原模块,具体用于:根据所述音频普适性特征和所述音频周期性特 征,在所述音频周期性特征对应的时间点上配置所述音频普适性特征对应的音频特征,采 用音频封装方式,在所述音频周期性特征对应的时间点上还原所述配置的音频特征的现场 音频,通过还原所述音频周期性特征对应的所有时间点上的所有现场音频的方式,还原所 述获取的音频数据的现场音频。 其中,所述音频指纹的生成装置,还包括:标记模块;所述标记模块,用于对所述音 频指纹进行标记。 根据本发明的又一个方面,提供一种音频指纹的生成设备,包括:至少一个处理 器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至 少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理 器能够执行上述任一项所述的音频指纹的生成方法。 根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所 述计算机程序被处理器执行时实现上述任一项所述的音频指纹的生成方法。 可以发现,以上方案,可以获取用户的音频数据,和可以产生该获取的音频数据的 声谱图和频谱图,和可以从该声谱图和该频谱图中提炼关联该获取的音频数据的音频普适 性特征和音频周期性特征,和可以根据该音频普适性特征和该音频周期性特征,还原该获 取的音频数据的现场音频,以及可以提取该现场音频的音频指纹,能够实现对用户的音频 数据的准确率进行提高,能够提高从该用户的音频数据中提取的音频指纹的准确率。 进一步的,以上方案,可以将该获取的音频数据进行声学特征映射,和对该经声学 特征映射后的音频数据进行互相关卷积,和对该经互相关卷积后的音频数据进行傅里叶变 5 CN 111581430 A 说 明 书 3/8 页 换,并根据该经傅里叶变换后的音频数据,产生声谱图和频谱图,这样的好处是该声学特征 映射能够很好地反映该获取的音频数据的各声学特征之间的差异性,该互相关卷积能够根 据该反映的各声学特征之间的差异性进行有针对性的消除干扰噪声进行降噪,该傅里叶变 换能够使该降噪后的音频数据的音频周期性信号更加突出,能够提高该产生的声谱图和频 谱图的准确率。 进一步的,以上方案,可以从该声谱图和该频谱图中取得声学特征分布图、自功率 谱分布图,和从该声学特征分布图、该自功率谱分布图中筛选出所有声学特征和对应该声 学特征的周期性特征,和根据该筛选出的所有声学特征和对应该声学特征的周期性特征的 数量,形成该声学特征和对应该声学特征的周期性特征的集合,和从该形成的集合中提炼 关联该获取的音频数据的音频普适性特征和音频周期性特征,这样的好处是能够实现便于 根据该音频普适性特征和该音频周期性特征,还原该获取的音频数据对应的现场音频。 进一步的,以上方案,可以根据该音频普适性特征和该音频周期性特征,在该音频 周期性特征对应的时间点上配置该音频普适性特征对应的音频特征,采用音频封装方式, 在该音频周期性特征对应的时间点上还原该配置的音频特征的现场音频,通过还原该音频 周期性特征对应的所有时间点上的所有现场音频的方式,还原该获取的音频数据的现场音 频,这样的好处是能够实现通过还原该获取的音频数据的现场音频的方式,能够对该获取 的用户的音频数据的准确率进行提高。 进一步的,以上方案,可以对该音频指纹进行标记,这样的好处是能够实现便于根 据该标记快速的查询到关联该标记的音频指纹。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1是本发明音频指纹的生成方法一实施例的流程示意图; 图2是本发明音频指纹的生成方法另一实施例的流程示意图; 图3是本发明音频指纹的生成装置一实施例的结构示意图; 图4是本发明音频指纹的生成装置另一实施例的结构示意图; 图5是本发明音频指纹的生成设备一实施例的结构示意图。
分享到:
收藏