
技术摘要:
本公开关于一种音频信号处理方法、装置、电子设备及存储介质,其中方法通过获取待处理音频信号,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,并将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应的音 全部
背景技术:
随着音频处理技术的发展,越来越多的用户通过电子设备录制音频信号或者带有 音频信号的视频文件。但是,在音频信号的录制过程中,会因为各种原因录入不同种类的噪 声,从而导致录制文件的语音质量会受到一定的影响,因此,需要对音频信号中的噪声进行 处理。 相关技术中,已有针对某种环境的特殊噪声进行处理的技术,也有不分场景的通 用噪声处理技术。近年来,随着人工智能技术的高速发展,这些噪声处理技术一般基于机器 学习和深度学习实现。 然而,对于全频带的音频信号,由于现有的音频数据大部分是8khz或者16khz等低 采样率下的数据,因此缺乏高采样率下机器学习或者深度学习的训练数据,需要自行录制 大量高采样率的音频信号,才能训练出对全频带的音频信号进行噪声处理的机器学习模 型,从而导致对全频带的音频信号进行噪声处理效率低。
技术实现要素:
本公开提供一种音频信号处理方法、装置、电子设备及存储介质,以至少解决相关 技术中对全频带的音频信号进行噪声处理效率低的问题。本公开的技术方案如下: 根据本公开实施例的第一方面,提供一种音频信号处理方法,包括: 获取待处理音频信号; 对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱; 将每个子带信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子 带信号的能量谱对应的音频特征,其中,深度学习降噪模型是通过样本采样音频信号训练 后得到的;样本采样音频信号为采样频率低于采样频率阈值的样本音频信号; 根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到目标音频 信号。 在其中一个实施例中,待处理音频信号为全频带音频信号;所述对待处理音频信 号进行子带分解,得到多个子带信号分别对应的能量谱,包括:根据设定带宽对全频带音频 信号进行子带分解,得到多个子带信号,其中,设定带宽与深度学习降噪模型的处理带宽相 同;对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。 在其中一个实施例中,对多个子带信号进行预处理,获取每个子带信号分别对应 的能量谱,包括:对每个子带信号分别进行快速傅里叶变换,得到每个子带信号对应的能量 谱。 在其中一个实施例中,根据各子带信号的能量谱对应的音频特征对各子带信号进 4 CN 111583958 A 说 明 书 2/9 页 行重建,包括:根据多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频 特征,获取每个子带信号的音频能量;将每个子带信号的音频能量转换为时域子带信号,获 得多个子带信号分别对应的时域子带信号;对多个子带信号分别对应的时域子带信号进行 重建。 在其中一个实施例中,将每个子带信号的音频能量转换为时域子带信号,包括:将 每个子带信号的音频能量分别进行逆快速傅里叶变换,得到每个子带信号分别对应的时域 子带信号。 在其中一个实施例中,子带信号的能量谱包括对应的多个频带能量,子带信号的 能量谱对应的音频特征包括与子带信号的多个频带能量一一对应的音频特征;所述根据多 个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带信 号的音频能量,包括:获取子带信号对应的每个频带能量和与子带信号的每个频带能量一 一对应的音频特征的乘积,将所述乘积作为子带信号中相应频带的音频能量;得到多个子 带信号中每一个子带信号的各频带的音频能量。 根据本公开实施例的第二方面,提供一种音频信号处理装置,包括: 获取模块,被配置为执行获取待处理音频信号; 子带分解模块,被配置为执行对待处理音频信号进行子带分解,得到多个子带信 号分别对应的能量谱; 降噪处理模块,被配置为执行将每个子带信号分别对应的能量谱输入深度学习降 噪模型,得到去噪后的与各子带信号的能量谱对应的音频特征,所述深度学习降噪模型是 通过样本采样音频信号训练后得到的;其中,样本采样音频信号为采样频率低于采样频率 阈值的样本音频信号; 信号重建模块,被配置为执行根据各子带信号的能量谱对应的音频特征对各子带 信号进行重建,得到目标音频信号。 在其中一个实施例中,待处理音频信号为全频带音频信号;所述子带分解模块包 括:子带分解单元,被配置为执行根据设定带宽对全频带音频信号进行子带分解,得到多个 子带信号,其中,设定带宽与深度学习降噪模型的处理带宽相同;预处理单元,被配置为执 行对多个子带信号进行预处理,获取每个子带信号分别对应的能量谱。 在其中一个实施例中,预处理单元被配置为执行:对每个所述子带信号分别进行 快速傅里叶变换,得到每个子带信号对应的能量谱。 在其中一个实施例中,信号重建模块包括:音频能量获取单元,被配置为执行根据 多个子带信号分别对应的能量谱以及各子带信号的能量谱对应的音频特征,获取每个子带 信号的音频能量;转换单元,被配置为执行将每个子带信号的音频能量转换为时域子带信 号,获得多个子带信号分别对应的时域子带信号;重建单元,被配置为执行对多个子带信号 分别对应的时域子带信号进行重建。 在其中一个实施例中,转换单元被配置为执行:将每个子带信号的音频能量分别 进行逆快速傅里叶变换,得到每个子带信号分别对应的时域子带信号。 在其中一个实施例中,子带信号的能量谱包括对应的多个频带能量,子带信号的 能量谱对应的音频特征包括与所述子带信号的多个频带能量一一对应的音频特征;所述音 频能量获取单元被配置为执行:获取子带信号对应的每个频带能量和与子带信号的每个频 5 CN 111583958 A 说 明 书 3/9 页 带能量一一对应的音频特征的乘积,将所述乘积作为子带信号中相应频带的音频能量;得 到多个子带信号中每一个子带信号的各频带的音频能量。 根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储所述 处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,使得电子设备执行 第一方面的任一项实施例中所述的音频信号处理方法。 根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由 电子设备的处理器执行时,使得电子设备能够执行第一方面的任一项实施例中所述的音频 信号处理方法。 根据本公开实施例的第五方面,提供一种计算机程序产品,所述程序产品包括计 算机程序,所述计算机程序存储在可读存储介质中,设备的至少一个处理器从所述可读存 储介质读取并执行所述计算机程序,使得设备执行第一方面的任一项实施例中所述的音频 信号处理方法。 本公开的实施例提供的技术方案至少带来以下有益效果:通过获取待处理音频信 号,对待处理音频信号进行子带分解,得到多个子带信号分别对应的能量谱,并将每个子带 信号分别对应的能量谱输入深度学习降噪模型,得到去噪后的与各子带信号的能量谱对应 的音频特征,进而根据各子带信号的能量谱对应的音频特征对各子带信号进行重建,得到 目标音频信号,由于其深度学习降噪模型是通过采样频率低于采样频率阈值的样本音频信 号训练后得到的,因此,训练数据较容易获取,且极大的降低了模型的运算量,从而提高了 处理效率。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施 例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。 图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。 图2是根据一示例性实施例示出的对待处理音频信号进行子带分解步骤的示意 图。 图3是根据一示例性实施例示出的对子带信号进行重建步骤的示意图。 图4是根据一示例性实施例示出的一种音频信号处理方法的原理图。 图5是根据一示例性实施例示出的一种音频信号处理装置的框图。 图6是根据一示例性实施例示出的一种电子设备的内部结构图。