logo好方法网

单通道语音增强方法及装置、存储介质、终端


技术摘要:
一种单通道语音增强方法及装置、存储介质、终端,所述方法包括:基于接收到的输入信号获取当前帧信号的频域幅度谱;基于当前帧信号的频域幅度谱对当前帧信号的全带进行VAD处理,以得到当前帧信号的初始全带幅度谱增益函数;将全带划分为多个子带,基于当前帧信号的频域  全部
背景技术:
随着手机等移动设备的普及以及移动网络的建设发展,用户对语音通话的质量也 有了越来越高的要求。 在进行语音通话时,近端讲话者往往置身于嘈杂的背景环境中,环境中的噪声会 污染有用的语音信息。如果含有噪声的上行语音信号不进行处理,将对远端接收者造成很 大的困扰,使其无法准确掌握语音的含义。 此外,还有一些情况下,近端讲话者不仅身处噪声环境,在通话时还会开启免提通 话模式。例如,司机在车内驾驶过程中开启免提通话、儿童在商场中使用电话手表进行通话 等场景。不同于手持模式,免提通话时因为嘴巴与通话设备的麦克风距离较远,麦克风接收 到的含噪语音信号的信噪比相比手持模式会更低,这就导致远端接收者更加难以听清楚语 音的内容。 针对噪声环境下的免提通话模式,需要使用有效的语音增强算法对近端含噪语音 进行噪声抑制,将处理后的清晰语音作为上行信号传送,从而提升语音通话质量。 但是,现有的语音增强技术在非平稳噪声以及免提通话场景中的表现不尽如人 意,降噪效果差,严重影响语音通话质量。
技术实现要素:
本发明解决的技术问题是如何更有效地提高语音通话质量。 为解决上述技术问题,本发明实施例提供一种单通道语音增强方法,包括:基于接 收到的输入信号获取当前帧信号的频域幅度谱;基于所述当前帧信号的频域幅度谱对所述 当前帧信号的全带进行VAD处理,以得到所述当前帧信号的初始全带幅度谱增益函数;将所 述全带划分为多个子带,基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益 函数对所述当前信号帧的多个子带分别进行VAD处理,并根据各子带的VAD处理结果更新所 述初始全带幅度谱增益函数,以得到所述当前帧信号的更新全带幅度谱增益函数;根据所 述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频 谱。 可选的,所述基于接收到的输入信号获取当前帧信号的频域幅度谱包括:对所述 输入信号进行时域上的分帧操作;对分帧得到的当前帧信号进行时频变换操作,以得到所 述当前帧信号的频域幅度谱。 可选的,所述基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行 VAD处理,以得到所述当前帧信号的初始全带幅度谱增益函数包括:对所述当前帧信号的频 域幅度谱进行噪声估计,以得到所述当前帧信号的噪声功率谱;根据所述噪声功率谱计算 5 CN 111554315 A 说 明 书 2/13 页 得到所述当前帧信号的初始全带幅度谱增益函数。 可选的,所述对所述当前帧信号的频域幅度谱进行噪声估计,以得到所述当前帧 信号的噪声功率谱包括:根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频 域幅度谱,计算得到所述当前帧信号的含噪语音信号功率谱;根据所述上一帧信号的含噪 语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参 数,计算得到所述当前信号帧的含噪语音信号功率谱的最小值;根据所述当前帧信号的含 噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱,估算所述当前帧信号的初始后 验信噪比;根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以 及当前帧信号的初始后验信噪比,估算所述当前帧信号的初始先验信噪比;根据所述初始 后验信噪比、初始先验信噪比以及所述当前信号帧的语音不存在概率,计算得到所述当前 信号帧的语音存在概率;根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功 率谱以及所述当前帧信号的含噪语音信号功率谱,计算得到所述当前帧信号的噪声功率 谱。 可选的,所述当前信号帧的语音不存在概率基于如下步骤确定:根据所述当前信 号帧的频域幅度谱以及所述当前信号帧的的含噪语音功率谱的最小值计算得到第一判别 后验信噪比;根据所述当前信号帧的含噪语音功率谱以及所述当前信号帧的的含噪语音功 率谱的最小值算得到第二判别后验信噪比;根据所述第一判别后验信噪比以及所述第二判 别后验信噪比确定所述当前信号帧的语音不存在概率。 可选的,所述根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所 述当前信号帧的语音不存在概率包括:所述第一判别后验信噪比以及所述第二判别后验信 噪比越小,所述语音不存在概率越大。 可选的,所述基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函 数对所述当前信号帧的多个子带分别进行VAD处理,并根据各子带的VAD处理结果更新所述 初始全带幅度谱增益函数,以得到所述当前帧信号的更新全带幅度谱增益函数包括:对于 每一子带,根据所述子带的频域幅度谱以及所述初始全带幅度谱增益函数计算所述子带的 VAD值;根据所述子带的VAD值与预设门限值的比较结果,确定对所述子带的频域幅度谱进 行噪声估计时采用的优选噪声估计参数;基于所述子带对应的优选噪声估计参数对所述子 带的频域幅度谱进行噪声估计,以得到所述子带的噪声功率谱;根据所述子带的噪声功率 谱计算得到所述子带的幅度谱增益函数;拼接所述多个子带各自的幅度谱增益函数,以得 到所述当前帧信号的更新全带幅度谱增益函数。 可选的,所述根据所述子带的VAD值与预设门限值的比较结果,确定对所述子带的 频域幅度谱进行噪声估计时采用的优选噪声估计参数包括:根据预设噪声帧噪声估计参数 和预设语音帧噪声估计参数计算得到所述子带对应的优选噪声估计参数,其中,所述预设 噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参 数中的占比根据所述子带的VAD值与预设门限值的比较结果确定。 可选的,所述预设门限值包括上门限和下门限,所述预设噪声帧噪声估计参数和 预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子 带的VAD值与预设门限值的比较结果确定包括:若所述子带的VAD值小于所述下门限,则所 述子带对应的优选噪声估计参数中预设噪声帧噪声估计参数的占比更大;若所述子带的 6 CN 111554315 A 说 明 书 3/13 页 VAD值大于所述上门限,则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数 的占比更大;若所述子带的VAD值落入所述下门限和上门限之间,则所述子带对应的优选噪 声估计参数中预设语音帧噪声估计参数与预设噪声帧噪声估计参数的占比基本均衡。 可选的,在根据所述子带的VAD值与预设门限值的比较结果,确定对所述子带的频 域幅度谱进行噪声估计时采用的优选噪声估计参数之前,所述单通道语音增强方法还包 括:根据所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数计算得到全带的 VAD值;对于每一子带,比较计算得到的所述子带的VAD值与所述全带的VAD值;若比较结果 表明所述子带的VAD值小于所述全带的VAD值,则将所述子带的VAD值更新为所述全带的VAD 值。 可选的,所述单通道语音增强方法还包括:对所述语音增强后的频谱进行频时变 换操作以及重叠相加操作,以得到增强后的语音信号并输出。 为解决上述技术问题,本发明实施例还提供一种单通道语音增强装置,包括:获取 模块,用于基于接收到的输入信号获取当前帧信号的频域幅度谱;全带VAD模块,用于基于 所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理,以得到所述当前帧 信号的初始全带幅度谱增益函数;子带VAD模块,用于将所述全带划分为多个子带,基于所 述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号帧的多个 子带分别进行VAD处理,并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数, 以得到所述当前帧信号的更新全带幅度谱增益函数;处理模块,用于根据所述当前帧信号 的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。 为解决上述技术问题,本发明实施例还提供一种存储介质,其上存储有计算机指 令,所述计算机程序被处理器运行时执行上述方法的步骤。 为解决上述技术问题,本发明实施例还提供一种终端,包括存储器和处理器,所述 存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序 时执行上述方法的步骤。 现有技术相比,本发明实施例的技术方案具有以下有益效果: 本发明实施例提供一种单通道语音增强方法,包括:基于接收到的输入信号获取 当前帧信号的频域幅度谱;基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进 行VAD处理,以得到所述当前帧信号的初始全带幅度谱增益函数;将所述全带划分为多个子 带,基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号 帧的多个子带分别进行VAD处理,并根据各子带的VAD处理结果更新所述初始全带幅度谱增 益函数,以得到所述当前帧信号的更新全带幅度谱增益函数;根据所述当前帧信号的频域 幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。 较之现有将单帧信号简单区分为纯噪声帧或者语音帧,仅在纯噪声帧进行噪声估 计,并根据噪声估计结果增强语音帧的技术方案,本实施例方案能够有效抑制非平稳噪声 并保护语音质量不受损失,利于提高手机等移动设备的语音通话质量。具体而言,本实施例 方案对含噪语音数据使用全带VAD和子带VAD相结合的方式进行噪声谱的估计。对于输入信 号的每一帧信号,首先基于全带VAD得到初步的幅度谱增益函数(即初始全带幅度谱增益函 数),然后对该帧信号的多个子带分别进行VAD处理。对于每一子带,根据该子带的VAD处理 结果调整初始全带幅度谱增益函数中该子带对应的那部分数据。由此,最终得到的更新全 7 CN 111554315 A 说 明 书 4/13 页 带幅度谱增益函数能够更精准的表征输入信号的单帧信号中不同频段的数据特征,使得有 针对性的抑制单帧信号中的局部频段噪声成为可能。 例如,单帧信号中被识别为噪声的部分频段对应的更新全带幅度谱增益函数,可 以小于单帧信号中被识别为语音的部分频段对应的更新全带幅度谱增益函数。由此,语音 增强时被识别为噪声的部分频段的信号被抑制的更多,使得单帧信号中部分频段上的语音 数据也能被有效识别并增强,利于确保语音完整性。 进一步,本实施例方案适用于非平稳噪声环境中免提通话模式下的单通道语音增 强场景,对低信噪比的含噪语音信号增强效果显著。本实施例方案能够实时地对非平稳噪 声进行估计并进行噪声抑制,同时保证通话者的语音质量清晰可懂,从而达到提升语音通 话主观感受的目的。 进一步,在对当前帧信号的频域幅度谱进行噪声估计,以得到所述当前帧信号的 噪声功率谱时,根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度 谱,计算得到所述当前帧信号的含噪语音信号功率谱;根据所述上一帧信号的含噪语音信 号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数,计算 得到所述当前信号帧的含噪语音信号功率谱的最小值;根据所述当前帧信号的含噪语音信 号功率谱以及所述上一帧信号的噪声信号功率谱,估算所述当前帧信号的初始后验信噪 比;根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前 帧信号的初始后验信噪比,估算所述当前帧信号的初始先验信噪比;根据所述初始后验信 噪比、初始先验信噪比以及所述当前信号帧的语音不存在概率,计算得到所述当前信号帧 的语音存在概率;根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以 及所述当前帧信号的含噪语音信号功率谱,计算得到所述当前帧信号的噪声功率谱。 较之现有VAD方案所采用的硬判决逻辑(即将单帧信号识别为非纯噪声帧或语音 帧),本实施例方案采用软判决逻辑,通过计算当前帧信号的语音不存在概率和语音存在概 率,使得对当前帧信号的语音活动检测结果更为准确且符合实际场景,能够保留更多的语 音细节。例如,对于低信噪比的含噪语音信号,本实施例采用的概率判断明显比传统VAD非1 即0的判断方式更为合适,利于确保语音数据的完整性,避免包含语音数据的信号帧因被误 识别为纯噪声帧而造成语音数据丢失。 附图说明 图1是本发明实施例一种单通道语音增强方法的流程图; 图2是采用图1所示方法处理输入信号的算法流程图; 图3是图1中步骤S102的一个
分享到:
收藏