单通道语音增强方法及装置、存储介质、终端-好方法网

技术摘要：
一种单通道语音增强方法及装置、存储介质、终端，所述方法包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于当前帧信号的频域幅度谱对当前帧信号的全带进行VAD处理，以得到当前帧信号的初始全带幅度谱增益函数；将全带划分为多个子带，基于当前帧信号的频域全部
背景技术：
随着手机等移动设备的普及以及移动网络的建设发展，用户对语音通话的质量也有了越来越高的要求。在进行语音通话时，近端讲话者往往置身于嘈杂的背景环境中，环境中的噪声会污染有用的语音信息。如果含有噪声的上行语音信号不进行处理，将对远端接收者造成很大的困扰，使其无法准确掌握语音的含义。此外，还有一些情况下，近端讲话者不仅身处噪声环境，在通话时还会开启免提通话模式。例如，司机在车内驾驶过程中开启免提通话、儿童在商场中使用电话手表进行通话等场景。不同于手持模式，免提通话时因为嘴巴与通话设备的麦克风距离较远，麦克风接收到的含噪语音信号的信噪比相比手持模式会更低，这就导致远端接收者更加难以听清楚语音的内容。针对噪声环境下的免提通话模式，需要使用有效的语音增强算法对近端含噪语音进行噪声抑制，将处理后的清晰语音作为上行信号传送，从而提升语音通话质量。但是，现有的语音增强技术在非平稳噪声以及免提通话场景中的表现不尽如人意，降噪效果差，严重影响语音通话质量。
技术实现要素：
本发明解决的技术问题是如何更有效地提高语音通话质量。为解决上述技术问题，本发明实施例提供一种单通道语音增强方法，包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号帧的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。可选的，所述基于接收到的输入信号获取当前帧信号的频域幅度谱包括：对所述输入信号进行时域上的分帧操作；对分帧得到的当前帧信号进行时频变换操作，以得到所述当前帧信号的频域幅度谱。可选的，所述基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行 VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数包括：对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱；根据所述噪声功率谱计算 5 CN 111554315 A 说　明　书 2/13 页得到所述当前帧信号的初始全带幅度谱增益函数。可选的，所述对所述当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱包括：根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱；根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前信号帧的含噪语音信号功率谱的最小值；根据所述当前帧信号的含噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述初始后验信噪比、初始先验信噪比以及所述当前信号帧的语音不存在概率，计算得到所述当前信号帧的语音存在概率；根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。可选的，所述当前信号帧的语音不存在概率基于如下步骤确定：根据所述当前信号帧的频域幅度谱以及所述当前信号帧的的含噪语音功率谱的最小值计算得到第一判别后验信噪比；根据所述当前信号帧的含噪语音功率谱以及所述当前信号帧的的含噪语音功率谱的最小值算得到第二判别后验信噪比；根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前信号帧的语音不存在概率。可选的，所述根据所述第一判别后验信噪比以及所述第二判别后验信噪比确定所述当前信号帧的语音不存在概率包括：所述第一判别后验信噪比以及所述第二判别后验信噪比越小，所述语音不存在概率越大。可选的，所述基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号帧的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数包括：对于每一子带，根据所述子带的频域幅度谱以及所述初始全带幅度谱增益函数计算所述子带的 VAD值；根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数；基于所述子带对应的优选噪声估计参数对所述子带的频域幅度谱进行噪声估计，以得到所述子带的噪声功率谱；根据所述子带的噪声功率谱计算得到所述子带的幅度谱增益函数；拼接所述多个子带各自的幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数。可选的，所述根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数包括：根据预设噪声帧噪声估计参数和预设语音帧噪声估计参数计算得到所述子带对应的优选噪声估计参数，其中，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定。可选的，所述预设门限值包括上门限和下门限，所述预设噪声帧噪声估计参数和预设语音帧噪声估计参数各自在计算得到的所述优选噪声估计参数中的占比根据所述子带的VAD值与预设门限值的比较结果确定包括：若所述子带的VAD值小于所述下门限，则所述子带对应的优选噪声估计参数中预设噪声帧噪声估计参数的占比更大；若所述子带的 6 CN 111554315 A 说　明　书 3/13 页 VAD值大于所述上门限，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数的占比更大；若所述子带的VAD值落入所述下门限和上门限之间，则所述子带对应的优选噪声估计参数中预设语音帧噪声估计参数与预设噪声帧噪声估计参数的占比基本均衡。可选的，在根据所述子带的VAD值与预设门限值的比较结果，确定对所述子带的频域幅度谱进行噪声估计时采用的优选噪声估计参数之前，所述单通道语音增强方法还包括：根据所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数计算得到全带的 VAD值；对于每一子带，比较计算得到的所述子带的VAD值与所述全带的VAD值；若比较结果表明所述子带的VAD值小于所述全带的VAD值，则将所述子带的VAD值更新为所述全带的VAD 值。可选的，所述单通道语音增强方法还包括：对所述语音增强后的频谱进行频时变换操作以及重叠相加操作，以得到增强后的语音信号并输出。为解决上述技术问题，本发明实施例还提供一种单通道语音增强装置，包括：获取模块，用于基于接收到的输入信号获取当前帧信号的频域幅度谱；全带VAD模块，用于基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；子带VAD模块，用于将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号帧的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；处理模块，用于根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机程序被处理器运行时执行上述方法的步骤。为解决上述技术问题，本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。现有技术相比，本发明实施例的技术方案具有以下有益效果：本发明实施例提供一种单通道语音增强方法，包括：基于接收到的输入信号获取当前帧信号的频域幅度谱；基于所述当前帧信号的频域幅度谱对所述当前帧信号的全带进行VAD处理，以得到所述当前帧信号的初始全带幅度谱增益函数；将所述全带划分为多个子带，基于所述当前帧信号的频域幅度谱以及所述初始全带幅度谱增益函数对所述当前信号帧的多个子带分别进行VAD处理，并根据各子带的VAD处理结果更新所述初始全带幅度谱增益函数，以得到所述当前帧信号的更新全带幅度谱增益函数；根据所述当前帧信号的频域幅度谱以及所述更新全带幅度谱增益函数计算得到语音增强后的频谱。较之现有将单帧信号简单区分为纯噪声帧或者语音帧，仅在纯噪声帧进行噪声估计，并根据噪声估计结果增强语音帧的技术方案，本实施例方案能够有效抑制非平稳噪声并保护语音质量不受损失，利于提高手机等移动设备的语音通话质量。具体而言，本实施例方案对含噪语音数据使用全带VAD和子带VAD相结合的方式进行噪声谱的估计。对于输入信号的每一帧信号，首先基于全带VAD得到初步的幅度谱增益函数(即初始全带幅度谱增益函数)，然后对该帧信号的多个子带分别进行VAD处理。对于每一子带，根据该子带的VAD处理结果调整初始全带幅度谱增益函数中该子带对应的那部分数据。由此，最终得到的更新全 7 CN 111554315 A 说　明　书 4/13 页带幅度谱增益函数能够更精准的表征输入信号的单帧信号中不同频段的数据特征，使得有针对性的抑制单帧信号中的局部频段噪声成为可能。例如，单帧信号中被识别为噪声的部分频段对应的更新全带幅度谱增益函数，可以小于单帧信号中被识别为语音的部分频段对应的更新全带幅度谱增益函数。由此，语音增强时被识别为噪声的部分频段的信号被抑制的更多，使得单帧信号中部分频段上的语音数据也能被有效识别并增强，利于确保语音完整性。进一步，本实施例方案适用于非平稳噪声环境中免提通话模式下的单通道语音增强场景，对低信噪比的含噪语音信号增强效果显著。本实施例方案能够实时地对非平稳噪声进行估计并进行噪声抑制，同时保证通话者的语音质量清晰可懂，从而达到提升语音通话主观感受的目的。进一步，在对当前帧信号的频域幅度谱进行噪声估计，以得到所述当前帧信号的噪声功率谱时，根据上一帧信号的含噪语音信号功率谱以及所述当前帧信号的频域幅度谱，计算得到所述当前帧信号的含噪语音信号功率谱；根据所述上一帧信号的含噪语音信号功率谱的最小值、所述当前帧信号的含噪语音信号功率谱以及预设噪声估计参数，计算得到所述当前信号帧的含噪语音信号功率谱的最小值；根据所述当前帧信号的含噪语音信号功率谱以及所述上一帧信号的噪声信号功率谱，估算所述当前帧信号的初始后验信噪比；根据所述上一帧信号的幅度谱增益函数、所述上一帧信号的优选后验信噪比以及当前帧信号的初始后验信噪比，估算所述当前帧信号的初始先验信噪比；根据所述初始后验信噪比、初始先验信噪比以及所述当前信号帧的语音不存在概率，计算得到所述当前信号帧的语音存在概率；根据所述当前帧信号的语音存在概率、所述上一帧信号的噪声功率谱以及所述当前帧信号的含噪语音信号功率谱，计算得到所述当前帧信号的噪声功率谱。较之现有VAD方案所采用的硬判决逻辑(即将单帧信号识别为非纯噪声帧或语音帧)，本实施例方案采用软判决逻辑，通过计算当前帧信号的语音不存在概率和语音存在概率，使得对当前帧信号的语音活动检测结果更为准确且符合实际场景，能够保留更多的语音细节。例如，对于低信噪比的含噪语音信号，本实施例采用的概率判断明显比传统VAD非1 即0的判断方式更为合适，利于确保语音数据的完整性，避免包含语音数据的信号帧因被误识别为纯噪声帧而造成语音数据丢失。附图说明图1是本发明实施例一种单通道语音增强方法的流程图；图2是采用图1所示方法处理输入信号的算法流程图；图3是图1中步骤S102的一个

相关推荐