
技术摘要:
本发明提供了一种稳定的在线多通道语音去混响方法及系统,方法包括:对输入的语音信号进行第一预处理,并将其从时域转换到频域;计算输入的语音信号的协方差矩阵;计算每帧信号对应的正则化向量;每个频带相互独立,采用递归最小二乘方法估计频域信号对应的滤波器系数 全部
背景技术:
现有技术中,室内麦克风阵列接收信号受混响影响,导致语音识别性能下降。目 前,通常采用递归最小二乘滤波方法实现语音的在线去混响,很大程度上提高了识别准确 率,然而该方法稳定性较差、易发散,实际情况下,由于语音的瞬时变化性和多样性,可能会 导致处理后的语音结果有误,从而影响语音识别结果。
技术实现要素:
本发明提供一种稳定的在线多通道语音去混响方法及系统,用以解决上述技术问 题。 一种稳定的在线多通道语音去混响方法,包括: 步骤1:对输入的语音信号进行第一预处理,并将经第一预处理后的语音信号从时 域转换到频域,获得频域信号;同时,计算输入的语音信号的协方差矩阵; 所述第一预处理包括分帧处理; 步骤2:计算所述频域信号中每帧信号对应的正则化向量;步骤3:基于每个频带相 互独立的方式,采用递归最小二乘方法估计频域信号对应的滤波器系数; 步骤4:计算通道间协方差的辅助协方差矩阵,并基于所述步骤2计算的所述正则 化向量对所述辅助协方差矩阵进行修正处理; 步骤5:基于所述协方差矩阵和修正处理后的辅助协方差矩阵,对所述滤波器系数 进行更新处理,获得新的滤波器系数,并将所述新的滤波器系数输出给滤波模块; 步骤6:所述滤波模块根据所述新的滤波器系数,对所述频域信号进行滤波处理, 得到去混响后的频域信号,并将去混响的信号从频域转换到时域,输送到语音识别系统。 优选的,所述步骤1前还包括:采用麦克风阵列获取语音信号,并将语音信号转换 为数字信号; 所述步骤1通过短时傅里叶变换将经第一预处理后的语音信号从时域转换到频 域; 所述步骤2根据麦克风个数和滤波器长度计算每帧信号对应的正则化向量; 所述步骤6通过短时傅里叶逆变换将去混响的信号从频域转换到时域。 优选的,所述麦克风阵列为线性阵列或圆形阵列或球形阵列。 优选的,所述步骤1的分帧处理中帧长为512个采样点,帧移为帧长的一半。 优选的,所述步骤4采用辅助正交变换计算通道间协方差的辅助协方差矩阵。 优选的,所述第一预处理包括依次进行:预加重处理、分帧处理、加窗处理、端点检 测,所述端点检测用于确定所述数字信号的有效信号,提取所述有效信号部分以作为第一 4 CN 111599372 A 说 明 书 2/5 页 预处理后输出的信号。 优选的,所述采用麦克风阵列获取语音信号后先进行第二预处理,再进行将所述 语音信号转换为数字信号,所述第二预处理包括:去噪处理; 所述去噪处理包括: 计算所述语音信号中相邻语音信号的相似度,根据所述相似度判断是否存在噪 音; 在存在噪音时,获取所述语音信号中包含的噪音的特征参数; 根据所述特征参数对所述语音信号进行去噪处理; 保存去噪处理后的语音信号。 优选的,所述第二预处理还包括语音增强处理,所述语音增强处理包括: 根据麦克风位置和语音信号强度确定语音源位置及方向; 增强语音源方向的语音,同时削弱非语音源方向的语音。 一种如上述任一项所述去混响方法所采用的系统,所述系统包括: 第一预处理模块,用于进行所述第一预处理; 第一变换模块,用于将经第一预处理后的语音信号从时域转换到频域; 第一计算模块,用于执行所述计算输入的语音信号的协方差矩阵; 第二计算模块,用于进行执行所述步骤2; 递归模块,用于执行所述步骤3; 第三计算模块,用于执行所述步骤4; 滤波器系数更新模块,用于执行所述步骤5; 滤波模块,用于执行所述步骤6中的对所述频域信号进行滤波处理; 第二变换模块,用于将去混响的信号从频域转换到时域。 优选的,所述系统包括: 麦克风阵列,用于获取语音信号; 第二预处理模块,输入端与所述麦克风阵列输出端连接; 音频编解码芯片,输入端与所述第二预处理模块输出端连接,输出端与所述第一 预处理模块连接。 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明 书、权利要求书、以及附图中所特别指出的结构来实现和获得。 下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。 附图说明 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实 施例一起用于解释本发明,并不构成对本发明的限制。在附图中: 图1为本发明实施例中基于一种稳定的在线多通道语音去混响方法的流程图。 图2为本发明实施例中基于一种稳定的在线多通道语音去混响系统的结构示意 图。 5 CN 111599372 A 说 明 书 3/5 页