logo好方法网

一种基于直方图匹配的自适应实例规一化语音转换方法


技术摘要:
本发明公开了一种基于直方图匹配的自适应实例规一化语音转换方法,包括:S11.将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息;S12.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理;  全部
背景技术:
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保 持语音内容不变,简单地说就是将一个说话人(称之为源)的声音,通过某种手段进行变换, 使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支, 其内容既涉及到语音学、语义学及心理声学等领域的知识,又涵盖语音信号处理领域的各 个方面,如语音的分析与合成、说话人识别、语音编码和增强等。现阶段,语音转换技术在医 疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前,语音转换可以大致分为两 类,一类是受监督的,另一类是无监督的。受监督的语音转换已经取得了较好的成果,但是 需要源语音与目标语音之间相应语音帧对齐,如果源语音与目标语音之间有巨大差异,就 无法达到较好的转换效果,这也限制了其应用推广。 如公开号为CN102737628A的专利公开了一种基于LPC及RBF神经网络的声音转换 的方法,包括以下步骤:A、对语音进行预处理;B、对浊音帧进行基频检测;C、对基频检测后 的浊音帧进行转换;D、对转换后的基频进行浊音帧参量的提取;E、对提取到的浊音帧参量 进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。上述申 请提出了一种高质量、计算量适中的语音转换技术方案,但其不足之处在于:该申请案的一 种基于LPC及RBF神经网络的声音转换的方法,将待转换语音分解成清音和浊音,又将浊音 分成基频、能量、LPC及LSF系数进行语音转换,增加了能量的测量,增大了测量难度和误差, 易造成转换后的语音质量不理想的问题。 针对上述技术问题,本发明提出一种基于直方图匹配的自适应实例规一化语音转 换方法来解决上述问题。
技术实现要素:
本发明的目的是针对现有技术的缺陷,提供了一种基于直方图匹配的自适应实例 规一化语音转换方法。 为了实现以上目的,本发明采用以下技术方案: 一种基于直方图匹配的自适应实例规一化语音转换方法,包括: S1 .将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容 信息和说话人信息; S2.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进 行均值和方差的对齐处理; S3.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解 码器进行解码,得到解码后的转换语音; 4 CN 111599368 A 说 明 书 2/6 页 S4.将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语 音。 进一步的,所述步骤S1中编码器包括内容编码器和说话人编码器。 进一步的,所述步骤S1具体为将源语音输入至内容编码器中进行编码处理,得到 语音内容信息;将目标语音输入至说话人编码器中进行编码处理,得到说话人信息。 进一步的,所述步骤S2中进行均值和方差的对齐处理是对输入的语音内容信息进 行均值和方差的对齐处理,以匹配说话人信息的均值和方差。 进一步的,所述步骤S2中对输入的语音内容信息进行均值和方差的对齐处理,表 示为: 其中,μ(c)表示语音内容信息的均值;σ(c)表示语音内容信息的方差;M表示卷积 层输出的特征映射;W表示维度。 进一步的,所述步骤S2中将得到的语音内容信息和说话人信息分别输入自适应实 例规一化AdaIN中进行均值和方差的对齐处理,表示为: 其中,AdaIN(c,s)表示语音内容信息和说话人信息输入自适应实例规一化AdaIN 进行处理的结果;σ(c)表示语音内容信息的方差;μ(c)表示语音内容信息的均值;σ(s)表示 说话人信息的方差;μ(s)表示说话人信息的均值。 进一步的,所述步骤S3中得到解码后的转换语音后还包括分别计算语音内容信息 的损失和说话人信息的损失。 进一步的,所述步骤S2之前还包括: 将说话人信息通过残差深度神经网络DNN进行处理。 进一步的,所述步骤S4中进行处理是通过计算目标语音与直方图匹配算法之间的 欧氏距离,得到直方图损失。 进一步的,所述步骤S4中进行处理后还包括将语音内容信息的损失、说话人信息 的损失、直方图损失进行转换,得到最终转换后的语音。 与现有技术相比,本发明具有以下优点: (1)通过AdaIN层的应用,可以将语音的内容信息与身份信息分开进行处理,并且 可以实现无监督的语音转换,从而解决了需要大量并行数据的弊端,使语音转换的应用范 围更加广泛与灵活。 (2)本算法在训练过程中不需要说话人标签,使得数据收集十分容易,并且即使不 提供说话人标签,说话人编码器也可以自动学习有意义的说话人嵌入,从而可以实现只训 练一个模型即可完成一对多的语音转换。 5 CN 111599368 A 说 明 书 3/6 页 (3)通过直方图进行匹配,很大程度上提高了转换系统与转换语音的性能,因为直 方图包含更多与语音相关的有效统计信息,故以此为驱动转换得到的语音在自然度与流畅 性方面质量更好。 附图说明 图1是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法流 程图; 图2是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法框 架结构图; 图3是实施例一提供的内容编码器结构图。 图4是实施例一提供的说话人编码器结构图; 图5是实施例一提供的解码器结构图。
分享到:
收藏