logo好方法网

基于标签平滑的语音识别方法、装置、终端及介质


技术摘要:
本申请公开了一种基于标签平滑的语音识别方法,包括:获取训练数据,所述训练数据包括多个训练样本,每一个所述训练样本包括样本语音及与样本语音对应的样本识别标签;基于预设的同音字字典,对所述样本识别标签进行标签平滑处理,获取经过标签平滑处理后的样本平滑标  全部
背景技术:
随着移动互联网和人工智能技术的快速发展,语音识别在人工智能领域以及各个 领域的应用越来越多。如何提供语音识别的准确性也成为了语音识别技术中非常重要的一 个任务。但是,在相关的语音识别模型的训练方法中,训练的语音识别模型的准确率尚存在 一定的不足,尤其是在针对中文的语音识别中,出现错别字的几率较高。也就是说,相关技 术方案中的语音识别模型的训练方法存在后续的语音识别的准确率不足的问题。
技术实现要素:
基于此,有必要针对上述问题,提出了一种基于标签平滑的语音识别方法、装置、 智能终端及计算机可读存储介质。 在本申请的第一方面,提出了一种基于标签平滑的语音识别方法。 一种基于标签平滑的语音识别方法,包括: 获取训练数据,所述训练数据包括多个训练样本,每一个所述训练样本包括样本 语音及与样本语音对应的样本识别标签; 基于预设的同音字字典,对所述样本识别标签进行标签平滑处理,获取经过标签 平滑处理后的样本平滑标签; 根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练,并基于预设 的损失函数,计算与所述训练样本对应的损失值; 根据损失值进行反向传播,以完成对所述预设的语音识别模型的训练。 在本申请的第二方面,提出了一种基于标签平滑的语音识别装置。 一种基于标签平滑的语音识别装置,包括: 训练数据获取模块,用于获取训练数据,所述训练数据包括多个训练样本,每一个 所述训练样本包括样本语音及与样本语音对应的样本识别标签; 标签平滑处理模块,用于基于预设的同音字字典,对所述样本识别标签进行标签 平滑处理,获取经过标签平滑处理后的样本平滑标签; 损失值计算模块,用于根据训练样本和所述样本平滑标签对预设的语音识别模型 进行训练,并基于预设的损失函数,计算与所述训练样本对应的损失值; 反向传播训练模块,用于根据损失值进行反向传播,以完成对所述预设的语音识 别模型的训练。 在本申请的第三方面,提出了一种智能终端。 一种智能终端,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机 程序被所述处理器执行时,使得所述处理器执行以下步骤: 4 CN 111583911 A 说 明 书 2/12 页 获取训练数据,所述训练数据包括多个训练样本,每一个所述训练样本包括样本 语音及与样本语音对应的样本识别标签; 基于预设的同音字字典,对所述样本识别标签进行标签平滑处理,获取经过标签 平滑处理后的样本平滑标签; 根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练,并基于预设 的损失函数,计算与所述训练样本对应的损失值; 根据损失值进行反向传播,以完成对所述预设的语音识别模型的训练。 在本申请的第四方面,提出了一种计算机可读存储介质。 一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时, 使得所述处理器执行以下步骤: 获取训练数据,所述训练数据包括多个训练样本,每一个所述训练样本包括样本 语音及与样本语音对应的样本识别标签; 基于预设的同音字字典,对所述样本识别标签进行标签平滑处理,获取经过标签 平滑处理后的样本平滑标签; 根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练,并基于预设 的损失函数,计算与所述训练样本对应的损失值; 根据损失值进行反向传播,以完成对所述预设的语音识别模型的训练。 实施本申请实施例,将具有如下有益效果: 采用了上述基于标签平滑的语音识别方法、装置、智能终端及计算机可读存储介 质之后,在通过训练样本对语音识别模型进行训练的过程中,针对训练样本对应的样本识 别标签基于预设的同音字字典进行标签平滑处理,以得到对应的样本平滑标签;然后通过 训练样本和样本平滑标签对语音识别模型进行训练,在这个过程中,基于预设的损失函数 计算对应的损失值,并基于损失值进行反向传播以完成对语音识别模型的训练。其中,对训 练样本的标签平滑考虑了同音字,通过同音字的使得同音字相比于其他非同音字具有较高 的概率,从而提高了包含同音字的中文的语音识别的准确性,提高了语音识别整体的准确 度。 进一步的,在本实施例中,对于损失值的计算过程中,在损失函数中除了用交叉熵 度量损失值之外,还增加了可以度量语音识别模型的测试识别标签和样本平滑标签之间的 差异的KL距离作为罚项,通过上述损失值计算方式得到的损失值,可以更好的完成对语音 识别模型的训练,以提高语音识别模型的训练效果,提高后续的语音识别的精准度。 附图说明 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 其中: 图1为本申请的一个实施例的基于标签平滑的语音识别方法的应用环境图; 图2为本申请的一个实施例的一种基于标签平滑的语音识别方法的流程示意图; 5 CN 111583911 A 说 明 书 3/12 页 图3为本申请的一个实施例的对样本识别标签进行标签平滑处理的过程的流程示 意图; 图4为本申请的一个实施例中语音识别模型的结构示意图; 图5为本申请的一个实施例中损失值计算过程的流程示意图; 图6为本申请的一个实施例中一种基于标签平滑的语音识别方法的结构示意图; 图7为本申请的一个实施例中损失值计算模块的结构示意图; 图8为本申请的一个实施例中标签平滑处理模块的结构示意图; 图9为本申请的一个实施例的运行上述基于标签平滑的语音识别方法的计算机设 备的结构示意图; 图10为本申请的一个实施例中一种智能终端的结构示意图; 图11为本申请的一个实施例中一种非暂时性计算机可读存储介质的结构示意图。
分享到:
收藏