
技术摘要:
本发明公开了一种语音识别方法和装置以及设备。其中,所述方法包括:获取用户的注册语音数据,和将该注册语音数据剪切成预设段数,和将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和构建基 全部
背景技术:
现代科学研究表明,语音不仅具有特定性,而且有相对稳定性的特点。成年以后, 人的语音可保持长期相对稳定不变。实验证明,每个人的语音各不相同,无论讲话者是故意 模仿他人语音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其语音却始终不同。 在现实生活的很多场景中,经常需要对用户进行语音识别例如通过语音识别来登 录应用程序或通过语音识别来登录终端设备等,但是会有一些不法人员通过将非本人的其 他用户的语音进行剪切,进而拼接出特定的语音内容的拼接语音,试图采用该拼接语音来 仿冒真实用户的身份来进行语音验证,以此来非法获取利益或者进行一些非法操作等,无 法保障语音识别的安全性。 然而,现有的语音识别方案无法实现对拼接语音的识别,无法保障语音识别的安 全性。
技术实现要素:
有鉴于此,本发明的目的在于提出一种语音识别方法和装置以及设备,能够实现 对拼接语音的识别,能够保障语音识别的安全性。 根据本发明的一个方面,提供一种语音识别方法,包括:获取用户的注册语音数 据;将所述注册语音数据剪切成预设段数;将所述剪切成预设段数的语音数据分别拼接成 原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据; 构建基于所述三种拼接语音数据的语音三分类模型;对所述语音三分类模型进行拼接语音 识别的训练;根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据 进行拼接语音的识别。 其中,所述构建基于所述三种拼接语音数据的语音三分类模型,包括:采用分别调 用所述三种拼接语音数据的声纹特征和音调特征,和分别对所述声纹特征和音调特征进行 卷积神经网络和线性预测分析,并将所述经卷积神经网络和所述线性预测分析后的声纹特 征和音调特征分别置入所述三种拼接语音数据来替换原声纹特征和原音调特征的方式,构 建基于所述三种拼接语音数据的语音三分类模型。 其中,所述对所述语音三分类模型进行拼接语音识别的训练,包括:采用通过特征 归一化对所述语音三分类模型进行归一化操作,和通过长短期记忆网络对所述经归一化操 作后的语音三分类模型进行拼接语音识别的训练。 其中,所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语 音数据进行拼接语音的识别,包括:根据所述经拼接语音识别的训练后的语音三分类模型, 采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据 特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。 4 CN 111599351 A 说 明 书 2/8 页 其中,在所述根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的 语音数据进行拼接语音的识别之后,还包括:消除所述经拼接语音识别的训练后的语音三 分类模型中的噪声。 根据本发明的另一个方面,提供一种语音识别装置,包括:获取模块、剪切模块、拼 接模块、构建模块、训练模块和识别模块;所述获取模块,用于获取用户的注册语音数据;所 述剪切模块,用于将所述注册语音数据剪切成预设段数;所述拼接模块,用于将所述剪切成 预设段数的语音数据分别拼接成原顺序拼接语音数据和反顺序拼接语音数据和乱顺序拼 接语音数据共三种拼接语音数据;所述构建模块,用于构建基于所述三种拼接语音数据的 语音三分类模型;所述训练模块,用于对所述语音三分类模型进行拼接语音识别的训练;所 述识别模块,用于根据所述经拼接语音识别的训练后的语音三分类模型,对待识别的语音 数据进行拼接语音的识别。 其中,所述构建模块,具体用于:采用分别调用所述三种拼接语音数据的声纹特征 和音调特征,和分别对所述声纹特征和音调特征进行、卷积神经网络和线性预测分析,并将 所述经卷积神经网络和所述线性预测分析后的声纹特征和音调特征分别置入所述三种拼 接语音数据来替换原声纹特征和原音调特征的方式,构建基于所述三种拼接语音数据的语 音三分类模型。 其中,所述训练模块,具体用于:采用通过特征归一化对所述语音三分类模型进行 归一化操作,和通过长短期记忆网络对所述经归一化操作后的语音三分类模型进行拼接语 音识别的训练。 其中,所述识别模块,具体用于:根据所述经拼接语音识别的训练后的语音三分类 模型,采用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音 数据特征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别。 其中,所述语音识别装置,还包括:消除模块;所述消除模块,用于消除所述经拼接 语音识别的训练后的语音三分类模型中的噪声。 根据本发明的又一个方面,提供一种语音识别设备,其特征在于,包括:至少一个 处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所 述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个 处理器能够执行如上述任一项所述的语音识别方法。 根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,其 特征在于,所述计算机程序被处理器执行时实现如上述任一项所述的语音识别方法。 可以发现,以上方案,可以获取用户的注册语音数据,和可以将该注册语音数据剪 切成预设段数,和可以将该剪切成预设段数的语音数据分别拼接成原顺序拼接语音数据和 反顺序拼接语音数据和乱顺序拼接语音数据共三种拼接语音数据,和可以构建基于该三种 拼接语音数据的语音三分类模型,和可以对该语音三分类模型进行拼接语音识别的训练, 以及可以根据该经拼接语音识别的训练后的语音三分类模型,对待识别的语音数据进行拼 接语音的识别,能够实现对拼接语音的识别,能够保障语音识别的安全性。 进一步的,以上方案,可以采用分别调用该三种拼接语音数据的声纹特征和音调 特征,和分别对该声纹特征和音调特征进行卷积神经网络和线性预测分析,并将该经卷积 神经网络和该线性预测分析后的声纹特征和音调特征分别置入该三种拼接语音数据来替 5 CN 111599351 A 说 明 书 3/8 页 换原声纹特征和原音调特征的方式,构建基于该三种拼接语音数据的语音三分类模型,这 样的好处是因为该经卷积神经网络和该线性预测分析能够根据声纹特征和音调特征预测 语音数据的上下文信息,能够实现通过该语音三分类模型提高对语音数据的上下文信息的 预测,进而能够提高对语音数据进行拼接语音的识别的准确率。 进一步的,以上方案,可以采用通过特征归一化对该语音三分类模型进行归一化 操作,和通过长短期记忆网络对该经归一化操作后的语音三分类模型进行拼接语音识别的 训练,这样的好处是能够实现通过归一化操作使得该语音三分类模型待识别的语音数据被 限定在预设的的范围内,从而能够消除待识别的语音数据的奇异样本数据导致的不良影 响,而且经该长短期记忆网络训练后的语音三分类模型能够使待识别的语音数据的特征更 加突出,能够提高对语音数据进行拼接语音的识别的准确率。 进一步的,以上方案,可以根据该经拼接语音识别的训练后的语音三分类模型,采 用检测待识别的语音数据中是否存在原顺序拼接语音数据数据或反顺序拼接语音数据特 征或乱顺序拼接语音数据特征的方式,对待识别的语音数据进行拼接语音的识别,能够实 现对拼接语音的识别,能够保障语音识别的安全性。 进一步的,以上方案,可以消除该经拼接语音识别的训练后的语音三分类模型中 的噪声,这样的好处是能够实现提高对语音数据进行拼接语音的识别的准确率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1是本发明语音识别方法一实施例的流程示意图; 图2是本发明语音识别方法另一实施例的流程示意图; 图3是本发明语音识别装置一实施例的结构示意图; 图4是本发明语音识别装置另一实施例的结构示意图; 图5是本发明语音识别设备一实施例的结构示意图。