logo好方法网

信息处理方法、装置及存储介质


技术摘要:
本公开是关于一种信息处理方法、装置及存储介质。包括:获取当前音频,并得到当前音频对应的当前文本;基于语义分析模型所包含的语音特征提取部分对当前音频进行特征提取,获取当前音频的语音特征;基于语义分析模型所包含的文本特征提取部分对当前文本进行特征提取,  全部
背景技术:
在人机对话的过程中,全双工主要是指为了达到流畅、自然以及拟人化对话体验 而使用的技术手段。目前,全双工技术可以应用于音频交互中的“一次唤醒,连续对话”、“边 听边说,随时打断”等各个应用场景,以使音频交互的过程更加流畅。 目前,音频交互技术已经能够应用于各种不同的电子设备,例如,移动终端、电视、 智能音箱等。在基于电子设备进行音频交互的过程中,电子设备接收到的音频请求量极大, 但并不是所有接收到的音频请求都是用户真实想要表达的请求,这时,可能会存在误唤醒、 对接收到无关的音频请求以及用户无意识的自言自语进行响应等误响应的情况。
技术实现要素:
本公开提供一种信息处理方法、装置及存储介质。 根据本公开实施例的第一方面,提供一种信息处理方法,应用于电子设备,包括: 获取当前音频,并得到所述当前音频对应的当前文本; 基于语义分析模型所包含的语音特征提取部分对所述当前音频进行特征提取,获 取所述当前音频的语音特征; 基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特征提 取,获取所述当前文本的文本特征; 利用语义分析模型所包含的分类部分对所述语音特征和所述文本特征进行语义 分类处理,得到分类结果; 当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝识别所述当前音 频。 可选的,所述利用语义分析模型所包含的分类部分对所述语音特征和所述文本特 征进行语义分类处理,得到分类结果,包括: 对表征所述语音特征的语音特征向量,以及表征所述文本特征的文本特征向量进 行拼接处理,得到输入所述分类部分的拼接特征向量; 利用所述分类部分对所述拼接特征向量进行语义分类处理,得到所述分类结果。 可选的,所述语音特征包括:语气特征、语调特征和/或语速特征。 可选的,所述方法还包括: 基于所述语音特征提取部分所包含的向量转换机制,得到表征所述语音特征的语 音特征向量; 基于所述语音特征提取部分所包含的卷积核与所述语音特征向量进行卷积计算, 得到卷积运算值; 利用所述语音特征提取部分的池化层对所述卷积运算值进行处理,提取出所述语 5 CN 111583907 A 说 明 书 2/13 页 音特征的特征向量。 可选的,所述文本特征包括:所述当前文本的字面含义特征和上下文特征; 所述基于所述语义分析模型所包含的文本特征提取部分对所述当前文本进行特 征提取,获取所述当前文本的文本特征,包括: 基于所述语义分析模型对所述当前文本中各字词进行语义分析,得到所述各字词 的字面含义特征; 获取所述文本特征提取部分对所述当前文本的相邻文本提取的特征,作为所述上 下文特征。 可选的,所述方法还包括: 基于所述当前文本,从知识图谱中确定出与所述当前文本相关联的知识数据,得 到知识数据特征; 利用所述分类部分对所述语音特征、所述文本特征、以及所述知识数据特征进行 语义分类处理,得到分类结果。 根据本公开实施例的第二方面,提供一种信息处理装置,应用于电子设备,包括: 文本获取模块,配置为获取当前音频,并得到所述当前音频对应的当前文本; 语音提取模块,配置为基于语义分析模型所包含的语音特征提取部分对所述当前 音频进行特征提取,获取所述当前音频的语音特征; 文本提取模块,配置为基于所述语义分析模型所包含的文本特征提取部分对所述 当前文本进行特征提取,获取所述当前文本的文本特征; 第一分类模块,配置为利用语义分析模型所包含的分类部分对所述语音特征和所 述文本特征进行语义分类处理,得到分类结果; 拒识模块,配置为当所述分类结果表明所述当前音频为拒绝识别的音频时,拒绝 识别所述当前音频。 可选的,所述第一分类模块,包括: 拼接子模块,配置为对表征所述语音特征的语音特征向量,以及表征所述文本特 征的文本特征向量进行拼接处理,得到输入所述分类部分的拼接特征向量; 分类子模块,配置为利用所述分类部分对所述拼接特征向量进行语义分类处理, 得到所述分类结果。 可选的,所述语音特征包括:语气特征、语调特征和/或语速特征。 可选的,所述装置还包括: 转换模块,配置为基于所述语音特征提取部分所包含的向量转换机制,得到表征 所述语音特征的语音特征向量; 卷积计算模块,配置为基于所述语音特征提取部分所包含的卷积核与所述语音特 征向量进行卷积计算,得到卷积运算值; 提取模块,配置为利用所述语音特征提取部分的池化层对所述卷积运算值进行处 理,提取出所述语音特征的特征向量。 可选的,所述文本特征包括:所述当前文本的字面含义特征和上下文特征; 所述文本提取模块,包括: 分析子模块,配置为基于所述语义分析模型对所述当前文本中各字词进行语义分 6 CN 111583907 A 说 明 书 3/13 页 析,得到所述各字词的字面含义特征; 提取子模块,配置为获取所述文本特征提取部分对所述当前文本的相邻文本提取 的特征,作为所述上下文特征。 可选的,所述装置还包括: 确定模块,配置为基于所述当前文本,从知识图谱中确定出与所述当前文本相关 联的知识数据,得到知识数据特征; 第二分类模块,配置为利用所述分类部分对所述语音特征、所述文本特征、以及所 述知识数据特征进行语义分类处理,得到分类结果。 根据本公开实施例的第三方面,提供一种信息处理装置,包括: 处理器; 配置为存储处理器可执行指令的存储器; 其中,所述处理器配置为:执行时实现上述第一方面中的信息处理方法中的步骤。 根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述 存储介质中的指令由信息处理装置的处理器执行时,使得所述装置能够执行上述第一方面 中的信息处理方法中的步骤。 本公开的实施例提供的技术方案可以包括以下有益效果: 由上述实施例可知,本公开在人机交互前,可以根据获取的当前音频得到对应的 当前文本,基于语义分析模型对从当前音频提取出的语音特征和从当前文本提取出的文本 特征进行语义分类得到分类结果,并在分类结果表征当前音频为拒绝识别的音频时,拒绝 识别当前音频。 本公开中的技术方案,第一方面,可以将语义分析模型所包含的语音特征提取部 分、文本特征提取部分和分类部分作为三个相互独立的部分,相较于仅基于一个网络模型 既进行语音特征的提取,又进行文本特征的提取,本公开实施例中能够基于各个独立的部 分使语音特征和文本特征的提取并行进行,能够提高语义分析模型对数据的处理速度;第 二方面,通过同时对语音特征和文本特征进行分析处理,相较于仅对文本或者语音进行语 义分析,能够将对语音进行分析的结果和对文本进行分析的结果相结合,能更加精确地确 定出当前音频所要表达的含义,以使所提取的特征精确度更高,进而确定出准确的分类结 果,减少误响应的概率;第三方面,不需要对拒绝识别的当前音频进行响应,不仅能够降低 误响应的概率,还能够减少不必要的语义分析过程。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本公开。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并与说明书一起用于解释本发明的原理。 图1是根据一示例性实施例示出的一种信息处理方法的流程图。 图2A是根据一示例性实施例示出的另一种信息处理方法的流程图。 图2B是根据一示例性实施例示出的一种模型结构示意图。 图3是根据一示例性实施例示出的一种信息处理方法所涵盖的维度示意图。 7 CN 111583907 A 说 明 书 4/13 页 图4是根据一示例性实施例示出的基于音频文件得到拒识/响应结果的示意图。 图5是根据一示例性实施例示出的全双工整体架构示意图。 图6是根据一示例性实施例示出的信息处理装置框图。 图7是根据一示例性实施例示出的一种信息处理装置的硬件结构框图。
分享到:
收藏