
技术摘要:
本发明公开了基于层次分类的意图识别装置、方法、设备及存储介质,该方法包括:获取对话文本;对所述对话文本中的问句处理,并提取句子向量;将问句的句子向量输入至预先训练得到的主题分类模型进行主题分类计算,得到输入问句属于各个主题的概率值,按照大小对概率值 全部
背景技术:
网上购物中通常需要询问机器人交易各个环节遇到的问题,在高峰期由于咨询人 数较多,需要机器人客服来辅助真人客服回答用户的问题。机器人客服的在应答过程中需 要对用户咨询问题的意图进行识别,目前业界采用的手段主要借助深度学习技术,构建意 图识别模型。 构建过程包含:1、训练数据集构建,2、模型训练两个过程。在构建训练数据集时, 我们会根据该店铺的业务提前制定数百或者上千种语义,具体来讲语义指的是预先确定好 的电商客服对话场景中客户会问客服的问题类别,比如:询问发货时间,询问是否有赠品, 询问价格,询问物流等,然后人工智能训练师会基于这些语义标注训练样本,在标注的时候 将用户聊天语料划分到对应的语义下,如:“什么时候发货”,“好久发货”都会被划分到“询 问发货时间”这个语义下。这样在“询问发货时间”这个语义下会有非常丰富的问法都表示 “询问发货时间”这个语义,同理其他语义标注过程也是这样,模型训练的时候学习不同问 法和所对应的语义,这样在模型执行预测的时候能够将训练时候见过的问法,或者相似的 问法划分到正确的语义下面,每个语义会对应一个回复答案,提前配置好语义对应的机器 人回复内容,这样实现了机器人自动应答的过程。 但是由于业务场景的复杂性,商品多样性,往往需要制定大量的语义来覆盖用户 可能提到的问题,这样会存在一个问题,某些语义之间相似性过高会导致区分的边界会变 模糊,比如一个卖家同时卖洗衣机和电饭煲,存在如下两个语义:“洗衣机加多少升水”,“电 饭煲加多少水”。都涉及到加水的动作,用户如果直接问“可以加多少水“,模型将难以识别 具体问哪个语义。 现有的意图识别方式主要通过单一模型,直接识别用户意图,输入用户问句,输出 模型识别的语义,在语义相似度高时单个模型容易识别错误。
技术实现要素:
本发明的目的在于提供基于层次分类的意图识别装置、方法、设备及存储介质;有 效的提高了意图识别的准确性。 本发明通过下述技术方案实现: 一种基于层次分类的意图识别方法,包括: 获取对话文本; 对所述对话文本中的问句处理,并提取句子向量; 将问句的句子向量输入至预先训练得到的主题分类模型进行主题分类计算,得到输入 问句属于各个主题的概率值,按照大小对概率值进行排序,取识别概率前五的识别结果作 4 CN 111597320 A 说 明 书 2/6 页 为备选识别主题;其中每个问句的主题都会有一个概率值; 将问句的句子向量输入至与备选识别主题对应的五个精准意图识别模型中,得到五个 精准意图识别模型的意图识别结果; 综合问句通过主题分类模型的概率以及精准意图识别模型的概率得到最终意图识别 结果。 进一步地,为了更好的实现本发明,在句子向量输入至预先训练的主题识别模型 之前,还包括: 获取训练样本集;所述训练样本集包括主题模型训练数据集和精准意图训练数据集; 将主题模型训练数据集输入到机器学习模型,对所述机器学习模型进行训练,得到所 述的主题分类模型; 将精准意图训练数据集输入到机器学习模型,对所述机器学习模型进行训练,得到所 述的精准意图分类模型; 进一步地,为了更好的实现本发明,具体是指:所述获取训练样本集具体包括以下步 骤: 抽取电商场景对话中的问题进行标注,将其标注为主题和语义; 对标注的问句进行数值转换,得到长度向量;并最终获得训练样本集; 进一步地,为了更好的实现本发明,所述对标注的问句进行数值转换,得到长度向量; 并最终获得训练样本集;具体包括以下步骤: 定义生成汉字到数字的映射表,将不同的汉字对应到一个数字上,每个汉字都有唯一 的数字对应,对应关系为汉字对应其排序后的序号; 根据映射表将每个问句转换成一个具有长度的向量; 将问句处理为具有多个向量的矩阵; 将标注的主题和语义分别进行数值转化,每种主题和语义分别对应一个唯一数字,得 到[问句向量,主题数值,语义数值]组成的训练样本,所有标注好的问句组成一个训练样本 集; 所述主题模型训练数据集为[问句向量,主题数值]形成的主题样本集; 所述精准意图训练数据集为[问句向量,语义数值]形成的语义样本集。 进一步地,为了更好的实现本发明,所述主题分类模型和精准意图分类模型均采 用深度学习中的多层神经网络构建;所述精准意图分离模型的为多个且与标注主题的类型 对应设置。 一种基于层次分类的意图识别装置,包括: 信息获取模块:用于获取对话文本; 数据预处理模块:对所述对话文本中的问句处理,并提取句子向量; 主题分类模块:预测对话文本中问句属于各个主题的概率值,并排序; 精准意图识别模块:预测对话文本中问句属于语义的概率值,取概率最高的语义作为 语义识别结果; 综合预测模块:综合每个主题识别的概率值最高的对话文本为以及意图识别的概率输 出最终意图识别结果。 一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器 5 CN 111597320 A 说 明 书 3/6 页 上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述方法。 一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所 述程序代码可被处理器调用执行上述方法。 本发明与现有技术相比,具有以下优点及有益效果: (1)本发明通过主题分类模型和精确意图识别模型的相互配合,有效的减少异常识别 的情况; (2)本发明通过多个精确意图识别模型的相互配合实现概率投票机制,进一步保证了 识别结果的准确性。 附图说明 图1为本发明基于层次分类的意图识别方法的工作流程图; 图2为本发明中实施例4的工作流程示意图; 图3为本发明中基于层次分类的意图识别装置的连接关系示意图; 图4为现有技术的工作流程图。