logo好方法网

一种用户意图识别方法、装置及电子设备


技术摘要:
本发明实施例提供了一种用户意图识别方法、装置及电子设备,获取待识别查询语句;基于聚类算法,在预先建立的用户意图分布库中,确定所述待识别查询语句所属的查询语句类别;其中,所述用户意图分布库中包括:查询语句类别,以及与各查询语句类别分别对应的用户意图;  全部
背景技术:
目前,人工智能技术飞速发展,智能终端设备也在不断普及。为提高用户体验,许 多智能终端设备都配备了语音或者文本识别功能,具体的:可以根据用户通过语音或硬件 输入设备等输入的查询语句,识别用户意图,即:理解查询语句的语义,进而了解用户需求, 为用户提供相应服务。 现阶段,用户意图识别的方法主要为:人工根据自身经验预先设置好当前场景下 的意图库,该意图库中包含不同的用户意图;当存在待识别的查询语句时,先对待识别查询 语句进行关键词提取,再将提取到的关键词与意图库中的各用户意图进行匹配,从而将意 图库中匹配成功的用户意图确定为待识别查询语句对应的用户意图。 上述方法中,意图库中的用户意图是人工根据自身经验设定的。由于人工经验具 有较强的主观性,因此,意图库中的用户意图并不一定为当前场景下可能存在的用户真实 意图;另外,某一指定场景下存在的用户真实意图通常数量较多,而上述设定的用户意图可 能仅涵盖上述用户真实意图的一小部分。也就是说,上述意图库中用户意图的准确率较低, 并且,用户意图的设定不够全面,无法反映出用户的真实意图。因此,基于上述人工设定的 意图库进行用户意图识别,识别的准确率较低。
技术实现要素:
本发明实施例的目的在于提供一种用户意图识别方法、装置及电子设备,以提高 用户意图识别的准确率。具体技术方案如下: 第一方面,本发明实施例提供了一种用户意图识别方法,包括: 获取待识别查询语句; 基于聚类算法,在预先建立的用户意图分布库中,确定所述待识别查询语句所属 的查询语句类别;其中,所述用户意图分布库中包括:查询语句类别,以及与各查询语句类 别分别对应的用户意图;所述查询语句类别是对当前场景下的查询语句样本进行聚类之后 得到的; 将与所述待识别查询语句所属的查询语句类别对应的用户意图,确定为所述待识 别查询语句的用户意图。 进一步的,所述用户意图分布库的建立过程包括: 获取当前场景下的查询语句样本; 采用聚类算法,对各查询语句样本进行类别划分,得到当前场景下包含的查询语 句类别; 针对每个查询语句类别,对该查询语句类别中包含的查询语句样本进行关键词提 4 CN 111581388 A 说 明 书 2/12 页 取,得到与该查询语句类别对应的用户意图。 进一步的,所述采用聚类算法,对各查询语句样本进行类别划分,得到当前场景下 包含的查询语句类别的步骤,包括: 对各查询语句样本进行向量化,得到各查询语句样本的样本特征向量; 采用聚类算法,对所述样本特征向量进行类别划分,得到当前场景下包含的查询 语句类别; 所述基于聚类算法,在预先建立的用户意图分布库中,确定所述待识别查询语句 所属的查询语句类别的步骤,包括: 对所述待识别查询语句进行向量化,得到待识别特征向量; 基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置 关系,在预先建立的用户意图分布库中,确定所述待识别特征向量所属的查询语句类别,作 为所述待识别查询语句所属的查询语句类别。 进一步的,所述采用聚类算法,对所述样本特征向量进行类别划分,得到当前场景 下包含的查询语句类别的步骤,包括: 从所述样本特征向量中,确定核心样本特征向量,以及与各核心样本特征向量对 应的临时聚类簇; 对所述临时聚类簇进行合并,得到聚类簇,作为当前场景下包含的查询语句类别。 进一步的,所述采用聚类算法,对各查询语句样本进行类别划分,得到当前场景下 包含的查询语句类别的步骤,包括: 对各查询语句样本进行向量化,得到各查询语句样本的样本特征向量; 采用聚类算法,对所述样本特征向量进行类别划分,得到当前场景下包含的候选 查询语句类别; 按照各候选查询语句类别中包含的查询语句样本数量从大到小的顺序,选择包含 的查询语句样本数量总和大于预设阈值的候选查询语句类别,作为当前场景下包含的查询 语句类别; 所述基于聚类算法,在预先建立的用户意图分布库中,确定所述待识别查询语句 所属的查询语句类别的步骤,包括: 对所述待识别查询语句进行向量化,得到待识别特征向量; 基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间的位置 关系,在预先建立的用户意图分布库中,确定所述待识别特征向量所属的查询语句类别,作 为所述待识别查询语句所属的查询语句类别。 进一步的,所述采用聚类算法,对所述样本特征向量进行类别划分,得到当前场景 下包含的候选查询语句类别的步骤,包括: 从所述样本特征向量中,确定核心样本特征向量,以及与各核心样本特征向量对 应的临时聚类簇; 对所述临时聚类簇进行合并,得到聚类簇,作为当前场景下包含的候选查询语句 类别。 进一步的,所述对各查询语句样本进行向量化,得到各查询语句样本的样本特征 向量的步骤,包括: 5 CN 111581388 A 说 明 书 3/12 页 采用词频逆文本频率IFIDF算法,对各查询语句样本进行向量化,得到所述各查询 语句样本的第一样本特征向量; 采用BERT模型,对所述各查询语句样本进行向量化,得到所述各查询语句样本的 第二样本特征向量; 对所述第一样本特征向量和所述第二样本特征向量进行拼接,得到所述各查询语 句样本的样本特征向量; 所述对所述待识别查询语句进行向量化,得到待识别特征向量的步骤,包括: 采用词频逆文本频率IFIDF算法,对所述待识别查询语句进行向量化,得到第一待 识别特征向量; 采用BERT模型,对所述待识别查询语句进行向量化,得到第二待识别特征向量; 对所述第一待识别特征向量和所述第二待识别特征向量进行拼接,得到待识别特 征向量。 进一步的,所述获取待识别查询语句的步骤,包括: 获取待识别语音数据; 对所述待识别语音数据进行语音识别,得到待识别查询语句。 第二方面,本发明实施例提供了一种用户意图识别装置,包括: 待识别查询语句获取模块,用于获取待识别查询语句; 查询语句类别确定模块,用于基于聚类算法,在预先建立的用户意图分布库中,确 定所述待识别查询语句所属的查询语句类别;其中,所述用户意图分布库中包括:查询语句 类别,以及与各查询语句类别分别对应的用户意图;所述查询语句类别是对当前场景下的 查询语句样本进行聚类之后得到的; 用户意图确定模块,用于将与所述待识别查询语句所属的查询语句类别对应的用 户意图,确定为所述待识别查询语句的用户意图。 进一步的,装置还包括:用户意图分布库建立模块; 所述用户意图分布库建立模块,包括:查询语句样本获取子模块、查询语句类别得 到子模块、用户意图得到子模块; 所述查询语句样本获取子模块,用于获取当前场景下的查询语句样本; 所述查询语句类别得到子模块,用于采用聚类算法,对各查询语句样本进行类别 划分,得到当前场景下包含的查询语句类别; 所述用户意图得到子模块,用于针对每个查询语句类别,对该查询语句类别中包 含的查询语句样本进行关键词提取,得到与该查询语句类别对应的用户意图。 进一步的,所述查询语句类别得到子模块,具体用于:对各查询语句样本进行向量 化,得到各查询语句样本的样本特征向量;采用聚类算法,对所述样本特征向量进行类别划 分,得到当前场景下包含的查询语句类别; 所述查询语句类别确定模块,具体用于:对所述待识别查询语句进行向量化,得到 待识别特征向量;基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间 的位置关系,在预先建立的用户意图分布库中,确定所述待识别特征向量所属的查询语句 类别,作为所述待识别查询语句所属的查询语句类别。 进一步的,所述所述查询语句类别得到子模块,在执行所述采用聚类算法,对所述 6 CN 111581388 A 说 明 书 4/12 页 样本特征向量进行类别划分,得到当前场景下包含的查询语句类别步骤时,具体用于: 从所述样本特征向量中,确定核心样本特征向量,以及与各核心样本特征向量对 应的临时聚类簇; 对所述临时聚类簇进行合并,得到聚类簇,作为当前场景下包含的查询语句类别。 进一步的,所述查询语句类别得到子模块,具体用于:对各查询语句样本进行向量 化,得到各查询语句样本的样本特征向量;采用聚类算法,对所述样本特征向量进行类别划 分,得到当前场景下包含的候选查询语句类别;按照各候选查询语句类别中包含的查询语 句样本数量从大到小的顺序,选择包含的查询语句样本数量总和大于预设阈值的候选查询 语句类别,作为当前场景下包含的查询语句类别; 所述查询语句类别确定模块,具体用于:对所述待识别查询语句进行向量化,得到 待识别特征向量;基于所述待识别特征向量和各查询语句类别中包含的样本特征向量之间 的位置关系,在预先建立的用户意图分布库中,确定所述待识别特征向量所属的查询语句 类别,作为所述待识别查询语句所属的查询语句类别。 进一步的,所述查询语句类别得到子模块,在执行所述采用聚类算法,对所述样本 特征向量进行类别划分,得到当前场景下包含的候选查询语句类别的步骤时,具体用于: 从所述样本特征向量中,确定核心样本特征向量,以及与各核心样本特征向量对 应的临时聚类簇; 对所述临时聚类簇进行合并,得到聚类簇,作为当前场景下包含的候选查询语句 类别。 进一步的,所述查询语句类别得到子模块在执行所述对各查询语句样本进行向量 化,得到各查询语句样本的样本特征向量的步骤时,具体用于: 采用词频逆文本频率IFIDF算法,对各查询语句样本进行向量化,得到所述各查询 语句样本的第一样本特征向量; 采用BERT模型,对所述各查询语句样本进行向量化,得到所述各查询语句样本的 第二样本特征向量; 对所述第一样本特征向量和所述第二样本特征向量进行拼接,得到所述各查询语 句样本的样本特征向量; 所述查询语句类别确定模块在执行所述对所述待识别查询语句进行向量化,得到 待识别特征向量的步骤时,具体用于: 采用词频逆文本频率IFIDF算法,对所述待识别查询语句进行向量化,得到第一待 识别特征向量; 采用BERT模型,对所述待识别查询语句进行向量化,得到第二待识别特征向量; 对所述第一待识别特征向量和所述第二待识别特征向量进行拼接,得到待识别特 征向量。 进一步的,所述待识别查询语句获取模块,具体用于: 获取待识别语音数据; 对所述待识别语音数据进行语音识别,得到待识别查询语句。 第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和 通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信; 7 CN 111581388 A 说 明 书 5/12 页 存储器,用于存放计算机程序; 处理器,用于执行存储器上所存放的程序时,实现上述任一用户意图识别方法的 步骤。 第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存 储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一用户意图 识别方法。 第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算 机上运行时,使得计算机执行上述任一所述的用户意图识别方法。 本发明实施例有益效果: 本发明实施例提供的一种用户意图识别方法、装置及电子设备,获取待识别查询 语句;基于聚类算法,在预先建立的用户意图分布库中,确定所述待识别查询语句所属的查 询语句类别;其中,所述用户意图分布库中包括:查询语句类别,以及与各查询语句类别分 别对应的用户意图;所述查询语句类别是对当前场景下的查询语句样本进行聚类之后得到 的;将与所述待识别查询语句所属的查询语句类别对应的用户意图,确定为所述待识别查 询语句的用户意图。 本发明实施例中,所使用的用户意图分布库中的查询语句类别是对当前场景下的 查询语句样本进行聚类之后得到的,与人工根据经验设定意图库的方式相比,本发明实施 例中的用户意图分布库更能反映当前场景下用户的真实意图,并且,由于是基于大量的查 询语句样本得到的,用户意图分布库的设定也更加全面。因此,基于本发明实施例中的用户 意图分布库进行用户意图识别,可以提高识别的准确率。 当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优 点。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本发明实施例提供的用户意图识别方法的一种流程示意图; 图2为图1所示实施例中建立用户意图分布库的方法流程示意图; 图3为本发明实施例提供的用户意图识别方法的另一种流程示意图; 图4为图3所示实施例中建立用户意图分布库的方法流程示意图; 图5为本发明实施例提供的用户意图识别装置的一种结构示意图; 图6为本发明实施例提供的电子设备的结构示意图。
分享到:
收藏