logo好方法网

一种关键词提取方法、装置及设备


技术摘要:
本申请的一个或多个实施例提出关键词提取方法、装置及设备。该方法可以包括,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词。基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。针对与任一目标分类对应的  全部
背景技术:
在对文本进行分析时,通常需要针对待分析文本进行分类。当完成分类后,再提取 该文本中与其所属分类相关的关键信息,并针对该关键信息完成分析。 目前,不论对待分析文本进行分类,还是针对该文本提取与其所属分类相关的关 键信息,都需要依据与各分类分别对应的关键词来完成。可见,目前亟需提取与各分类分别 对应的关键词的方法。
技术实现要素:
有鉴于此,本申请至少公开一种关键词提取方法、装置、设备及存储介质。 在本申请示出的第一方面,本申请提出一种关键词提取方法,可以包括: 基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关 键词; 基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键 词集合; 针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计 上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量; 确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键 词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对 应的关键词集合。 在示出的一实施例中,上述多个目标分类分别对应多篇语料文档; 上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候 选关键词,可以包括: 将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算 法计算汇总后的语料文档可以包括的各单词的权重值; 按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大 的单词开始的M个单词,确定为候选关键词。 在示出的一实施例中,上述多个目标分类分别对应多篇语料文档; 上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候 选关键词,可以包括: 基于TextRank算法计算语料文档可以包括的各单词的权重值; 按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M 个单词,确定为与语料文档对应的关键词; 针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤; 5 CN 111553156 A 说 明 书 2/16 页 当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键 词在各篇语料文档中的权重值进行加权求和; 按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的 关键词开始的N个关键词,确定为候选关键词。 在示出的一实施例中,上述基于TextRank算法计算语料文档可以包括的各单词的 权重值,可以包括: 对语料文档进行分句处理,得到若干分句; 针对每一分句,进行分词处理; 将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上 述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共 现次数; 基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可 以包括的各单词的权重值。 在示出的一实施例中,上述针对每一分句,进行分词处理,可以包括: 通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集 合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性; 基于上述各单词的词性,对上述单词集合中的单词进行过滤。 在示出的一实施例中,上述方法还可以包括以下操作中的任一或几项的组合: 过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特 殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同 单词用同一单词表示。 在本申请示出的第二方面,本申请提出一种关键词提取装置,可以包括: 确定模块,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确 定候选关键词; 构建模块,基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多 个候选关键词集合; 统计模块,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关 键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量; 删除模块,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的 候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目 标分类对应的关键词集合。 在示出的一实施例中,上述多个目标分类分别对应多篇语料文档; 上述确定模块,可以包括: 汇总模块,将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于 TextRank算法计算汇总后的语料文档可以包括的各单词的权重值; 第一确定子模块,按照上述权重值大小,对上述汇总后的语料文档中的单词排序, 并将权重值最大的单词开始的M个单词,确定为候选关键词。 在示出的一实施例中,上述多个目标分类分别对应多篇语料文档; 上述确定模块,可以包括: 6 CN 111553156 A 说 明 书 3/16 页 计算模块,基于TextRank算法计算语料文档可以包括的各单词的权重值; 第二确定子模块,按照上述权重值大小,对语料文档中的单词排序,并将权重值最 大的单词开始的M个单词,确定为与语料文档对应的关键词; 针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤; 求和模块,当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词, 将该关键词在各篇语料文档中的权重值进行加权求和; 第三确定子模块,按照上述加权求和结果,对上述关键词进行排序,并将上述加权 求和结果最大的关键词开始的N个关键词,确定为候选关键词。 在示出的一实施例中,上述计算模块,可以包括: 分句模块,对语料文档进行分句处理,得到若干分句; 分词模块,针对每一分句,进行分词处理; 统计共现次数模块,将预设单词滑动窗口对分词处理后的每一分句进行滑动,并 在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并 统计上述单词对的共现次数; 计算子模块,基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计 算语料文档可以包括的各单词的权重值。 在示出的一实施例中,上述分词模块,可以包括: 通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集 合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性; 基于上述各单词的词性,对上述单词集合中的单词进行过滤。 在示出的一实施例中,上述分词模块,还博还可以包括以下操作中的任一或几项 的组合: 过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特 殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同 单词用同一单词表示。 由上述技术方案可知,通过TextRank算法从与多个目标分类分别对应的语料文档 中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的 目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该 目标候选关键词的候选关键词集合的数量,并从上述目标候选关键词集合中删除上述数量 达到阈值的候选关键词,以得到与目标分类对应的关键词集合,从而在关键词提取过程中 无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提 取效率与准确率。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本申请。 附图说明 为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案,下面将对 实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附 图仅仅是本申请一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲, 7 CN 111553156 A 说 明 书 4/16 页 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 图1为本申请示出的一种关键词提取方法的方法流程图; 图2为本申请示出的一种确定候选关键词方法的方法流程图; 图3为本申请示出的一种基于TextRank算法计算单词权重值方法的方法流程图; 图4为本申请示出的一种关键词提取装置的结构图; 图5为本申请示出的一种关键词提取设备的硬件结构图。
分享到:
收藏