logo好方法网

一种基于神经网络的关键词提取方法、装置及电子设备


技术摘要:
本发明实施例提供了一种基于神经网络的关键词提取方法、装置及电子设备,其中方法包括:获取待提取关键词的文本;对待提取关键词的文本进行预处理,得到候选词;将待提取关键词的文本和各候选词,分别输入BERT中,得到待提取关键词的文本的第一特征向量以及各候选词的  全部
背景技术:
关键词是一段文本中具有代表性的文字,是一篇文章主题的简要概括。关键词能 够反映一篇文档/文本的主题内容,帮助人们快速定位该文档/文本的主题与思想。除此之 外,关键词在文献检索、文本分类、推荐系统等方面都有重要的应用价值。由于人工标注文 档/文本的关键词非常耗时与困难,因此,关键词的自动提取已经成为NLP(Natural  Language  Processing,自然语言处理)领域研究的一个热门方向。 现有针对文本的关键词提取方法为:使用TF-IDF(Term  frequency–Inverse  document  frequency,词频-逆文档频率)统计方法对文本的关键词进行提取。TF-IDF提取 文本关键词的实现过程为:对待提取关键词的文本进行分词处理,然后,针对每一分词,分 别计算每一分词对应的词频和逆文档频率,进而计算每一分词对应的词频和逆文档频率的 乘积,并作为该分词在文本中的权重,按照权重从大到小的顺序,将排序靠前的T个分词作 为要提取的目标关键词,T可以为任意大于等于一的整数。 现有使用TF-IDF统计方法对文本的关键词进行提取的方法,是基于每一分词在文 本中出现的频率以及逆文档频率进行提取的,针对一些词语重复较少的文本,特别是一些 短文本,可能会导致所提取的关键词与文本的匹配度比较低的情况,进而导致最终所提取 的关键词不够准确。
技术实现要素:
本发明实施例的目的在于提供一种基于神经网络的关键词提取方法、装置及电子 设备,以提高提取文本中关键词的准确程度。具体技术方案如下: 第一方面,本发明实施例提供了一种基于神经网络的关键词提取方法,所述方法 包括: 获取待提取关键词的文本; 对所述待提取关键词的文本进行预处理,得到所述待提取关键词的文本对应的候 选词; 将所述待提取关键词的文本和各所述候选词,分别输入基于转换器的双向编码器 BERT中,得到所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第 一特征向量; 将所述待提取关键词的文本对应的第一特征向量,以及各所述候选词对应的第一 特征向量,分别输入预先训练好的神经网络中,得到所述待提取关键词的文本对应的第二 特征向量,以及各所述候选词对应的第二特征向量;其中,所述预先训练好的神经网络是根 据样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候选词对应 5 CN 111611807 A 说 明 书 2/15 页 的真值标签训练得到的; 基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第 二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度; 基于各所述候选词与所述待提取关键词的文本之间的相似度,提取所述待提取关 键词的文本中的关键词。 可选地,所述对所述待提取关键词的文本进行预处理,得到所述待提取关键词的 文本对应的候选词的步骤,包括: 对所述待提取关键词的文本进行分词处理,得到多个词语; 利用预设停用词表对所述多个词语进行过滤,得到过滤后的词语; 将所述过滤后的词语确定为候选词; 或者,将所述过滤后的词语中具有预设词性的词语确定为候选词;其中,所述预设 词性包括:名词、动词和形容词。 可选地,所述神经网络的训练过程,包括: 构建初始神经网络模型; 将样本文本对应的第一特征向量,样本候选词对应的第一特征向量,以及样本候 选词对应的真值标签,输入所述初始神经网络模型; 利用所述初始神经网络模型,得到各所述样本候选词对应的类别标签; 基于各所述样本候选词对应的类别标签与所述真值标签的差异,计算损失函数; 对损失函数进行最小化处理,得到最小化损失函数; 根据最小化损失函数,确定初始神经网络模型中各模块的权重参数; 基于所述权重参数对所述初始神经网络模型中的参数进行更新,训练得到所述神 经网络。 可选地,所述损失函数的表达式为: 其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的 关键词, 表示神经网络的结构参数, 表示基于神经网络的结构参数 的损失函 数,p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率, 表示待 提取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数 的相 似度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键 词集合, 表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基 于神经网络的结构参数 的相似度。 6 CN 111611807 A 说 明 书 3/15 页 可选地,所述基于所述待提取关键词的文本对应的第二特征向量,以及各所述候 选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似度的 步骤,包括: 基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第 二特征向量,使用如下表达式,计算各所述候选词与所述待提取关键词的文本之间的相似 度: 其中, 表示候选词h与待提取关键词的文本t基于所述神经网络的结构 参数 的相似度, 表示待提取关键词的文本t对应的第二特征向量, 表示候选词 h对应的第二特征向量, 为 的转置。 第二方面,本发明实施例提供了一种基于神经网络的关键词提取装置,所述装置 包括: 获取模块,用于获取待提取关键词的文本; 预处理模块,用于对所述待提取关键词的文本进行预处理,得到所述待提取关键 词的文本对应的候选词; 第一特征提取模块,用于将所述待提取关键词的文本和各所述候选词,分别输入 基于转换器的双向编码器BERT中,得到所述待提取关键词的文本对应的第一特征向量,以 及各所述候选词对应的第一特征向量; 第二特征提取模块,用于将所述待提取关键词的文本对应的第一特征向量,以及 各所述候选词对应的第一特征向量,分别输入预先训练好的神经网络中,得到所述待提取 关键词的文本对应的第二特征向量,以及各所述候选词对应的第二特征向量;其中,所述预 先训练好的神经网络是根据样本文本对应的第一特征向量,样本候选词对应的第一特征向 量,以及样本候选词对应的真值标签训练得到的; 计算模块,用于基于所述待提取关键词的文本对应的第二特征向量,以及各所述 候选词对应的第二特征向量,计算各所述候选词与所述待提取关键词的文本之间的相似 度; 关键词提取模块,用于基于各所述候选词与所述待提取关键词的文本之间的相似 度,提取所述待提取关键词的文本中的关键词。 可选地,所述预处理模块,包括: 分词子模块,用于对所述待提取关键词的文本进行分词处理,得到多个词语; 过滤子模块,用于利用预设停用词表对所述多个词语进行过滤,得到过滤后的词 语; 第一确定子模块,用于将所述过滤后的词语确定为候选词; 第二确定子模块,用于将所述过滤后的词语中具有预设词性的词语确定为候选 7 CN 111611807 A 说 明 书 4/15 页 词;其中,所述预设词性包括:名词、动词和形容词。 可选地,所述装置还包括: 构建模块,用于构建初始神经网络模型; 第一训练模块,用于将样本文本对应的第一特征向量,样本候选词对应的第一特 征向量,以及样本候选词对应的真值标签,输入所述初始神经网络模型; 第一获得模块,用于利用所述初始神经网络模型,得到各所述样本候选词对应的 类别标签; 计算模块,用于基于各所述样本候选词对应的类别标签与所述真值标签的差异, 计算损失函数; 第二获得模块,用于对损失函数进行最小化处理,得到最小化损失函数; 确定模块,用于根据最小化损失函数,确定初始神经网络模型中各模块的权重参 数; 第二训练模块,用于基于所述权重参数对所述初始神经网络模型中的参数进行更 新,训练得到所述神经网络。 可选地,所述损失函数的表达式为: 其中,ti表示第i个待提取关键词的文本,ki表示第i个待提取关键词的文本ti中的 关键词, 表示神经网络的结构参数, 表示基于神经网络的结构参数 的损失函数, p(ki|ti)表示第i个待提取关键词的文本ti对应的关键词为ki的概率, 表示待提 取关键词的文本t中的关键词k与待提取关键词的文本t基于神经网络的结构参数 的相似 度,k′表示待提取关键词的文本t中的非关键词,K-表示待提取关键词的文本t的非关键词 集合, 表示待提取关键词的文本t中的非关键词k′与待提取关键词的文本t基于 神经网络的结构参数 的相似度。 可选地,所述计算模块,具体用于: 基于所述待提取关键词的文本对应的第二特征向量,以及各所述候选词对应的第 二特征向量,使用如下表达式,计算各所述候选词与所述待提取关键词的文本之间的相似 度: 8 CN 111611807 A 说 明 书 5/15 页 其中, 表示候选词h与待提取关键词的文本t基于所述神经网络的结构 参数 的相似度, 表示待提取关键词的文本t对应的第二特征向量, 表示候选词 h对应的第二特征向量, 为 的转置。 第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器 和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信; 存储器,用于存放计算机程序; 处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的一种基于 神经网络的关键词提取方法的步骤。 第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存 储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的一种 基于神经网络的关键词提取方法的步骤。 本发明实施例有益效果: 本发明实施例提供的一种基于神经网络的关键词提取方法、装置及电子设备,可 以在对所获取的待提取关键词的文本进行预处理,得到待提取关键词的文本对应的候选词 后,将待提取关键词的文本和各候选词,分别输入BERT中,得到表示文本初始语义的、待提 取关键词的文本对应的第一特征向量,以及表示候选词初始语义的、各候选词对应的第一 特征向量,然后,将待提取关键词的文本对应的第一特征向量,以及各候选词对应的第一特 征向量,分别输入预先训练好的神经网络中,获得更适合于关键词提取的语义向量,得到待 提取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,再基于待提 取关键词的文本对应的第二特征向量,以及各候选词对应的第二特征向量,计算各候选词 与待提取关键词的文本之间的相似度,在此过程中,因得到的待提取关键词的文本对应的 第二特征向量,以及各候选词对应的第二特征向量,是考虑了各候选词与待提取关键词的 文本之间语义关系得到的,使得基于计算得到的各候选词与待提取关键词的文本之间的相 似度,提取的关键词与文本之间的匹配度更高,提高了提取文本中关键词的准确程度。 当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优 点。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为本发明实施例提供的一种基于神经网络的关键词提取方法的流程示意图; 图2为本发明实施例提供的一种文本预处理的实施方式流程图; 图3为本发明实施例提供的一种网络训练实施方式流程图; 图4为本发明实施例提供的一种网络训练结构示意图; 图5为本发明实施例提供的一种基于神经网络的关键词提取装置的结构示意图; 9 CN 111611807 A 说 明 书 6/15 页 图6为本发明实施例提供的一种文本预处理装置的结构示意图; 图7为本发明实施例提供的一种网络训练装置的结构示意图; 图8为本发明实施例提供的一种电子设备的结构示意图。
分享到:
收藏