
技术摘要:
本发明提供一种标签建立方法、装置、电子设备及介质。该方法能够当接收到打标签指令时,从打标签指令中提取新闻文本,对新闻文本进行预处理,得到分词,对分词进行编码,得到第一特征向量,对每个第一特征向量进行上下文特征提取,得到第二特征向量,将每个第一特征向 全部
背景技术:
随着信息网络的发展,新闻文本爆炸式地增长,且文本大多篇幅较长,为了方便读 者在阅读之前就可以大致了解文本的内容,在对新闻事件进行报导或者评论时,会对文本 内容进行表征,进而筛选出有用的信息。由于新闻文本涵盖了娱乐、科技等各行各业的信 息,因此,人工对新闻文本进行打标签时需要熟知各行各业的专有名词,进而影响标签建立 的效率,为此,基于新闻标签的建立方法应运而生。 在现有的基于新闻标签的建立方法中,采用隐马尔科夫模型对文本内容中的实体 进行确定,然而,隐马尔科夫模型在确定实体时只考虑当前词及前面的词,而没有考虑后面 的词对当前词带来的影响,不够全面,进而导致建立的标签准确率低。 因此,如何构建准确的新闻标签建立方案,成了有待解决的技术问题。
技术实现要素:
鉴于以上内容,有必要提供一种标签建立方法、装置、电子设备及介质,能够提高 标签的准确率。 一种标签建立方法,所述方法包括: 当接收到打标签指令时,从所述打标签指令中提取新闻文本; 对所述新闻文本进行预处理,得到至少一个分词; 对所述至少一个分词进行编码,得到与所述至少一个分词对应的至少一个第一特 征向量; 对所述至少一个第一特征向量中每个第一特征向量进行上下文特征提取,得到与 每个第一特征向量对应的第二特征向量; 将每个第一特征向量及每个第二特征向量输入至预先训练的目标模型中,得到与 所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征向量是由编码向 量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二特征向量拼接而 成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的位置确定的; 对所述至少一个目标特征向量进行映射处理,得到至少一个概率向量; 根据所述至少一个概率向量确定所述新闻文本的标签。 根据本发明优选实施例,所述对所述新闻文本进行预处理,得到至少一个分词包 括: 过滤所述新闻文本中的配置字符,得到第一文本; 对所述第一文本中的预设字段进行词法分析处理,得到第二文本; 根据预设词典对所述第二文本进行切分,得到切分位置; 5 CN 111553148 A 说 明 书 2/15 页 根据所述第二文本及所述切分位置,构建有向无环图; 根据所述预设词典中的权值计算所述有向无环图中每条路径的概率; 将概率最大的路径对应的切分位置确定为目标切分位置; 根据所述目标切分位置确定所述至少一个分词。 根据本发明优选实施例,所述对所述至少一个第一特征向量中每个第一特征向量 进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括: 接收配置的向量个数; 对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该 第一特征向量对应的上下文特征向量集; 将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算 相乘后的向量的平均值,得到中间向量; 将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表 征每个词对应的向量; 采用激活函数计算所述目标矩阵中每个词的概率; 将概率最大的词对应的向量确定为所述第二特征向量。 根据本发明优选实施例,在将每个第一特征向量及每个第二特征向量输入至预先 训练的目标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之 前,所述方法还包括: 采用网络爬虫技术获取历史数据; 将所述历史数据输入到遗忘门层进行遗忘处理,得到训练数据,所述训练数据中 每个训练数据包括第一输入向量、第二输入向量及已知输出向量; 采用交叉验证法将所述训练数据划分为训练集及验证集; 基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进行训练,得 到学习器; 将所述验证集中的第一输入向量及第二输入向量输入至所述学习器中,得到待测 输出向量,及比较所述待测输出向量及所述已知输出向量; 当所述待测输出向量及所述已知输出向量不一致时,根据所述验证集中的第一输 入向量、第二输入向量及已知输出向量调整所述学习器,得到所述目标模型。 根据本发明优选实施例,所述对所述至少一个目标特征向量进行映射处理,得到 至少一个概率向量包括: 将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到 至少一个分数向量; 对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。 根据本发明优选实施例,所述根据所述至少一个概率向量确定所述新闻文本的标 签包括: 从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携 带的信息包括所述目标领域; 从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与 多个词典的映射关系; 6 CN 111553148 A 说 明 书 3/15 页 对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维 度,得到所述至少一个概率向量的至少一个目标维度; 将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的 标签。 根据本发明优选实施例,在根据所述至少一个概率向量确定所述新闻文本的标签 后,所述方法还包括: 从所述打标签指令中获取所述新闻文本的文本编号; 根据所述文本编号及所述标签生成提示信息; 采用对称加密技术加密所述提示信息,得到密文; 将所述密文发送至指定联系人的终端设备。 一种标签建立装置,所述装置包括: 提取单元,用于当接收到打标签指令时,从所述打标签指令中提取新闻文本; 预处理单元,用于对所述新闻文本进行预处理,得到至少一个分词; 编码单元,用于对所述至少一个分词进行编码,得到与所述至少一个分词对应的 至少一个第一特征向量; 所述提取单元,还用于对所述至少一个第一特征向量中每个第一特征向量进行上 下文特征提取,得到与每个第一特征向量对应的第二特征向量; 输入单元,用于将每个第一特征向量及每个第二特征向量输入至预先训练的目标 模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量,每个目标特征 向量是由编码向量及位置向量拼接而成,每个编码向量是由每个第一特征向量及每个第二 特征向量拼接而成,每个位置向量是根据每个第一特征向量的位置及每个第二特征向量的 位置确定的; 处理单元,用于对所述至少一个目标特征向量进行映射处理,得到至少一个概率 向量; 确定单元,用于根据所述至少一个概率向量确定所述新闻文本的标签。 根据本发明优选实施例,所述预处理单元具体用于: 过滤所述新闻文本中的配置字符,得到第一文本; 对所述第一文本中的预设字段进行词法分析处理,得到第二文本; 根据预设词典对所述第二文本进行切分,得到切分位置; 根据所述第二文本及所述切分位置,构建有向无环图; 根据所述预设词典中的权值计算所述有向无环图中每条路径的概率; 将概率最大的路径对应的切分位置确定为目标切分位置; 根据所述目标切分位置确定所述至少一个分词。 根据本发明优选实施例,所述提取单元对所述至少一个第一特征向量中每个第一 特征向量进行上下文特征提取,得到与每个第一特征向量对应的第二特征向量包括: 接收配置的向量个数; 对于每个第一特征向量,根据所述至少一个第一特征向量及所述向量个数确定该 第一特征向量对应的上下文特征向量集; 将所述上下文特征向量集中每个特征向量分别与第一预设矩阵进行相乘、及计算 7 CN 111553148 A 说 明 书 4/15 页 相乘后的向量的平均值,得到中间向量; 将所述中间向量点乘第二预设矩阵,得到目标矩阵,所述目标矩阵中每列向量表 征每个词对应的向量; 采用激活函数计算所述目标矩阵中每个词的概率; 将概率最大的词对应的向量确定为所述第二特征向量。 根据本发明优选实施例,所述装置还包括: 获取单元,用于在将每个第一特征向量及每个第二特征向量输入至预先训练的目 标模型中,得到与所述至少一个第一特征向量对应的至少一个目标特征向量之前,采用网 络爬虫技术获取历史数据; 所述处理单元,还用于将所述历史数据输入到遗忘门层进行遗忘处理,得到训练 数据,所述训练数据中每个训练数据包括第一输入向量、第二输入向量及已知输出向量; 划分单元,用于采用交叉验证法将所述训练数据划分为训练集及验证集; 训练单元,基于所述训练集中的第一输入向量、第二输入向量及已知输出向量进 行训练,得到学习器; 所述输入单元,还用于将所述验证集中的第一输入向量及第二输入向量输入至所 述学习器中,得到待测输出向量,及比较所述待测输出向量及所述已知输出向量; 调整单元,用于当所述待测输出向量及所述已知输出向量不一致时,根据所述验 证集中的第一输入向量、第二输入向量及已知输出向量,根据所述验证集中的数据,调整所 述学习器,得到所述目标模型。 根据本发明优选实施例,所述处理单元对所述至少一个目标特征向量进行映射处 理,得到至少一个概率向量包括: 将所述至少一个目标特征向量分别乘以预设权重矩阵、及加上预设偏置值,得到 至少一个分数向量; 对所述至少一个分数向量进行归一化处理,得到所述至少一个概率向量。 根据本发明优选实施例,所述确定单元根据所述至少一个概率向量确定所述新闻 文本的标签包括: 从所述打标签指令中确定所述新闻文本所属的目标领域,所述打标签指令中所携 带的信息包括所述目标领域; 从配置库中确定与所述目标领域对应的目标词典,所述配置库中存储多个领域与 多个词典的映射关系; 对于所述至少一个概率向量,将每个概率向量中概率最大的维度确定为目标维 度,得到所述至少一个概率向量的至少一个目标维度; 将所述至少一个目标维度在所述目标词典中对应的类别确定为所述新闻文本的 标签。 根据本发明优选实施例,所述获取单元,还用于在根据所述至少一个概率向量确 定所述新闻文本的标签后,从所述打标签指令中获取所述新闻文本的文本编号; 所述装置还包括: 生成单元,用于根据所述文本编号及所述标签生成提示信息; 加密单元,用于采用对称加密技术加密所述提示信息,得到密文; 8 CN 111553148 A 说 明 书 5/15 页 发送单元,用于将所述密文发送至指定联系人的终端设备。 一种电子设备,所述电子设备包括: 存储器,存储至少一个指令;及 处理器,获取所述存储器中存储的指令以实现所述标签建立方法。 一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所 述至少一个指令被电子设备中的处理器获取以实现所述标签建立方法。 由以上技术方案可以看出,本发明通过将第一特征向量及第二特征向量进行融合 处理,能够得到准确的目标特征向量,进而提高了所述标签的准确率,另外,通过所述标签 的确定,不仅便于用户筛选出具有某些标签的新闻文本,还能使用户在阅读所述新闻文本 之前了解所述新闻文本的内容。 附图说明 图1是本发明标签建立方法的较佳实施例的流程图。 图2是本发明标签建立装置的较佳实施例的功能模块图。 图3是本发明实现标签建立方法的较佳实施例的电子设备的结构示意图。