logo好方法网

提取时间字符串的方法、装置、计算机设备及存储介质


技术摘要:
本申请揭示了提取时间字符串的方法,包括:判断语句中第一词组的词性是否为时间字符串的开头词组对应的词性;若是,则将第一词组提取至候选列;按照第一词组在语句中的排布次序,继续识别与第一词组相邻且排布在第一词组之后的第二词组的词性,是否满足时间字符串对应  全部
背景技术:
在自然语言文本中,关于时间和日期的描述可谓千奇百怪。在信息抽取、问答系统 等自然语言处理领域,对时间和日期字符串的识别与提取有着强烈的需求。现有的识别和 提取技术和现成工具往往是基于正则表达式的方式。然而,基于正则表达式的方法需要人 工去预先定义好大量的满足多种时间和日期格式的表达式,该方法虽然能够较精确地识别 出时间和日期字符串,但是其识别能力受限于正则表达式的丰富程度。那些设计者未能考 虑到的时间和日期格式,将不能被识别到,因此基于正则表达式的方法识别时间和日期字 符串,具体低召回、复杂度高的缺点。
技术实现要素:
本申请的主要目的为提供提取时间字符串的方法,旨在解决现有通过规则表达式 提取时间字符串不具有通用性且提取覆盖率低的技术问题。 本申请提出一种提取时间字符串的方法,包括: 判断语句中第一词组的词性是否为时间字符串的开头词组对应的词性,其中,所 述第一词组为所述语句中的任一词组; 若是,则将所述第一词组提取至候选列; 按照所述第一词组在所述语句中的排布次序,继续识别与所述第一词组相邻且排 布在所述第一词组之后的第二词组的词性,是否满足所述时间字符串对应的词性组合条 件; 若是,则将所述第二词组提取至所述候选列; 按照所述第一词组和所述第二词组的词性识别过程,依次遍历排布于所述第二词 组之后的所有词组,直至将所述时间字符串包括的所有词组均提取至候选列; 将所述候选列中的所有词组按照提取前在所述语句中的排布次序,组合成所述时 间字符串。 优选地,所述第一词组的词性为数词,所述按照所述第一词组在所述语句中的排 布次序,继续识别与所述第一词组相邻且排布在所述第一词组之后的第二词组的词性,是 否满足所述时间字符串对应的词性组合条件的步骤,包括: 判断所述第二词组的词性是否属于数词、时间词和非语素符号中的一种; 若是,则判定所述第二词组满足所述时间字符串对应的词性组合条件; 若否,则将所述第一词组从候选列中剔除,按照所述第一词组和所述第二词组的 词性识别过程,依次遍历排布于所述第二词组之后的所有词组。 优选地,所述第一词组的词性为数词,所述按照所述第一词组在所述语句中的排 5 CN 111581963 A 说 明 书 2/16 页 布次序,继续识别与所述第一词组相邻且排布在所述第一词组之后的第二词组的词性,是 否满足所述时间字符串对应的词性组合条件的步骤,包括: 判断所述第二词组的词性是否属于介词或动词; 若所述第二词组的词性属于介词或动词,则判断所述候选列中是否存在介词或动 词; 若所述候选列中不存在介词或动词,则判定所述第二词组满足所述时间字符串对 应的词性组合条件; 若所述候选列中存在介词或动词,则判定所述第二词组不满足所述时间字符串对 应的词性组合条件,并将所述第一词组从候选列中剔除,按照所述第一词组和所述第二词 组的词性识别过程,依次遍历排布于所述第二词组之后的所有词组。 优选地,所述第一词组的词性为方位词,所述按照所述第一词组在所述语句中的 排布次序,继续识别与所述第一词组相邻且排布在所述第一词组之后的第二词组的词性, 是否满足所述时间字符串对应的词性组合条件的步骤,包括: 判断所述第二词组的词性是否属于数词或时间词; 若是,则判定所述第二词组满足所述时间字符串对应的词性组合条件; 若否,则将所述第一词组从候选列中剔除,按照所述第一词组和所述第二词组的 词性识别过程,依次遍历排布于所述第二词组之后的所有词组。 优选地,所述第一词组的词性为时间词,所述按照所述第一词组在所述语句中的 排布次序,继续识别与所述第一词组相邻且排布在所述第一词组之后的第二词组的词性, 是否满足所述时间字符串对应的词性组合条件的步骤,包括: 判断所述第二词组的词性是否属于数词、时间词或介词中的一种; 若是,则判定所述第二词组满足所述时间字符串对应的词性组合条件,并生成继 续遍历的指令; 若否,则确定所述第一词组为所述时间字符串,并按照所述第一词组和所述第二 词组的词性识别过程,依次遍历排布于所述第二词组之后的所有词组。 优选地,所述语句属于待分析文档,所述判断语句中第一词组的词性是否为时间 字符串的开头词组对应的词性的步骤之前,包括: 将所述待分析文档输入至Jieba分词工具包进行分词,并标注各分词的词性; 对标注了分词词性的所述待分析文档中进行遍历分析,以提取所述待分析文档中 的所述时间字符串。 优选地,所述判断语句中第一词组的词性是否为时间字符串的开头词组对应的词 性的步骤之前,包括: 将按照预设处理方式处理后的语料样本中的所有短语分别转化为对应的多维向 量; 将所有短语分别对应的多维向量进行聚类分析,得到所述时间字符串中所包含的 所有词性; 统计聚类得到的所有时间字符串中分别对应的开头词组的词性以及所有时间字 符串中除开头词组之外的词性组合特征; 根据统计结果,得出所述时间字符串对应的词性组合条件。 6 CN 111581963 A 说 明 书 3/16 页 本申请还提供了一种提取时间字符串的装置,包括: 判断模块,用于判断语句中第一词组的词性是否为时间字符串的开头词组对应的 词性,其中,所述第一词组为所述语句中的任一词组; 第一提取模块,用于若语句中第一词组的词性为时间字符串的开头词组对应的词 性,则将所述第一词组提取至候选列; 识别模块,用于按照所述第一词组在所述语句中的排布次序,继续识别与所述第 一词组相邻且排布在所述第一词组之后的第二词组的词性,是否满足所述时间字符串对应 的词性组合条件; 第二提取模块,用于若第二词组的词性满足所述时间字符串对应的词性组合条 件,则将所述第二词组提取至所述候选列; 遍历模块,用于按照所述第一词组和所述第二词组的词性识别过程,依次遍历排 布于所述第二词组之后的所有词组,直至将所述时间字符串包括的所有词组均提取至候选 列; 组合模块,用于将所述候选列中的所有词组按照提取前在所述语句中的排布次 序,组合成所述时间字符串。 本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算 机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。 本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机 程序被处理器执行时实现上述的方法的步骤。 本申请根据时间字符串的词性组合条件,通过编辑代码实现语句中的时间字符串 的识别与提取,本方案依据词性组合条件进行提取,针对不同编辑语言文本识别逻辑可以 通用,无需重新编辑,且相比于正则表达式提取的时间字符串的适用覆盖面更广,克服了正 则表达式适用范围窄,不能对语句中的时间字符串进行全覆盖提取。根据短语的向量转化 和聚类分析,得到在中文自然语言文本中时间字符串中的每一个词组的词性以及词性组合 具有特定词性组合规律,作为时间字符串中的词性组合条件。 附图说明 图1本申请一实施例的提取时间字符串的方法流程示意图; 图2本申请一实施例的提取时间字符串的结构示意图; 图3本申请一实施例的计算机设备内部结构示意图。
分享到:
收藏