
技术摘要:
本公开提供了一种信息提取模板配置方法、信息提取方法、装置以及电子设备、存储介质,涉及计算机技术领域,其中的配置方法包括:确定与预设的第一信息提取目标相对应的内容布局信息,获取与第一内容布局信息相对应的内容检索信息;对内容检索信息进行解析,获取信息提 全部
背景技术:
目前,从互联网网页中提取有价值的数据,通常需要配置模板,使用模板进行信息 提取,对于不同类型的网站网页数据需要配置不同的模板。模板需要由专业人士进行人工 配置,并需要由专业人士使用模板进行信息提取操作,模板配置的难度较大并信息提取的 效率较低。
技术实现要素:
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种信息提取模 板配置方法、信息提取方法、装置以及电子设备、存储介质。 根据本公开实施例的第一方面,提供一种信息提取模板配置方法,包括:确定与预 设的第一信息提取目标相对应的第一内容布局信息,获取与所述第一内容布局信息相对应 的内容检索信息;对所述内容检索信息进行解析,获取与所述内容检索信息相对应的信息 提取规则信息;基于所述信息提取规则信息配置与所述第一内容布局信息相对应的信息提 取模板。 可选地,所述对所述内容检索信息进行解析,获取与所述内容检索信息相对应的 信息提取规则信息包括:使用语法分析器对所述内容检索信息进行解析处理,获取与所述 内容检索信息相对应的信息提取规则信息;其中,所述信息提取规则信息包括信息提取方 法、信息提取目标、限制条件和其他名称中的一种或几种。 可选地,所述内容检索信息包括:至少一条结构化查询语句;所述使用语法分析器 对所述内容检索信息进行解析处理,获取与所述内容检索信息相对应的信息提取规则信息 包括:使用所述语法分析器对所述至少一条结构化查询语句进行解析处理,获取与所述至 少一条结构化查询语句相对应的所述信息提取规则信息。 可选地,所述结构化查询语句包括:信息选取语句;所述信息选取语句中设置的关 键字包括提取方法关键字、别名关键字、选取目标关键字和限制条件关键字中的一种或几 种;其中,所述提取方法关键字用于设置所述信息提取方法,所述选取目标关键字用于设置 所述信息提取目标,所述限制条件关键字用于设置与所述信息提取方法相对应的所述限制 条件,所述别名关键字用于为所述信息提取方法使用的参数配置所述其他名称。 可选地,所述信息提取方法包括:信息定位方法、信息抽取方法和正则表达式方法 中的一个或多个方法;所述信息提取目标包括:网页文件、网页文件中的段落、网页地址和 存储路径中的一个或多个。 可选地,所述语法分析器包括:antlr语法分析器。 可选地,在所述建立与所述第一内容布局信息相对应的信息提取模板之后,所述 4 CN 111597205 A 说 明 书 2/10 页 方法还包括:建立所述第一内容布局信息与所述信息提取模板之间的对应关系并存储。 可选地,所述第一信息提取目标包括:网页文件;所述内容布局信息包括:网页结 构化信息。 根据本公开实施例的第二方面,提供一种信息提取方法,包括:获取与第二信息提 取目标相对应的第二内容布局信息;确定与所述第二内容布局信息相对应的第一内容布局 信息,并基于所述第一内容布局信息与信息提取模板之间的对应关系,获取与所述第二内 容布局信息相对应的信息提取模板;基于所述信息提取模板,对所述第二信息提取目标进 行信息提取处理。 可选地,所述第二信息提取目标包括:网页文件。 根据本公开实施例的第三方面,提供一种信息提取模板配置装置,包括:检索获取 模块,用于确定与预设的第一信息提取目标相对应的第一内容布局信息,获取与所述第一 内容布局信息相对应的内容检索信息;规则获取模块,用于对所述内容检索信息进行解析, 获取与所述内容检索信息相对应的信息提取规则信息;模板获取模块,用于基于所述信息 提取规则信息配置与所述第一内容布局信息相对应的信息提取模板。 根据本公开实施例的第四方面,提供一种信息提取装置,包括:布局信息获取模 块,用于获取与第二信息提取目标相对应的第二内容布局信息;模板选取模块,用于确定与 所述第二内容布局信息相对应的第一内容布局信息并基于所述第一内容布局信息与信息 提取模板之间的对应关系,获取与所述第二内容布局信息相对应的信息提取模板;提取处 理模块,用于基于所述信息提取模板,对所述第二信息提取目标进行信息提取处理。 根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存 储有计算机程序,所述计算机程序用于执行上述的信息提取模板配置方法,和/或,执行上 述的信息提取方法。 根据本公开实施例的第六方面,提供一种电子设备,所述电子设备包括:处理器; 用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述的信息提取模板配 置方法,和/或,执行上述的信息提取方法。 基于本公开上述实施例提供的信息提取模板配置方法、信息提取方法、装置以及 电子设备、存储介质,通过自动设置与信息提取目标的内容布局信息相对应的信息提取模 板,基于模板进行信息提取,降低了模板配置的难度,提升了模板配置的效率并降低了成 本,有效提高了信息提取的效率和准确度。 下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。 附图说明 通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、 特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解,并且构成 说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图 中,相同的参考标号通常代表相同部件或步骤。 图1为本公开的信息提取模板配置方法的一个实施例的流程图; 图2为本公开的信息提取模板配置方法的一个实施例中的获取信息提取规则信息 的流程图; 5 CN 111597205 A 说 明 书 3/10 页 图3为本公开的信息提取方法的一个实施例的流程图; 图4为本公开的信息提取模板配置装置的一个实施例的结构示意图; 图5为本公开的信息提取装置的一个实施例的结构示意图; 图6是本公开的电子设备的一个实施例的结构图。