logo好方法网

文本事件的获取方法、装置、电子设备及存储介质


技术摘要:
本发明提供了一种文本事件的获取方法、装置、电子设备及存储介质。其中,文本事件的获取方法包括:对文本进行分词和标注处理,以得到对应于文本的多个分词,其中,每个分词对应一个标记;根据分词的标记,从多个分词中获取与预设的DSL序列中多个要素属性相关联的多个目  全部
背景技术:
事件抽取是从文本中获取出所需的事件要素信息,例如:对于文本:“2020年1月1 日,张三赴北京与李四进行了会面。”,获取出的文本事件要素可以包括2020年1月1日、张 三、北京、李四、会面等。 相关技术中,事件抽取方式包括基于模式匹配的方式和基于序列标注的方式。基 于模式匹配的方式借助规则模板,来对文本中与事件密切相关的句式进行匹配,缺点则是 规则的定制和维护属于劳动密集型工作,人工的执行效率有待提升。基于序列标注的方式 是事先对大量数据进行人工标注,然后使用机器学习或深度学习算法来学习文本序列与标 注之间的对应关系,以此实现对文本序列对应标注的预测,需要人工进行大量的数据标注, 同样影响其工作效率,另外,模型的训练也费事费力。
技术实现要素:
基于现有技术中存在的问题,本发明提出一种文本事件的获取方法、装置、电子设 备及存储介质。 第一方面,本发明提供了一种文本事件的获取方法,包括:对文本进行分词和标注 处理,以得到对应于所述文本的多个分词,其中,每个分词对应一个标记;根据分词的标记, 从所述多个分词中获取与预设的DSL序列中多个要素属性相关联的多个目标分词,其中,所 述DSL序列包括多个事件要素配置项,所述事件要素配置项包括所述要素属性;根据所述多 个目标分词得到所述文本事件。 本发明的文本事件的获取方法,根据需要从文本中所需得到的信息,建立定制的 领域特定语言,进而,便可以根据该领域特定语言从文本中获取到所需的要素,以快速准确 地得到文本事件,具有简化人工操作、文本事件获取速度快、获取准确性高的优点,提升文 本事件的获取体验。 在一些示例中,还包括:根据所需获取的事件要素创建所述DSL序列。 在一些示例中,所述根据所需获取的事件要素创建所述DSL序列,包括:根据所需 获取的事件要素,确定所述DSL序列的事件类型配置项和所述多个事件要素配置项,其中, 所述事件要素配置项还包括分别对应于所述多个要素属性的要素名称;应用预设的DSL语 法规则,根据所述事件类型配置项和所述多个事件要素配置项创建所述DSL序列。 在一些示例中,所述根据分词的标记,从所述多个分词中获取与预设的DSL序列中 多个要素属性相关联的多个目标分词,包括:根据所述DSL序列的多个事件要素配置项,得 到一一对应于所述多个事件要素配置项的多个要素抽取任务;根据所述多个要素抽取任务 中当前执行的要素抽取任务,依次遍历所述多个分词,以根据分词的标记,从所述多个分词 4 CN 111597302 A 说 明 书 2/9 页 中获取与所述当前执行的要素抽取任务相关联的目标分词。 在一些示例中,所述多个要素抽取任务包括主体要素抽取任务、触发动作要素抽 取任务、客体要素抽取任务、时间要素抽取任务和地点要素抽取任务,所述根据分词的标 记,从所述多个分词中获取与所述当前执行的要素抽取任务相关联的目标分词,包括:如果 所述当前执行的要素抽取任务为主体要素抽取任务、触发动作要素抽取任务或者客体要素 抽取任务,则获取的所述目标分词为:根据分词的标记,从所述多个分词中匹配到的与所述 当前执行的要素抽取任务中要素属性相关的分词;如果所述当前执行的要素抽取任务为时 间要素抽取任务或者地点要素抽取任务,则获取的所述目标分词为:根据分词的标记,根据 所述当前执行的要素抽取任务中要素属性对应的查找方式从所述多个分词中查找到的分 词,其中,所述查找方式可根据需求定制。 第二方面,本发明还提供了一种文本事件的获取装置,包括:预处理模块,用于对 文本进行分词和标注处理,以得到对应于所述文本的多个分词,其中,每个分词对应一个标 记;获取模块,用于根据分词的标记,从所述多个分词中获取与预设的DSL序列中多个要素 属性相关联的多个目标分词,其中,所述DSL序列包括多个事件要素配置项,所述事件要素 配置项包括所述要素属性;文本事件确定模块,用于根据所述多个目标分词得到所述文本 事件。 本发明的文本事件的获取装置,根据需要从文本中所需得到的信息,建立定制的 领域特定语言,进而,便可以根据该领域特定语言从文本中获取到所需的要素,以快速准确 地得到文本事件,具有简化人工操作、文本事件获取速度快、获取准确性高的优点,提升文 本事件的获取体验。 在一些示例中,还包括:DSL序列创建模块,用于根据所需获取的事件要素,确定所 述DSL序列的事件类型配置项和所述多个事件要素配置项,其中,所述事件要素配置项还包 括分别对应于所述多个要素属性的要素名称,并应用预设的DSL语法规则,根据所述事件类 型配置项和所述多个事件要素配置项创建所述DSL序列。 在一些示例中,所述获取模块用于根据所述DSL序列的多个事件要素配置项,得到 一一对应于所述多个事件要素配置项的多个要素抽取任务,并根据所述多个要素抽取任务 中当前执行的要素抽取任务,依次遍历所述多个分词,以根据分词的标记,从所述多个分词 中获取与所述当前执行的要素抽取任务相关联的目标分词。 第三方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上 并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所 述的文本事件的获取方法。 第四方面,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机 程序,该计算机程序被处理器执行时实现如第一方面所述的文本事件的获取方法。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些图获得其他的附图。 5 CN 111597302 A 说 明 书 3/9 页 图1是本发明一实施例提供的文本事件的获取方法的流程图; 图2是本发明一实施例提供的文本事件的获取方法中DSL序列的结构图; 图3是本发明一实施例提供的文本事件的获取方法中DSL序列与语义之间相互转 换的示意图; 图4是本发明一实施例提供的文本事件的获取方法中由DSL序列转换为抽取任务 集合的示意图。 图5是本发明一实施例提供的文本事件的获取方法中文本的分词与属性之间的对 应关系示意图; 图6是本发明一实施例提供的文本事件的获取方法的详细流程图; 图7是本发明一实施例提供的文本事件的获取装置的结构图; 图8是本发明一实施例提供的电子设备的结构示意图。
分享到:
收藏