
技术摘要:
本发明提供一种基于依存关系的“是”字句关系抽取方法和装置,涉及命名实体识别、依存句法分析、文本复述、关系抽取等领域。本发明中基于依存关系的“是”字句关系抽取方法,主要包括以下步骤:S1:删除谓词“是”后进行依存句法分析;S2:替换谓词“是”后进行依存句 全部
背景技术:
关系是描述实体对之间语义联系的三元组,其形式是(A,α,B),其中A、B是实体,α 是实体间的语义联系。关系大量存在于自然文本中,例如:句子“M国总统K来到C国”中包含 关系(M国,总统,K)和(K,来到,C国)。关系抽取是信息抽取领域的重要研究内容,可以建立 不同实体间的依赖类型,将非结构化文本转化为结构化或半结构化知识,形成由知识构成 的关系网络,用于智能问答、语义搜索、社团发现等智能型服务。 “是”字句是现代汉语中一种特殊句式,也叫判断句,是由表示判断的动词“是”和 它的宾语组成的动宾短语作谓语的句子。在“是”字句里,动词“是”和宾语没有直接的语义 搭配关系,“是”的作用是表示判断的性质,联结主语和宾语,表示主语和宾语之间具有同一 关系或从属关系。例如:(1)某市是我国的首都;(2)自学是我们当今造就人才的一条重要途 径。 “是”字句是现代汉语中使用频率相对较高的一种特殊句式,在媒体中占有的比例 曾经高达20%,是语言学的研究重点,也是关系抽取的重要语料。 目前,常用的关系抽取方法包括:规则模板法、依存分析法、机器学习法,它们属于 适用于所有语料的通用方法,普适性很好,可以抽取出“是”字句中存在的关系。但是,这些 方法没有考虑“是”字句结构特点,存在抽取效率低、准确性差等问题。 所以,需要根据“是”字句的结构特点,开发专用的关系抽取方法和装置,提高抽取 效率和准确性。
技术实现要素:
为了解决以上技术问题,本发明提供了一种基于依存关系的“是”字句关系抽取方 法,解决当前通用型关系抽取方法处理“是”字句语料时存在的效率低下、准确性差等问题, 提高关系抽取的效果。 本发明的技术方案是: 一种基于依存关系的“是”字句关系抽取方法,包括以下步骤: S1:初始化原始句子是否已简化标识isSimplified=false、“是”字前后子句位置 是否已颠倒标识isReversed=false; S2:删除谓词“是”后进行依存句法分析; S3:判断删除谓词“是”后实体之间是否存在传递依存关系,如果不存在转S4,否则 转SB; S4:替换谓词“是”后进行依存句法分析; S5:判断替换谓词“是”后实体之间是否存在传递依存关系,如果不存在转S6,否则 5 CN 111597794 A 说 明 书 2/9 页 转SB; S6:如果isReversed==false,那么转S7,否则转S8; S7:颠倒谓词“是”字的前后子句的位置,isReversed=true,转S2; S8:如果isSimplified==false,那么转S9,否则转SC; S9:根据谓词“是”字简化原始句子; SA:更新isSimplified=true、isReversed=false,转S2; SB:根据实体之间的传递依存关系抽取关系三元组; SC:存储所抽取的关系三元组。 进一步的,所述步骤S2具体包括: S21:删除待处理句子中的谓词“是”字; S22:对句子进行分词和词性标注; S23:识别出句子中的命名实体; S24:对句子进行依存句法分析; S25:返回命名实体和依存关系。 进一步的,所述步骤S4具体包括: S41:如果谓词“是”字后面子句存在结构助词(如“的”),那么转S42,否则转S44; S42:使用谓词“是”字后面子句的结构助词替换“是”字; S43:删除谓词“是”字后面子句的结构助词,转S45; S44:使用结构助词替换谓词“是”字; S45:对句子进行分词和词性标注; S46:识别出句子中的命名实体; S47:对句子进行依存句法分析; S48:返回命名实体和依存关系。 进一步的,所述步骤S9具体包括: S91:对句子进行分词和词性标注; S92:获取句子中除“是”外其它词汇的集合WordSet; S93:识别出句子中的命名实体; S94:对句子进行依存句法分析; S95:从“是”向前寻找具有SBV关系的词汇Word_SBV; S96:从Word_SBV开始,沿着关系弧箭头逐个寻找对应的词汇,直到找到实体为止; S97:从“是”向后寻找具有VOB关系的词汇Word_VOB; S98:从Word_VOB开始,沿着关系弧箭头逐个寻找对应的词汇,直到找到实体为止; S99:如果WordSet中存在没有访问过的词汇,那么转S9A,否则转S9B; S9A:删除句子中没有访问过的词汇,转S91; S9B:返回简化后的句子。 进一步的,所述步骤SB具体包括: SB1:初始化i=1,j=2; SB2:读取实体Ei和Ej; SB3:如果实体Ei和Ej均和词汇α存在依存关系,那么转SB4,否则转SB5; 6 CN 111597794 A 说 明 书 3/9 页 SB4:抽取关系三元组(Ei,α,Ej); SB5:j=j 1; SB6:如果j>n,那么转SB8,否则转SB7; SB7:读取实体Ej,转SB3; SB8:i=i 1,j=i 1; SB9:如果i>=n,转SBA,否则转SB2; SBA:返回所抽取的关系三元组。 本发明还提供了一种基于依存关系的“是”字句关系抽取装置,包括: 删除谓词“是”后依存句法分析部件M1,用于获取删除句子中谓词“是”字后的命名 实体和依存关系; 传递依存关系检测部件M2,用于检测是否存在和句子中两个实体都存在依存关系 的词汇; 替换谓词“是”后依存句法分析部件M3,用于获取替换句子中谓词“是”字后的命名 实体和依存关系; 根据谓词“是”字简化原始句子部件M4,用于根据SBV和VOB关系的遍历结果来简化 句子; 根据传递依存关系抽取关系三元组部件M5,用于直接获取原始句子中存在的语义 三元组。 进一步的, 所述删除谓词“是”后依存句法分析部件M1,具体包括: 删除谓词“是”字部件M11,用于删除句子中的谓词“是”字; 分词和词性标注部件M12,用于将待处理句子分隔为若干词汇,并标注每个词汇的 词性; 命名实体识别部件M13,用于获取待处理句子中的命名实体; 依存句法分析部件M14,用于获取待处理句子中词汇间的语义关系。 进一步的, 所述替换谓词“是”后依存句法分析部件M3,具体包括: 替换谓词“是”字部件M31,用于使用结构助词替换句子中的谓词“是”字; 分词和词性标注部件M32,用于将待处理句子分隔为若干词汇,并标注每个词汇的 词性; 命名实体识别部件M33,用于获取待处理句子中的命名实体; 依存句法分析部件M34,用于获取待处理句子中词汇间的语义关系。 进一步的, 所述根据谓词“是”字简化原始句子部件M4,具体包括: 分词和词性标注部件M41,用于将待处理句子分隔为若干词汇,并标注每个词汇的 词性; 词汇集合生成部件M42,用于生成待处理句子中除“是”外其它词汇的集合 WordSet; 命名实体识别部件M43,用于获取待处理句子中的命名实体; 7 CN 111597794 A 说 明 书 4/9 页 依存句法分析部件M44,用于获取待处理句子中词汇间的语义关系; SBV关系弧遍历部件M45,用于从“是”字沿着SBV关系弧逐个寻找对应的词汇,直到 找到实体为止; VOB关系弧遍历部件M46,用于从“是”字沿着VOB关系弧逐个寻找对应的词汇,直到 找到实体为止; 未遍历词检测部件M47,用于检测WordSet中是否存在没有访问过的词汇; 未遍历词删除部件M48,用于删除待处理句子中没有访问过的词汇。 进一步的, 所述根据传递依存关系抽取关系三元组部件M5,具体包括: 实体对读取部件M51,用于读取原始句子中的任意两个实体; 传递依存关系检测部件M52,用于检测是否存在和句子中两个实体都存在依存关 系的词汇; 关系三元组构建部件M53,用于根据两个实体以及和它们存在依存关系的词汇构 建出关系三元组。 本发明的有益效果是 通过对“是”字句进行删除或替换谓词“是”字、颠倒谓词“是”字前后子句位置、根 据谓词“是”字简化原始句子等操作,然后进行依存句法分析,可以呈现出实体之间的传递 依存关系,从而得到描述两个实体之间语义关系的三元组,操作简单且速度很快。本发明可 以解决当前通用型关系抽取方法(规则模板法、依存分析法、机器学习法等)处理“是”字句 时存在的效率低下、准确性差等问题,提高关系抽取的效果。 附图说明 图1是本发明的基于依存关系的“是”字句关系抽取方法的步骤流程图; 图2是步骤S2的具体步骤流程图; 图3是步骤S4的具体步骤流程图; 图4是步骤S9的具体步骤流程图; 图5是步骤SB的具体步骤流程图; 图6是实施例A删除谓词“是”后的依存句法分析结果; 图7是实施例A替换谓词“是”后的依存句法分析结果; 图8是实施例B删除谓词“是”后的依存句法分析结果; 图9是实施例B替换谓词“是”后的依存句法分析结果; 图10是实施例B_Inv删除谓词“是”后的依存句法分析结果; 图11是实施例B_Inv替换谓词“是”后的依存句法分析结果; 图12是实施例B的依存句法分析结果; 图13是实施例B_Simp_1st的依存句法分析结果; 图14是实施例B_Simp_2nd的依存句法分析结果; 图15是实施例B_Simp_2nd删除谓词“是”后的依存句法分析结果; 图16是实施例B_Simp_2nd替换谓词“是”后的依存句法分析结果; 图17是本发明的基于依存关系的“是”字句关系抽取装置的结构框图; 8 CN 111597794 A 说 明 书 5/9 页 图18是删除谓词“是”后依存句法分析部件M1的结构框图; 图19是替换谓词“是”后依存句法分析部件M3的结构框图; 图20是根据谓词“是”字简化原始句子部件M4的结构框图; 图21是根据传递依存关系抽取关系三元组部件M5的结构框图。