
技术摘要:
本发明公开了一种实体对齐方法、装置和设备。本发明的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是根据预设的基于度感知的采样策略,为合并知识图谱中的每一个关系三元 全部
背景技术:
最近几年,知识图谱(Knowledge Graph,简称KG)在人工智能的多项研究与应用中 扮演着举足轻重的角色,它作为问答、推荐系统等领域的技术基石,受到了广泛关注。知识 图谱主要描述各类实体(如中国、马云等)的属性以及它们之间的关系,通常用三元组的形 式表达:(主语,谓语,宾语)可以简写成SPO(subject,predicate,object),描述各类实体之 间关系的三元组称为关系三元组:(entity,relation,entity)。 知识图谱是从非结构化的信息中构建出来的,目前存在的知识图谱都是从各大百 科网站和非结构化的文本集中抽取出来的。由于来源的多样性,不可避免地造成了知识图 谱中三元组的差异,例如从百度百科页面抽取构成知识图谱中的某个三元组是(马云,创始 人,淘宝),而从微博或者其他资源抽取构成的另一个知识图谱中表达相同含义的三元组是 (马爸爸,创始人,某宝),这两个知识图谱由于存在互补关系,需要利用实体对齐技术进行 融合消歧,其目标主要是将两个知识图谱中表达一个意思的实体进行对齐合并,比如这里 的马云和马爸爸,某宝与淘宝。 由于不同的知识图谱对于实体各方面信息的表达差异性较大,现有针对实体对齐 的方法,大多通过知识图谱特有的三元组结构的学习来传播对齐信息,存在表达能力低和 信息传播不充分有效的问题,很难高效地获得两个距离较远的实体之间的依赖。因此,如何 高效地捕获实体间的长期依赖特征,是本领域亟待解决的重要问题之一。
技术实现要素:
鉴于此,本发明提供了一种实体对齐方法、装置和设备,本发明还相应提供了一种 计算机程序产品,通过以上形式,能够高效地捕获实体间的长期依赖特征。 关于上述本发明采用的技术方案具体如下: 第一方面,本发明提供了一种实体对齐方法,包括: 利用预设的预对齐种子,将多个知识图谱融合,得到合并知识图谱; 根据预设的基于度感知的采样策略,为所述合并知识图谱中的每一个关系三元组 进行序列采样,生成实体节点与关系节点交互出现的异质序列; 基于所述实体节点与所述关系节点在所述异质序列中的位置,以及所述关系节点 和所述实体节点彼此之间的相关性,得到目标实体表示; 利用所述目标实体表示,将多个知识图谱中的实体进行对齐。 在其中一种可能的实现方式中,所述基于所述实体节点与所述关系节点在所述异 质序列中的位置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表 示包括: 根据所述实体节点、所述关系节点以及各节点的位置关系,得到包含位置信息的 4 CN 111597276 A 说 明 书 2/16 页 实体嵌入表示和关系嵌入表示; 根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性计算,得到具有上下 文信息的实体相关表示; 根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关表示,得到所述目标 实体表示。 在其中一种可能的实现方式中,所述根据所述实体嵌入表示、所述关系嵌入表示 和所述实体相关表示,得到所述目标实体表示包括: 将所述关系嵌入表示和所述关系节点的前一个实体节点对应的实体相关表示融 合,得到关系更新表示; 将所述实体嵌入表示和对应的所述实体相关表示融合,得到实体更新表示; 将所述关系更新表示作为新的关系嵌入表示,将所述实体更新表示作为新的实体 嵌入表示,迭代上述计算过程,直至达到最大迭代次数,得到所述目标实体表示。 在其中一种可能的实现方式中,所述基于度感知的采样策略包括: 在所述合并知识图谱中,将由一个关系三元组的尾实体作为头实体的所有关系三 元组作为该关系三元组的候选三元组,构建候选三元组集合; 根据所述候选三元组集合中的各候选三元组相对于所述候选三元组集合内其他 候选三元组的度感知偏差以及相对于对应的所述关系三元组的空间关系,构建所述异质序 列。 在其中一种可能的实现方式中,所述根据所述候选三元组集合中的各候选三元组 相对于所述候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系 三元组的空间关系,构建所述异质序列包括: 计算所述合并知识图谱中各实体的度以及各关系的频率; 将各所述候选三元组中的关系的频率和尾实体的度融合,得到所述度感知偏差; 根据各所述候选三元组的尾实体与所述关系三元组的头实体之间的距离,得到深 度感知偏差; 根据所述度感知偏差和所述深度感知偏差,构建所述异质序列。 在其中一种可能的实现方式中,所述根据所述度感知偏差和所述深度感知偏差, 构建所述异质序列包括: 计算所述度感知偏差和所述深度感知偏差的乘积,得到各所述候选三元组的转移 概率; 在各所述候选三元组中选择转移概率最大的候选三元组作为增补三元组; 将所述增补三元组作为新的关系三元组,重复执行为新的关系三元组确定增补三 元组的步骤,直到所述异质序列达到预设长度。 第二方面,本发明提供了一种实体对齐装置,包括: 知识图谱融合模块,用于利用预设的预对齐种子,将多个知识图谱融合,得到合并 知识图谱; 异质序列生成模块,用于根据预设的基于度感知的采样策略,为所述合并知识图 谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交互出现的异质序列; 实体表示模块,用于基于所述实体节点与所述关系节点在所述异质序列中的位 5 CN 111597276 A 说 明 书 3/16 页 置,以及所述关系节点和所述实体节点彼此之间的相关性,得到目标实体表示; 实体对齐模块,用于利用所述目标实体表示,将多个知识图谱中的实体进行对齐。 在其中一种可能的实现方式中,所述实体表示模块包括: 嵌入表示单元,用于根据所述实体节点、所述关系节点以及各节点的位置关系,得 到包含位置信息的实体嵌入表示和关系嵌入表示; 相关表示单元,用于根据各所述实体嵌入表示和各所述关系嵌入表示进行相关性 计算,得到具有上下文信息的实体相关表示; 目标表示单元,用于根据所述实体嵌入表示、所述关系嵌入表示和所述实体相关 表示,得到所述目标实体表示。 在其中一种可能的实现方式中,所述异质序列生成模块包括: 候选三元组建立单元,用于在所述合并知识图谱中,将由一个关系三元组的尾实 体作为头实体的所有关系三元组作为该关系三元组的候选三元组,构建候选三元组集合; 异质序列构建单元,用于根据所述候选三元组集合中的各候选三元组相对于所述 候选三元组集合内其他候选三元组的度感知偏差以及相对于对应的所述关系三元组的空 间关系,构建所述异质序列。 第三方面,本发明提供了一种实体对齐设备,包括: 一个或多个处理器、存储器以及一个或多个计算机程序,所述存储器可以采用非 易失性存储介质,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多 个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行如第一方面或 者第一方面的任一可能实现方式中的所述方法。 第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存 储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面或者第一方面的任 一可能实现方式中的所述方法。 本发明的核心构思在于提出一种根据基于度感知的采样策略生成异质序列,并基 于异质序列中各节点彼此之间的相关性得到目标实体表示的实体对齐方案,具体是利用预 设的预对齐种子,将多个知识图谱融合,得到合并知识图谱;根据预设的基于度感知的采样 策略,为合并知识图谱中的每一个关系三元组进行序列采样,生成实体节点与关系节点交 互出现的异质序列;基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体 节点彼此之间的相关性,得到目标实体表示;利用目标实体表示,将多个知识图谱中的实体 进行对齐。由于基于实体节点与关系节点在异质序列中的位置,以及关系节点和实体节点 彼此之间的相关性,得到目标实体表示,可以加强实体间的依赖性,便于捕捉实体间长距离 的互相依赖特征,得到具有长期依赖特征的实体表示,进而提高对实体的表示能力,可以有 效地传播对齐信息,提高实体对齐的效果;另外,根据基于度感知的采样策略生成异质序 列,便于采集三元组信息稀缺的长尾实体的信息,有效地解决采集的序列中长尾实体与正 常实体信息不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性。 进一步来说,本发明对各实体嵌入表示和各关系嵌入表示进行相关性计算,得到 具有上下文信息的实体相关表示,因此无需借助于外部信息,仅通过自身的信息来更新相 关表示参数,可以更有效地捕捉异质序列中长距离的互相依赖特征。 进一步来说,本发明考虑到实体的重要性要大于关系的重要性,将关系嵌入表示 6 CN 111597276 A 说 明 书 4/16 页 和关系节点的前一个实体节点对应的实体相关表示融合,得到关系更新表示,将实体嵌入 表示和对应的实体相关表示融合,得到实体更新表示,并以此得到目标实体表示,这样可以 体现其在先实体的重要性,对实体间的相关性进行了额外加强,可以高效地捕获实体间的 长期依赖特征。 进一步来说,本发明所采用的基于度感知的异质序列生成方法,根据度感知偏差 和深度感知偏差,构建异质序列,同时考虑了三元组之间的深层结构关联特征和距离远近 特征生成高质的异质序列,在采样时优先采集到出现次数少的实体,因此在异质序列中,长 尾实体对应的序列可以被优先采集到,有效地解决采集的序列中长尾实体与正常实体信息 不均衡的问题,便于后续基于异质序列充分地获取实体间和关系间的相关性;而且,在考虑 了距离远近特征后,在异质序列中优先出现在合并知识图谱中远离关系三元组的候选三元 组,保证生成的异质序列中不会出现重复的实体,提高生成异质序列的质量。 附图说明 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一 步描述,其中: 图1为本发明提供的实体对齐方法的实施例的流程图; 图2为本发明提供的异质序列生成与异质序列学习的实施例的示意图; 图3为本发明提供的基于度感知的采样策略的实施例的流程图; 图4为本发明提供的构建异质序列的实施例的流程图; 图5为本发明提供的根据度感知偏差和深度感知偏差构建异质序列的实施例的示 意图; 图6为本发明提供的基于实体节点与关系节点在异质序列中的位置,以及关系节 点和实体节点彼此之间的相关性得到目标实体表示的实施例的示意图; 图7为本发明提供的根据实体嵌入表示、关系嵌入表示和实体相关表示,得到目标 实体表示的实施例的流程图; 图8为本发明提供的实体对齐装置的实施例的结构示意图。