
技术摘要:
本发明公开了一种基于属性和结构深度融合的网络嵌入方法,包括以下步骤:S1.得到重构后编码层的节点属性特征;S2.获得带有节点属性特征的节点属性信息序列;S3.将节点属性信息序列翻译为节点身份序列,得到能保留原有网络的网络结构和节点属性信息的节点嵌入向量表示; 全部
背景技术:
数据挖掘领域一直是备受大众关注的领域,尤其随着近几年各种社会网络数据的 大量出现,比如微博网络、交通运输网络等,使得针对关于社会网络的研究分析变得尤为重 要。由于这些网络数据具有大规模、高度非线性和丰富的节点属性信息的特征,传统的基于 网络邻接矩阵的进行分析的方法,很容易出现计算资源和空间资源成本高昂的问题,使得 无法进行有效的数据分析任务,比如网络节点分类和聚类任务、推荐任务和可视化任务等。 因此,网络嵌入技术的研究出现使得这一问题得以有效解决,它旨在寻找一个合适的映射 函数将大规模和高纬度网络数据映射到一个低纬度的向量空间,同时保留原有网络的固有 属性,即将学习到所有网络节点的嵌入向量表示。这样的节点嵌入向量表示不但能有效的 保留原有网络的结构和属性特征,而且能有效的被机器学习相关技术使用,便于进一步的 网络数据研究分析。 尽管现在网络嵌入研究已有些非常好的工作,比如针对捕获网络结构信息的网络 嵌入方法,DeepWalk方法提出通过截断随机游走得到节点序列,然后利用自然语言处理技 术中skip-gram模型去学得网络节点的嵌入向量表示。LINE方法就提出对网络结构的一阶 和二阶相似性建模,考虑到直接相连的两个节点拥有相近的向量表示,即使不相连的节点 但它们拥有共同的邻居也会有相近的向量表示,从而设计针对性的损失函数得到有效的节 点嵌入向量表示。为了解决网络数据的高度非线性问题,SDNE方法利用深度自编码器技术 去挖掘网络结构信息同时保留网络结构的高度非线性。然而,在真实的网络数据中,网络节 点是有丰富的属性信息,因此针对联合捕获网络结构和节点属性信息的方法也随之提出, 比如SNE方法提出对社会网络中节点的结构和属性相似性进行学习。ANRL方法设计基于自 编码器的属性感知skip-gram模块去捕获网络结构和节点属性相似性。STNE方法提出利用 自我翻译网络嵌入模型来深度融合网络结构和节点属性信息得到有效的节点嵌入向量表 示。 所有上述的网络嵌入方法虽然在有些网络分析任务上有着良好的表现,但是还存 在着以下几个问题。首先大部分方法都是分别建模网络结构相似性和节点属性相似性,然 后融合考虑学习最终的网络节点嵌入向量表示;第二现实网络中存在着高阶结构语义相似 性,换句话说两个节点尽管相隔很远,但是两个节点所处的邻居范围内结构语义相似,因此 这两个节点也是语义相似的;第三现有的大部分方法仅仅是考虑如何在整体框架中融合网 络结构和节点属性信息,忽略了在低阶结构和高阶结构语义中的节点属性语义关系的相似 性。 综上所述,现有的网络嵌入方法针对以上提出的问题目前还没有很好的解决方 法,因此,如何提供一种能有效解决上述缺陷的基于属性和结构深度融合的网络嵌入方法 4 CN 111598223 A 说 明 书 2/8 页 及其模型是本领域技术人员亟需解决的问题。
技术实现要素:
有鉴于此,本发明提供了一种基于属性和结构深度融合的网络嵌入方法及其模 型,通过该方法及其模型所学习到的网路节点嵌入向量表示能有效保留原有网络的丰富属 性,并且有效的利用在众多的网络数据分析任务上,提升网络分析的精度。 为了实现上述目的,本发明采用如下技术方案: 一种基于属性和结构深度融合的网络嵌入方法,包括以下步骤: S1 .通过启发式方法融合当前节点的所有邻居节点的节点属性特征,得到融合后 的节点属性特征,利用深度自动编码器对网络中各个节点的节点属性特征进行编码和解 码,进而对解码后的节点属性特征与融合后的节点属性特征进行重构,得到重构后编码层 的节点属性特征; S2.将重构后编码层的节点属性特征和通过随机游走生成的节点序列进行融合, 获得带有节点属性特征的节点属性信息序列; S3.将节点属性信息序列输入至自我翻译框架中,构建节点属性信息序列到节点 身份序列的自我翻译过程,得到能保留原有网络的网络结构和节点属性信息的节点嵌入向 量表示; S4.通过真实网络数据集进行验证。 优选的,在S1中,得到融合后的节点属性特征的具体内容为:每个节点属性特征更 新为当前节点所有邻居节点属性特征的中值,融合后的节点属性特征表示为: 其中 |N(i)|是节点ui的邻居,k是节点属性特 征向量的第k个维度。 优选的,在S3中,节点属性信息序列到节点身份序列的自我翻译过程具体包括以 下内容: 对节点属性信息序列进行编码,引入注意力机制对编码后所学到的特征信息进行 权重分配,并进一步进行解码,最后实现整个节点属性信息序列到节点身份序列的自我翻 译过程。 优选的,对节点属性信息序列进行编码后输出的隐层表示为网络节点嵌入向量表 示。 一种基于属性和结构深度融合的网络嵌入模型,包括:多模态属性感知模块、属性 嵌入层和多跳结构感知模块;所述多模态属性感知模块通过所述属性嵌入层与所述多跳结 构感知模块相连; 所述多模态属性感知模块,用于通过启发式方法融合当前节点的所有邻居节点的 节点属性特征,得到融合后的节点属性特征,利用深度自动编码器对网络中各个节点的节 点属性特征进行编码和解码,进而对解码后的节点属性特征与融合后的节点属性特征进行 重构,得到重构后编码层的节点属性特征; 所述属性嵌入层,用于将所述多模态属性感知模块得到的重构后编码层的节点属 5 CN 111598223 A 说 明 书 3/8 页 性特征和通过随机游走生成的节点序列进行融合,获得带有节点属性特征的节点属性信息 序列; 所述多跳结构感知模块,用于将所述属性嵌入层所获得的节点属性信息序列输入 至自我翻译框架中,构建节点属性信息序列到节点身份序列的自我翻译过程,得到能保留 原有网络的网络结构和节点属性信息的节点嵌入向量表示。 优选的,所述多模态属性感知模块包括邻居节点融合单元、深度自动编码器和重 构单元;所述邻居节点融合单元、所述深度自动编码器和所述重构单元依次连接; 其中,所述邻居节点融合单元用于获取融合后的节点属性特征; 所述深度自动编码器包括第一编码层和第一解码层,所述第一编码层用于对网络 中各个节点的节点属性特征进行编码,所述第一解码层用于对编码后的节点属性特征进行 解码,得到解码后的节点属性特征; 所述重构单元,用于对解码后的节点属性特征与融合后的节点属性特征进行重 构。 优选的,所述多跳结构感知模块包括:自我翻译框架和注意力层; 所述自我翻译框架包括第二编码层、第二解码层、翻译层和softmax层; 所述第二编码层用于对节点属性信息序列进行编码; 所述注意力层设置于所述第二编码层和所述第二解码层之间,用于向所述自我翻 译框架内引入注意力机制从而对编码后所学到的特征信息进行权重分配; 所述第二解码层用于对编码后并进行过权重分配的节点属性信息序列进行解码; 所述翻译层,用于将第二解码层解码后得到的节点语义特征向量翻译到节点身份 序列; 所述softmax层,用于将翻译层得到的特征向量转换为概率值。 经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于属性和 结构深度融合的网络嵌入方法及其模型,针对现有技术中存在的问题,通过本发明中所公 开的该方法及其模型所得到的节点嵌入向量表示不仅能捕获低阶的结构和属性相似性,还 能进一步捕获高阶结构语义和节点属性相似性,同时还能有效保留原有网络的结构和属性 特征,有效保证了其精确性和实用性。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。 图1附图为本发明提供的一种基于属性和结构深度融合的网络嵌入方法的动机结 构图; 图2附图为本发明提供的一种基于属性和结构深度融合的网络嵌入模型的整体架 构图; 图3附图为考虑输入到多跳结构感知模块中不同属性特征嵌入维度在三个数据集 上的节点分类任务的影响的柱状图; 6 CN 111598223 A 说 明 书 4/8 页 图4附图为考虑随机游走中不同游走长度在三个数据集上的节点分类任务的影响 的柱状图; 图5附图为考虑不同的节点嵌入表示在三个数据集上的节点分类任务的差别的折 线图; 图6附图为本发明提供的对模型在不同模块进行消融实验上三个数据集的节点分 类任务的影响的折线图。