
技术摘要:
本发明提供一种社交网络事件的检测方法和装置,所述方法包括:将数据集中提取的推文和标签作为节点,构建社交网络事件异构图;基于异构图中推文和标签的文本内容构建语义视图,获得其特征矩阵和加权邻接矩阵;基于异构图中推文及推文的时间构建时间分布视图,获得其特 全部
背景技术:
社交网络事件检测是目前研究的热点问题。大多数传统的事件检测方法都是基于 消息内容的语义分析方法,它们通常取决于文本表示技术,例如传统的主题模型和基于句 子的深度神经网络的序列表示等。主题模型方法构建图模型挖掘文本词与主题之间的分布 关系,实现文本的相似性比较。TwitterLDA是第一个为推文(Tweet)数据提出的用于短文本 语义分析的主题模型。近年来,随着深度学习的兴起,循环神经网络(RNN)、卷积神经网络 (CNN)和图卷积神经网络(GCN)技术在事件检测中也取得了令人瞩目的成就。例如JEDS通过 设计深度神经模型进行短文本表示,联合实现事件检测和摘要。PTE在深度神经网络中学习 并聚合文本的多个位置表示以实现文本的语义匹配。Text GCN构造一个包含文档和单词的 异构图,以实现基于GCN的文本表示与精准分类。尽管基于文本内容的语义分析方法可以充 分考虑文本的局部和全局的语义,但是面对稀疏和非正式的文本数据,仅分析现有文本的 主题模型和深度学习方法将会受到极大的阻碍,导致事件检测中的效果并不理想。 目前另一项研究重点采用社交网络属性特征来避免短文本的缺陷,来改进事件检 测的性能和效果。此项研究通过使用引入的外部因素来辅助事件检测,这些外部因素主要 包括主题标签、时间信息和空间信息。采用这些外部因素是因为主题标签是简洁的摘要,并 随事件而散布,而时间和空间则反映了事件传播的轨迹。其他研究还尝试利用不同的社交 属性,例如提及、转发、评论等来辅助事件检测。此外,为了更充分地利用事件的特征,在主 题模型中集成了社交网络的内容和属性以相互制约和互补,例如融合文本、图像、时间、空 间和社交特征标签。大量研究倾向于通过不同的社交关系或特征来构建图模型,以融合更 多属性。尽管这种方法可以融合多种特征,能够实现对文本内容的扩展,但是所有这些方法 都可能引入干扰事件检测的无关信息,如在时间分布或空间邻近度方面考虑突发特征频率 的方法,它们主要依赖于检测特定特征在一段时间或区域内的频率增加,仅能够挖掘具有 高突发性的部分事件。并且,这些方法融合了事件的更多特征,但是这些属性通常是对内容 的补充,它们只是对事件的一个视角下的补充和融合,而没有充分发挥每个关键特征的独 立性和优势。 目前,还存在基于多视图和社交网络图的事件检测的尝试,但基于多视图和社交 网络图的事件检测尚存在若干挑战。大多数现有的社交网络图模型都建立在标签节点上, 但标签节点无法挖掘短文本之间的关联。而社交网络异构图是由多种类型的节点构建的, 可通过社交关系对短文本进行建模,但是,由于社交网络异构图中存在不同的元素,文本节 点的关系松散,语义相关性无法得到充分挖掘。而且,多种视角之间需要满足独立性和互补 性。所以,有大量的方法结合多视图数据进行特征表示,但其并没有通过共识信息充分探索 不同视角之间的潜在语义相关性。因此,如何充分挖掘社交网络的多属性信息,利用多视角 5 CN 111598710 A 说 明 书 2/12 页 进行充分的语义融合和特征表示不仅是面向社交网络事件检测的发展趋势,也是一个巨大 的挑战。 如何提高社交网络事件的检测效果,是一个亟待解决的问题。
技术实现要素:
鉴于此,本发明提出了一种社交网络事件的检测方法和装置,以消除或改善现有 技术中存在的一个或更多个缺陷。 本发明的技术方案如下: 根据本发明的一方面,提出了一种社交网络事件的检测方法,该方法包括以下步 骤: 从预先采集的数据集中提取推文和标签文本信息作为节点,基于提取的推文和标 签之间的共现关系来构建社交网络事件异构图; 基于所述社交网络事件异构图得到包含推文节点和标签节点的语义视图,并基于 语义视图中推文节点和标签节点文本内容特征空间,进行一致性特征空间的映射,获得语 义视图的语义特征矩阵和对应的加权邻接矩阵; 基于所述社交网络事件异构图中的推文节点,得到包含推文节点的时间分布视 图,并基于所述时间分布视图获得时间分布特征矩阵和对应的加权邻接矩阵,所述时间分 布特征矩阵包括各推文节点的时间信息及与各推文节点相关的标签节点的时间信息的表 示; 将所述语义特征矩阵和对应的加权邻接矩阵,以及时间分布特征矩阵和对应的加 权邻接矩阵分别输入至图卷积神经网络GCN中进行特征学习,将学习到的特征通过标签注 意引导和融合,实现对节点的事件分类,以基于节点事件分类结果进行社交网络事件的检 测。 可选地,所述基于提取的推文和标签之间的共现关系来构建社交网络事件异构 图,包括:在标签是推文的一部分或推文与标签所在的消息有相同的URL的情况下,在推文 与标签之间建立连接边;在两个标签出现在同一条推文中或两个标签所在的消息有相同的 URL的情况下,在所述两个标签的节点之间建立连接边;在两个推文中包含相同的标签或两 个推文有相同的URL的情况下,在所述两个推文的节点之间建立连接边。 可选地,所述基于语义视图中推文节点和标签节点文本内容特征空间,进行一致 性特征空间的映射,获得语义视图的语义特征矩阵和对应的加权邻接矩阵,包括: 基于从数据集中提取的所有标签和从语料库中选择的频率最高的第一数量的单 词生成特征词典,作为一致性特征空间; 对每个节点进行一致性特征空间的映射,基于如下公式获得每个节点的语义特征 的特征向量: 基于获得的特征向量得到N个节点的语义特征矩阵Xs∈RN*ds; 利用节点之间不同节点对的语义关联度生成语义特征矩阵对应的加权邻接矩阵; 其中, 为语义视图中节点vi的语义特征的第j维向量,fs为映射函数,ds为特征向 6 CN 111598710 A 说 明 书 3/12 页 量的维数,ds=2000 (N-n),N为节点数,n为推文数,N-n为标签数,RN*ds表示语义特征矩阵 的N*ds个元素。 可选地,所述节点之间不同节点对的语义关联度用所述社交网络事件异构图中不 同节点对间的连接边的条数表示,不同节点对间的语义关联度与不同节点对间的连接边的 条数成正比。 可选地,所述基于所述社交网络事件异构图中的推文节点,得到包含推文节点的 时间分布视图,并基于所述时间分布视图获得时间分布特征矩阵和对应的加权邻接矩阵, 包括:通过在所述社交网络事件异构图中保留推文节点并删除标签节点而得到包含推文节 点的时间分布视图;基于数据集中标签节点的发布时间来构建时间字典;基于时间字典将 标签节点的时间特征表示为向量,将所述社交网络事件异构图中直接连接到推文节点的所 有标签节点对应的时间特征进行组合,作为推文节点的扩展时间特征;利用推文节点自身 的时间特征和扩展时间特征获得推文节点的时间分布特征矩阵;基于时间分布视图中两个 相邻推文节点之间的时间相似性生成时间分布特征矩阵对应的加权邻接矩阵。 可选地,所述将所述语义特征矩阵和对应的加权邻接矩阵,以及时间分布特征矩 阵和对应的加权邻接矩阵分别输入至图卷积神经网络GCN中进行特征学习,将学习到的特 征通过标签注意引导和融合,实现对节点的事件分类,以基于节点事件分类结果进行社交 网络事件的检测,包括: 将所述语义特征矩阵和对应的加权邻接矩阵,以及时间分布特征矩阵和对应的加 权邻接矩阵分别输入至多层图卷积神经网络GCN,得到新的语义特征矩阵和新的时间分布 特征矩阵,将所述新的语义特征矩阵分割成文本语义特征矩阵和标签特征矩阵; 采用标签引导文本语义特征和时间分布特征,利用第一softmax函数生成各个标 签对应的文本语义注意力分布和时间注意力分布; 在同一标签下进行文本语义特征和时间特征融合,以生成统一矩阵,将所述统一 矩阵输入至全连接层,通过第二softmax函数输出得到所述社交网络事件异构图中的各节 点的事件分类预测,以基于节点事件分类结果进行社交网络事件的检测。 可选地,利用推文节点自身的时间特征和扩展时间特征获得推文节点的时间分布 特征矩阵包括:基于如下公式获得各推文节点的时间分布特征,并由此获得所有推文节点 的时间分布特征矩阵: 基于如下公式计算时间分布视图中两个相邻推文节点之间的时间相似性: 其中,[;]表示两个向量的级联; 表示标签节点的时间特征的按位组合; 为推 文节点i的时间分布特征;所有推文节点的时间分布特征矩阵表示为 dt=1 T,T 为时间词典的大小; 为时间分布视图中两个相邻推文节点i和j的时间相似性, 7 CN 111598710 A 说 明 书 4/12 页 表示两个相邻推文节点之间的发布时间的差值,λ为每单位时间内事件发生的 次数。 可选地,所述方法还包括:利用损失函数来计算第二softmax函数的输出的交叉熵 误差值,并用所述交叉熵误差值来更新图卷积神经网络参数,所述损失函数的公式表示为: 其中,L为交叉熵误差值,C是数据集中包含的事件类别数,li为节点的真正标签,Sj 是第二softmax函数输出的第j维向量。 根据本发明的另一方面,还提供了一种社交网络事件的检测装置,该装置包括处 理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储 的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。 本发明的又一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现如前所述方法的步骤。 本发明实施例的社交网络事件的检测方法和装置,通过建立社交网络事件异构 图,分析社交网络短文本的语义和时间分布特征,对多视角下的事件表示进行融合和学习, 从而实现了准确的事件检测。 本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体 所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。 附图说明 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不 构成对本发明的限定。在附图中: 图1为本发明实施例中社交网络事件检测方法的概括示意图。 图2为本发明一实施例中社交网络事件检测方法的流程示意图。 图3为本发明一实施例中社交网络事件异构图构建过程的示意图。 图4为本发明一实施例中社交网络事件多视图表示示意图。 图5为本发明一实施例中基于GCN的标签注意力引导多视图融合模型示意图。