logo好方法网

人员关系分析方法、装置及电子设备


技术摘要:
本发明提供了一种人员关系分析方法、装置及电子设备,涉及关系分析技术领域,包括获取人与人之间的行为信息,并根据行为信息计算得到边权重;由边权重决定在上一节点确定的情况下,不同路径的选择概率,随机采样得到一条节点序列;针对节点序列,使用对数似然函数,最  全部
背景技术:
现有技术中,为了计算人员亲密度,通常采用图算法或者图挖掘技术进行计算,这 些方法往往都是对人与人之间的某些行为次数进行加权求和,进而计算人员亲密度。但是, 在不同的社区可能存在不同的活跃度,同样的行为和次数,在一些不活跃社区中的人与人 关系应该比活跃社区中具有更高的亲密度,通过加权求和就会造成计算不准确的问题。
技术实现要素:
本发明的目的在于提供一种人员关系分析方法、装置及电子设备,可以有效提高 计算人员亲密度值的可靠性。 第一方面,本发明提供了一种人员关系分析方法,其中,包括: 获取人与人之间的行为信息,并根据所述行为信息计算得到边权重; 由所述边权重决定在上一节点确定的情况下,不同路径的选择概率,随机采样得 到一条节点序列,针对节点序列,使用对数似然函数,最大化节点序列出现的概率,从而获 得最优的嵌入向量; 基于密度聚类算法对所述向量模型进行聚类处理,得到所述向量模型中相同簇的 嵌入向量; 基于所述嵌入向量建立所述相同簇的包围圆,并计算所述包围圆的半径值; 根据所述半径值和所述边权重计算得到人员亲密度值。 进一步的,所述根据所述行为信息计算得到边权重的步骤,包括: 根据以下算式计算所述边权重: 其中, 为两个人员之间的行为频次,kr为行为权重,r为行为种类。 进一步的,所述由所述边权重决定在上一节点确定的情况下,不同路径的选择概 率,随机采样得到一条节点序列,针对节点序列,使用对数似然函数,最大化节点序列出现 的概率,从而获得最优的嵌入向量的步骤,包括: 根据所述边权重建立人员关系图,将所述人员关系图定义为G(V,E),其中,V为节 点集合,节点vi∈V在该图中代表第i个人员,E为边集合,e(vi,vj)∈E在该图中表示节点vi 和vj之间的边,其实际意义为第i人和第j之间的关系; 根据所述节点集合中的一个节点s1为起点,基于上述边权重计算采用概率,进行 随机游走,生成一条节点序列,记为S={s1,s2,...,sn},si∈V,采用概率公式为: 5 CN 111611531 A 说 明 书 2/10 页 其中,st和st-1分别代表当前时刻和上一时刻的节点,其物理意义为上一时刻节点 为v的情况下,当前节点选择u的概率; 对序列S以2w 1为窗口长度进行遍历,每次迭代过程中可以得到一个以节点si为 中心的窗口W(i),其中中心节点si∈S,窗口W(i)=S[i-w:i w]; 基于所述窗口W(i)建立概率公式,其中,所述概率公式的计算算式为: 其中,si是窗口中心节点,sk是窗口W(i)内除si外的任意节点,P(sk|si)为一个 softmax函数,代表si和sk同时出现在一个窗口内的概率,具体计算式为: 其中,vj表示V中的任一节点,f(si)表示输入节点si的嵌入向量。 进一步的,所述由所述边权重决定在上一节点确定的情况下,不同路径的选择概 率,随机采样得到一条节点序列,针对节点序列,使用对数似然函数,最大化节点序列出现 的概率,从而获得最优的嵌入向量的步骤,还包括: 对所述概率公式使用对数似然函数作为目标函数,并进行求和得到序列中所有窗 口的总目标函数值,以最大化节点序列出现的概率,所述总目标函数值的计算算式为: 其中,P(W(i)丨si)为单个窗口内部的概率函数,S为窗口节点序列; 将所述总目标函数值的映射节点转化为映射向量; 对所述映射向量进行学习得到所述向量模型。 进一步的,所述基于所述嵌入向量建立所述相同簇的包围圆的步骤,包括: 对嵌入结果使用DBSCAN方法进行聚类,将所有节点划分出多个簇; 对每个簇随机打散簇内所有嵌入点顺序,选取前两个点,这两个点的中心为圆心, 欧式距离的一半作为半径,构建最小包围圆; 对剩余点进行无放回抽样,计算抽样点距离圆心半径; 判断抽样点是否在圆内,若是,则继续抽样,若不是,则以新抽样点和距离该点最 远的另一个点连线作为直径,重新构建最小包围圆; 经过反复迭代,当连续出现抽样点在圆内的次数大于提前设置好的次数N,则认为 已经得到该簇的最小包围圆。 进一步的,所述根据所述半径值和所述边权重计算得到人员亲密度值的步骤,包 括: 根据以下算式对所有人员之间关系亲密度值进行更新: 6 CN 111611531 A 说 明 书 3/10 页 其中,Ai ,j为最终计算得到的人员亲密度值,mi ,j为边权重,Rl为第l个簇的最小包 围圆半径值。 第二方面,本发明提供了一种人员关系分析装置,其中,获取单元,用于获取人与 人之间的行为信息,并根据所述行为信息计算得到边权重; 嵌入向量单元,用于由所述边权重决定在上一节点确定的情况下,不同路径的选 择概率,随机采样得到一条节点序列,针对节点序列,使用对数似然函数,最大化节点序列 出现的概率,从而获得最优的嵌入向量; 聚类处理单元,用于基于密度聚类算法对所述向量模型进行聚类处理,得到所述 向量模型中相同簇的嵌入向量; 包围圆建立单元,用于基于所述嵌入向量建立所述相同簇的包围圆,并计算所述 包围圆的半径值; 亲密度值计算单元,用于根据所述半径值和所述边权重计算得到人员亲密度值。 进一步的,所述嵌入向量单元还用于: 根据所述边权重建立人员关系图,将所述人员关系图定义为G(V,E),其中,V为节 点集合,节点vi∈V在该图中代表第i个人员,E为边集合,e(vi,vj)∈E在该图中表示节点vi 和vj之间的边,其实际意义为第i人和第j之间的关系; 根据所述节点集合中的一个节点vi为起点,基于上述边权重计算采用概率,进行 随机游走,生成一条节点序列,记为 采用概率公式为: 其中,st和st-1分别代表当前时刻和上一时刻的节点,其物理意义为上一时刻节点 为v的情况下,当前节点选择u的概率; 对序列S以2w 1为窗口长度进行遍历,每次迭代过程中可以得到一个以节点si为 中心的窗口W(i),其中中心节点si∈S,窗口W(i)=S[i-w:i w]; 基于所述窗口W(i)建立概率公式,其中,所述概率公式的计算算式为: 其中,si是窗口中心节点,uk是窗口W(i)内除si外的任意节点,P(uk|si)为一个 softmax函数,代表si和uk同时出现在一个窗口内的概率,具体计算式为: 其中,vj表示V中的任一节点,函数f表示输入节点的嵌入向量。 对所述概率公式使用对数似然函数作为目标函数,并进行求和得到序列中所有窗 口的总目标函数值,以最大化节点序列出现的概率,所述总目标函数值的计算算式为: 7 CN 111611531 A 说 明 书 4/10 页 其中,P(W(i)丨si)为单个窗口内部的概率函数,S为窗口节点序列; 将所述总目标函数值的映射节点转化为映射向量; 对所述映射向量进行学习得到所述向量模型。 第三方面,本发明提供了一种电子设备,其中,包括处理器和存储器,所述存储器 存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指 令以实现第一方面所述的一种人员关系分析方法的步骤。 第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上 存储有计算机程序,其中,所述计算机程序被处理器运行时执行第一方面所述的一种人员 关系分析方法的步骤。 本发明实施例带来了以下有益效果: 本发明提供了一种人员关系分析方法、装置及电子设备,通过获取人与人之间的 行为信息,并根据行为信息计算得到边权重;再根据边权重建立目标函数,并对目标函数进 行训练得到向量模型;然后基于密度聚类算法对向量模型进行聚类处理,得到向量模型中 相同簇的嵌入向量;接着基于嵌入向量建立相同簇的包围圆,并计算包围圆的半径值;最后 根据半径值和边权重计算得到人员亲密度值。在本实施例提供的上述方式中,通过获取人 与人之间的行为信息后计算得到边权重,由边权重建立目标函数,对目标函数训练后得到 向量模型,再基于密度聚类算法对向量模型进行聚类处理得到嵌入向量,根据嵌入向量建 立包围圆,进而包括了嵌入向量中所有簇,最终根据包围圆的半径值和边权重计算得到人 员亲密度值,避免了在一些不活跃社区中的人与人关系应该比活跃社区中具有更高的亲密 度,通过加权求和就会造成计算不准确的问题,可以有效提高计算人员亲密度值的可靠性。 附图说明 为了更清楚地说明本发明
分享到:
收藏