
技术摘要:
本申请公开了一种数据处理的方法、装置和存储介质,具体为获取至少一个用户实体的哈希签名,基于预先设定的相似度阈值对哈希签名进行划分,按照片段的顺序,计算任一哈希签名的至少一个次序片段与其它哈希签名的对应顺序的次序片段的相似度,累计任一哈希签名与至少一 全部
背景技术:
随着科学技术的飞速发展,实体间的相关关系及相互作用可通过量化的方式展 示。如用户间的社交、用户的行为相似度、设备的关联情况以及文章、网页间的相似度。多数 研究直接使用图来表示实体间的相互关系。但是,现实生活中的实体关系极其复杂且规模 庞大。由于实体间相似程度相差过大,这种规模庞大的复杂关系直接使用图进行连接容易 生成规模巨大的弱连接群组,从而失去了图挖掘方法发现群组的重要价值。另外,对全量数 据直接使用图算法,会影响算法效率。
技术实现要素:
本申请实施例提供了一种数据处理的方法,克服了用户实体间相似度计算不准确 且不能在实体间建立准确的相关关系的问题。 该方法包括: 获取至少一个用户实体的哈希签名; 基于预先设定的相似度阈值对所述哈希签名进行划分,得到所述哈希签名包括的 划分后的片段; 按照所述片段的顺序,计算任一所述哈希签名的至少一个次序片段与其它所述哈 希签名的对应顺序的所述次序片段的相似度,并累计所述任一哈希签名与至少一个其它所 述哈希签名在按照所述片段的顺序计算比较后的所述相似度的累计数值; 在所述相似度的累计数值低于所述相似度阈值时,建立低于所述相似度阈值的所 述相似度的累计数值对应的所述用户实体之间的群组关系。 可选地,获取至少一个用户实体的用户数据,并对所述用户数据进行哈希编码; 对完成所述哈希编码的所述用户数据进行加权和降维操作,生成所述用户实体对 应的所述哈希签名。 可选地,记录所述任一所述哈希签名的至少一个所述次序片段与其它所述哈希签 名的对应顺序的所述次序片段的差异位置,并根据所述差异位置的数量计算所述相似度。 可选地,在所述群组关系中删除所述高于所述相似度阈值的所述相似度的累计数 值对应的所述用户实体之间的联通关系。 在本发明的另一个实施例中,提供了一种数据处理的装置,该装置包括: 获取模块,用于获取至少一个用户实体的哈希签名; 生成模块,用于基于预先设定的相似度阈值对所述哈希签名进行划分,得到所述 哈希签名包括的划分后的片段; 累计模块,用于按照所述片段的顺序,计算任一所述哈希签名的至少一个次序片 段与其它所述哈希签名的对应顺序的所述次序片段的相似度,并累计所述任一哈希签名与 4 CN 111552842 A 说 明 书 2/8 页 至少一个其它所述哈希签名在按照所述片段的顺序计算后的所述相似度的累计数值; 建立模块,用于在所述相似度的累计数值低于所述相似度阈值时,建立低于所述 相似度阈值的所述相似度的累计数值对应的所述用户实体之间的群组关系。 可选地,所述获取模块包括: 获取单元,用于获取至少一个用户实体的用户数据,并对所述用户数据进行哈希 编码; 生成单元,用于对完成所述哈希编码的所述用户数据进行加权和降维操作,生成 所述用户实体对应的所述哈希签名。 可选地,所述累计模块还用于: 记录所述任一所述哈希签名的至少一个所述次序片段与其它所述哈希签名的对 应顺序的所述次序片段的差异位置,并根据所述差异位置的数量计算所述相似度。 可选地,所述装置进一步包括: 删除模块,用于在所述群组关系中删除所述高于所述相似度阈值的所述相似度的 累计数值对应的所述用户实体之间的联通关系。 在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬 时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一 种数据处理的方法中的各个步骤。 在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于 执行上述一种数据处理的方法中的各个步骤。 基于上述实施例,首先获取至少一个用户实体的哈希签名,其次,基于预先设定的 相似度阈值对哈希签名进行划分,得到哈希签名包括的划分后的片段,然后,按照片段的顺 序,计算任一哈希签名的至少一个次序片段与其它哈希签名的对应顺序的次序片段的相似 度,并累计任一哈希签名与至少一个其它哈希签名在按照片段的顺序计算后的相似度的累 计数值,最后,在相似度的累计数值低于相似度阈值时,建立低于相似度阈值的相似度的累 计数值对应的用户实体之间的群组关系。本申请实施例通过累计计算按照预先设定的相似 度阈值划分的哈希签名的各个片段与其它待比较的哈希签名的对应的片段,并在累计数值 低于相似度阈值时建立用户实体之间的群组关系,提升识别用户实体间的相关关系的准确 性。 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。 图1示出了本申请实施例100所提供的一种数据处理的方法的流程示意图; 图2示出了本申请实施例200提供的一种数据处理的方法的具体流程的示意图; 图3示出了本申请实施例300提供的建立联通图的示意图; 图4示出了本申请实施例400还提供一种数据处理的装置的示意图; 图5示出了本申请实施例500所提供的一种终端设备的示意图。 5 CN 111552842 A 说 明 书 3/8 页