logo好方法网

用户兴趣画像方法及相关设备


技术摘要:
本发明提供一种用户兴趣画像方法及相关设备。所述用户兴趣画像方法根据识别信息判断多个网站是否存在用户的注册信息,得到多个目标网站;根据多个网站是否存在用户的注册信息的判断结果生成用户的注册特征向量;采用聚类方法根据用户的注册特征向量确定用户的每个兴趣  全部
背景技术:
用户兴趣画像中的兴趣爱好是现代金融场景中重要的数据,被广泛运用于营销、 服务甚至风控等多个领域。 用户兴趣画像需要抽取用户的兴趣标签(如旅游、编程学习等),现有的用户兴趣 画像方法根据某一平台上的用户的社交、使用习惯数据抽取用户的兴趣标签,容易因数据 单一、数据缺陷导致抽取用户兴趣标签的准确率低。如何准确抽取用户的兴趣标签成为亟 待解决的问题。
技术实现要素:
鉴于以上内容,有必要提出一种用户兴趣画像方法、装置、计算机设备及计算机可 读存储介质,其可以根据用户在各个网站的注册信息抽取出用户的兴趣标签。 本申请的第一方面提供一种用户兴趣画像方法,所述用户兴趣画像方法包括: 获取多个网站、多个兴趣标签和用户的识别信息; 根据所述识别信息判断所述多个网站是否存在所述用户的注册信息,得到存在所 述用户的注册信息的多个目标网站; 根据所述多个网站是否存在所述用户的注册信息的判断结果生成所述用户的注 册特征向量; 采用聚类方法根据所述用户的注册特征向量确定所述用户的每个兴趣标签的第 一概率值; 从每个目标网站爬取所述用户的多个目标命名实体; 用训练好的神经网络根据所述多个目标命名实体和每个目标命名实体所属的目 标网站计算每个兴趣标签的第二概率值; 基于统计方法计算每个兴趣标签的第三概率值; 将每个兴趣标签的第一概率值、第二概率值和第三概率值中的最大值确定为该兴 趣标签的目标概率值; 将目标概率值大于第一预设阈值的兴趣标签确定为所述用户的兴趣标签。 另一种可能的实现方式中,所述根据所述识别信息判断所述多个网站是否存在所 述用户的注册信息包括: 在所述多个网站中的指定网站搜索所述识别信息; 若所述指定网站的搜索结果中包括所述识别信息,则所述指定网站存在所述用户 的注册信息; 若所述指定网站的搜索结果中不包括所述识别信息,则所述指定网站不存在所述 5 CN 111552865 A 说 明 书 2/14 页 用户的注册信息。 另一种可能的实现方式中,所述根据所述识别信息判断所述多个网站是否存在所 述用户的注册信息包括: 根据所述识别信息从所述多个网站中的指定网站授权的接口查询所述用户的注 册信息; 若所述指定网站返回所述用户的注册信息,所述指定网站存在所述用户的注册信 息; 若所述指定网站没有返回所述用户的注册信息或返回值为空,所述指定网站不存 在所述用户的注册信息。 另一种可能的实现方式中,所述采用聚类方法根据所述用户的注册特征向量确定 所述用户的每个兴趣标签的第一概率值包括: 获取多个第一历史用户; 根据所述多个第一历史用户的注册特征向量对所述多个第一历史用户进行聚类, 得到多个用户簇和每个用户簇的中心向量; 根据所述用户的注册特征向量和每个用户簇的中心向量的距离确定所述用户所 属的目标用户簇; 将所述目标用户簇中每个目标用户有关指定兴趣标签的概率值的均值确定为所 述用户的指定兴趣标签的第一概率值,或将所述目标用户簇中指定兴趣标签的概率值大于 第二预设阈值的目标用户的数量与所述目标用户簇中目标用户的总数量的比值确定为所 述用户的指定兴趣标签的第一概率值。 另一种可能的实现方式中,所述用训练好的神经网络根据所述多个目标命名实体 和每个目标命名实体所属的目标网站计算每个兴趣标签的第二概率值包括: 将每个目标命名实体和该目标命名实体所属的目标网站编码为该目标命名实体 的特征向量; 将每个目标命名实体的特征向量输入所述训练好的神经网络,得到该目标命名实 体对应的每个兴趣标签的概率值; 计算所述多个命名实体对应的每个兴趣标签的概率值的均值,得到所述兴趣标签 的第二概率值。 另一种可能的实现方式中,所述基于统计方法计算每个兴趣标签的第三概率值包 括: 获取在所述多个目标网站存在注册信息的多个第二历史用户,每个第二历史用户 的用户兴趣画像包括该第二历史用户的多个标签; 统计用户兴趣画像中存在该兴趣标签的第二历史用户的第一数量; 统计所述多个第二历史用户的第二数量; 计算所述第一数量与所述第二数量的比值,将所述第一数量与所述第二数量的比 值作为所述第三概率值。 另一种可能的实现方式中,在所述根据所述识别信息判断所述多个网站是否存在 所述用户的注册信息之前,所述用户兴趣画像方法还包括:获取所述用户的授权。 本申请的第二方面提供一种用户兴趣画像装置,所述用户兴趣画像装置包括: 6 CN 111552865 A 说 明 书 3/14 页 获取模块,用于获取多个网站、多个兴趣标签和用户的识别信息; 判断模块,用于根据所述识别信息判断所述多个网站是否存在所述用户的注册信 息,得到存在所述用户的注册信息的多个目标网站; 生成模块,用于根据所述多个网站是否存在所述用户的注册信息的判断结果生成 所述用户的注册特征向量; 第一确定模块,用于采用聚类方法根据所述用户的注册特征向量确定所述用户的 每个兴趣标签的第一概率值; 爬取模块,用于从每个目标网站爬取所述用户的多个目标命名实体; 第一计算模块,用于用训练好的神经网络根据所述多个目标命名实体和每个目标 命名实体所属的目标网站计算每个兴趣标签的第二概率值; 第二计算模块,用于基于统计方法计算每个兴趣标签的第三概率值; 第二确定模块,用于将每个兴趣标签的第一概率值、第二概率值和第三概率值中 的最大值确定为该兴趣标签的目标概率值; 第三确定模块,用于将目标概率值大于第一预设阈值的兴趣标签确定为所述用户 的兴趣标签。 本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理 器用于执行存储器中存储的计算机程序时实现所述用户兴趣画像方法。 本申请的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现所述用户兴趣画像方法。 本发明通过与所述用户的兴趣关联的网站和所述用户在所述目标网站中的目标 命名实体确定所述用户的兴趣标签,可以提升识别用户的兴趣标签准确率;通过聚类方法 得到的兴趣标签的第一概率值、神经网络得到的兴趣标签的第二概率值和通过基于统计得 到的兴趣标签的第三概率值可以确定兴趣标签的目标概率值,可以降低出现偏差的风险。 因此,本发明实现了根据用户在各个网站的注册信息抽取出用户的兴趣标签,提升了抽取 用户的兴趣标签的准确率。 附图说明 图1是本发明实施例提供的用户兴趣画像方法的流程图。 图2是本发明实施例提供的用户兴趣画像装置的结构图。 图3是本发明实施例提供的计算机设备的示意图。
分享到:
收藏