logo好方法网

数据分类方法、装置、电子设备及可读存储介质


技术摘要:
本申请提供一种数据分类方法、装置、电子设备及可读存储介质,该方法包括:基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集;基于采样后的数据集对预设分类模型进行训练;使用训练好的分  全部
背景技术:
随着大数据、云计算、存储设备与技术的发展,传统的安防领域发生了巨大的变 化,相对于传统基于物理信息的破案方法,公安行业正在加速对各种数据库的建立,尽可能 完善人员的各方面信息。例如,职业等基本静态属性信息;住宿、上网等行为数据;同酒店进 行住宿等关系数据等。基于多维大数据,构建出一套基于机器学习的嫌疑人积分模型,即对 已犯案人员与正常人员的模式进行学习,进而对可能犯案的人员进行预测。 但是在嫌疑人积分模型中,与一个地区的正常人员相比,已犯案人员的数量往往 很少,其比例基本在1:100(犯案人员:正常人员)或以上  (正常人员比例更高),即属于不平 衡数据模型。在这种情况下,直接使用传统的机器学习算法对犯案人员与正常人员进行分 类,往往是存在问题的,因为这时候算法是偏向于多数类的。例如,假设在一个数据集中, 1%的是犯案人员,99%是正常人员。这时,算法模型将所有的人都分类为正常人员,模型的 正确率也能达到99%,但无法识别犯案人员。 因此,如何优化不平衡数据模型场景下的分类效果成为一个亟待解决的技术问 题。
技术实现要素:
有鉴于此,本申请提供一种数据分类方法、装置、电子设备及可读存储介质。 具体地,本申请是通过如下技术方案实现的: 根据本申请实施例的第一方面,提供一种数据分类方法,应用于不平衡数据模型 场景,所述方法包括: 基于样本之间的近邻关系对数据集中的多数类样本进行分类,并剔除所述数据集 中的多数类样本中的非安全样本,以得到采样后的数据集; 基于采样后的数据集对预设分类模型进行训练; 使用训练好的分类模型进行数据分类。 根据本申请实施例的第二方面,提供一种数据分类装置,应用于不平衡数据模型 场景,所述装置包括: 采样单元,用于基于样本之间的近邻关系对数据集中的多数类样本进行分类,并 剔除所述数据集中的多数类样本中的非安全样本,以得到采样后的数据集; 训练单元,用于基于采样后的数据集对预设分类模型进行训练; 分类单元,用于使用训练好的分类模型进行数据分类。 根据本申请实施例的第三方面,提供一种电子设备,包括处理器、通信接口、存储 器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信; 4 CN 111598116 A 说 明 书 2/11 页 存储器,用于存放计算机程序; 处理器,用于执行存储器上所存放的程序时,实现上述数据分类方法。 根据本申请实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读 存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分类方法。 本申请实施例的数据分类方法,通过基于样本之间的近邻关系对数据集中的多数 类样本进行分类,并剔除数据集中的多数类样本中的非安全样本,以得到采样后的数据集, 并基于采样后的数据集对预设分类模型进行训练,进而,使用训练好的分类模型进行数据 分类,优化了不平衡数据模型场景下的数据分类效果。 附图说明 图1是本申请一示例性实施例示出的一种数据分类方法的流程示意图; 图2是本申请一示例性实施例示出的一种数据集的分布示意图; 图3是本申请一示例性实施例示出的一种数据分类方法的流程示意图; 图4是本申请一示例性实施例示出的一种基于近邻样本的下采样的流程示意图; 图5是本申请一示例性实施例示出的一种LR模型与混合模型的对比示意图; 图6是本申请一示例性实施例示出的一种混合模型的工作原理示意图; 图7是本申请一示例性实施例示出的一种数据分类装置的结构示意图; 图8是本申请又一示例性实施例示出的一种数据分类装置的结构示意图; 图9是本申请又一示例性实施例示出的一种数据分类装置的结构示意图; 图10是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
分享到:
收藏