
技术摘要:
本申请提供了一种用户异常操作预测方法及装置,该方法包括:自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征变量分别对应的目标日志信息,其中,所述目标特征变量集是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息 全部
背景技术:
员工在操作系统时一旦出现了异常行为,就意味着员工完成业务的质量和效率难 以保障,甚至使系统和企业安全受到影响。因此,可以通过分析企业信息系统中的日志数 据,捕捉和分析可能的员工异常行为,有助于做好针对性的应对措施。 当前,用于检查系统日志的方法主要包括基于模型、基于规则或数据驱动的方法, 但随着日志文件数量和复杂程度的增加,前两种方法由于仅仅关注了如何改进和优化员工 异常行为预测算法,而忽略了数据特征对算法预测结果的重要影响,所以逐渐不再被选用。 在技术视角下,基于统计方法的数据驱动的异常行为检测过程,需要通过观察用 户的活动和生成特征来表示其行为。该方法的优点是可以从定期采集的数据中学习正常状 态,并检测与正常行为状态不同的异常行为,但其缺点也很明显:统计方法需要准确的统计 分布,但是当每个统计特征的值变化很大时,并非所有行为都可以使用纯统计方法建模,而 且采用统计方法进行异常检测时,现有数据量和特征维度的增长会导致异常行为检测的效 率降低。
技术实现要素:
针对现有技术中的问题,本申请提出了一种用户异常操作预测方法及装置,能够 提高用户异常操作预测的准确性和效率,进而提高系统的安全性。 为了解决上述技术问题,本申请提供以下技术方案: 第一方面,本申请提供一种用户异常操作预测方法,包括: 自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特 征变量分别对应的目标日志信息,其中,所述目标特征变量集是预先根据预设的用于进行 特征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后 得到的; 将所述目标日志信息输入预设的异常操作预测模型,并将该异常操作预测模型的 输出作为所述目标用户的异常操作预测结果。 进一步地,在所述自当前的目标用户的日志文件中提取与预设的目标特征变量集 中的多项目标特征变量分别对应的目标日志信息之前,还包括:应用预设的SVM模型对预获 取的多维日志信息特征变量进行第一次特征筛选,得到对应的各个所述目标特征变量,以 形成所述目标特征变量集;基于预设的Xgboost模型对各个所述目标特征变量进行第二次 特征筛选,以基于第二次特征筛选结果更新所述目标特征变量集。 进一步地,所述应用预设的SVM模型对预获取的多维日志信息特征变量进行第一 次特征筛选,得到对应的各个所述目标特征变量,包括:分别自多个历史用户的日志文件中 提取与所述多维日志信息特征变量对应的历史用户日志信息组和各组历史用户日志信息 5 CN 111582341 A 说 明 书 2/14 页 组分别对应的实际操作结果信息;将各组历史用户日志信息组中与各个维度的日志信息特 征变量对应的日志信息分别输入预设的SVM模型;根据所述预设的SVM模型的输出结果和实 际操作结果信息,得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误 率,并将该错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。 进一步地,所述基于预设的Xgboost模型对各个所述目标特征变量进行第二次特 征筛选,包括:将各组历史用户日志信息组中与所述目标特征变量对应的日志信息输入预 设的Xgboost模型,并根据该Xgboost模型的输出结果对该目标特征变量按照对异常操作预 测影响的重要性程度从高到低进行排序;应用预设的筛选规则对排序后的目标特征变量进 行筛选。 进一步地,所述应用预设的筛选规则对排序后的目标特征变量进行筛选,包括:将 重要性程度超过重要性阈值的目标特征变量加入当前的筛选变量集;第二次特征筛选步 骤:将各组历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异 常操作预测模型,以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分 别对应的实际操作结果信息得到当前的筛选变量集对应的操作错误率;判断当前的操作错 误率是否满足预设的操作停止规则,若否,则应用目标特征变量的排序结果更新当前的筛 选变量集,并返回执行所述第二次特征筛选步骤。 进一步地,所述操作停止规则包括:当前获取的操作错误率大于前一次输入所述 异常操作预测模型后得到的操作错误率。 进一步地,所述应用目标特征变量的排序结果更新当前的筛选变量集,包括:在经 排序后的各个目标特征变量中删除已存在于当前的筛选变量集中的目标特征变量,并在经 排序后的剩余的目标特征变量中选取首个加入所述筛选变量集中。 进一步地,在所述将所述目标日志信息输入预设的异常操作预测模型之前,还包 括:应用各组历史用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户 日志信息组对应的实际操作结果信息对预设的异常操作预测模型进行训练,其中,该异常 操作预测模型为DNN模型。 第二方面,本申请提供一种用户异常操作预测装置,包括: 获取目标日志信息模块,用于自当前的目标用户的日志文件中提取与预设的目标 特征变量集中的多项目标特征变量分别对应的目标日志信息,其中,所述目标特征变量集 是预先根据预设的用于进行特征筛选的模型对预获取的历史用户的多维日志信息特征变 量进行至少一次特征筛选后得到的; 异常操作预测模块,用于将所述目标日志信息输入预设的异常操作预测模型,并 将该异常操作预测模型的输出作为所述目标用户的异常操作预测结果。 进一步地,所述的用户异常操作预测装置,还包括:第一次特征筛选模块,用于应 用预设的SVM模型对预获取的多维日志信息特征变量进行第一次特征筛选,得到对应的各 个所述目标特征变量,以形成所述目标特征变量集;第二次特征筛选模块,用于基于预设的 Xgboost模型对各个所述目标特征变量进行第二次特征筛选,以基于第二次特征筛选结果 更新所述目标特征变量集。 进一步地,所述第一次特征筛选模块,包括:获取历史信息子模块,用于分别自多 个历史用户的日志文件中提取与所述多维日志信息特征变量对应的历史用户日志信息组 6 CN 111582341 A 说 明 书 3/14 页 和各组用户日志信息组分别对应的实际操作结果信息;第一次筛选子模块,用于将各组历 史用户日志信息组中与各个维度的日志信息特征变量对应的日志信息分别输入预设的SVM 模型;获取目标特征变量子模块,用于根据所述预设的SVM模型的输出结果和实际操作结果 信息,得到各个维度的所述日志信息特征变量各自对应的异常操作预测的错误率,并将该 错误率中的最小值对应的日志信息特征变量作为所述目标特征变量。 进一步地,所述第二次特征筛选模块,包括:排序子模块,用于将各组历史用户日 志信息组中与所述目标特征变量对应的日志信息输入预设的Xgboost模型,并根据该 Xgboost模型的输出结果对该目标特征变量按照对异常操作预测影响的重要性程度从高到 低进行排序;第二次筛选子模块,用于应用预设的筛选规则对排序后的目标特征变量进行 筛选。 进一步地,所述第二次筛选子模块,包括:获取筛选变量集单元,用于将重要性程 度超过重要性阈值的目标特征变量加入当前的筛选变量集;第二次特征筛选步骤:将各组 历史用户日志信息组中与当前的筛选变量集对应的日志信息输入所述预设的异常操作预 测模型,以及根据该异常操作预测模型的输出结果和各组历史用户日志信息组分别对应的 实际操作结果信息得到当前的筛选变量集对应的操作错误率;更新单元,用于判断当前的 操作错误率是否满足预设的操作停止规则,若否,则应用目标特征变量的排序结果更新当 前的筛选变量集,并返回执行所述第二次特征筛选步骤。 进一步地,所述操作停止规则包括:当前获取的操作错误率大于前一次输入所述 异常操作预测模型后得到的操作错误率。 进一步地,所述更新单元,包括:更新子单元,用于在经排序后的各个目标特征变 量中删除已存在于当前的筛选变量集中的目标特征变量,并在经排序后的剩余的目标特征 变量中选取首个加入所述筛选变量集中。 进一步地,所述的用户异常操作预测装置,还包括:训练模块,用于应用各组历史 用户日志信息组中与所述目标特征变量对应的日志信息和各组历史用户日志信息组对应 的实际操作结果信息对预设的异常操作预测模型进行训练,其中,该异常操作预测模型为 DNN模型。 第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的用户异常操作预测 方法。 第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指 令被执行时实现所述的用户异常操作预测方法。 由上述技术方案可知,本申请提供一种用户异常操作预测方法及装置。其中,该方 法包括:自当前的目标用户的日志文件中提取与预设的目标特征变量集中的多项目标特征 变量分别对应的目标日志信息,其中,所述目标特征变量集是预先根据预设的用于进行特 征筛选的模型对预获取的历史用户的多维日志信息特征变量进行至少一次特征筛选后得 到的;将所述目标日志信息输入预设的异常操作预测模型,并将该异常操作预测模型的输 出作为所述目标用户的异常操作预测结果。本申请能够减少数据处理过程中的重复劳动, 缩短数据处理分析的时间,进而提高用户异常行为预测的效率;通过两次筛选能够提高数 据分析的效率,进而提高用户异常行为预测准确度;具体地,通过将特征工程进一步细化, 7 CN 111582341 A 说 明 书 4/14 页 进行多次特征筛选,能够提高模型的预测性能;应用SVM算法进行特征筛选可以有效减少冗 余特征和干扰特征,降低后续的模型运算量;应用Xgboost模型对特征重要性排序,能够进 一步提高单一的DNN预测模型的预测准确度,进而提升模型的可用性;能够实现对用户异常 操作的定性定量分析,以某业务部门为例,应用本申请提供的用户异常操作预测方法,召回 率可以达到77.4%,预测精度可以达到84.56%,根据用户异常操作预测的结果,能够对用 户异常操作及时预警,进而提高系统和企业的安全性。 附图说明 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1是本申请实施例中用户异常操作预测方法的流程示意图; 图2是本申请另一实施例中用户异常操作预测方法的流程示意图; 图3是本申请一实施例中用户异常操作预测方法步骤011至步骤013的流程示意 图; 图4是本申请一实施例中用户异常操作预测方法步骤021至步骤022的流程示意 图; 图5是本申请实施例中用户异常操作预测装置的结构示意图; 图6是本申请具体应用实例中用户异常操作预测方法的流程示意图; 图7是本申请具体应用实例中特征工程的流程示意图; 图8是本申请具体应用实例中DNN模型构建的流程示意图; 图9是本申请具体应用实例中二次特征筛选的流程示意图; 图10是本申请具体应用实例中用户异常操作预测实现的流程示意图; 图11为本申请实施例的电子设备9600的系统构成示意框图。