
技术摘要:
本发明公开了一种动态的基于大数据技术的场所出入次数异常计算方法,涉及大数据处理领域,基于各种智慧硬件的出入数据记录,采用Hadoop的MapReduce分布式计算方法进行批处理,计算某个场所每天的进/出次数平均值,该场所所有人的进/出次数,该场所进/出次数的标准差, 全部
背景技术:
在目前国家大力倡导加强社区、大型商超、公共场所等各类场所的出入管理的背 景下,车辆道闸、单元门禁、监控等各种智慧硬件设备纷纷投入使用,每个公共场所都能采 集上来海量的进出记录数据。如何让这些数据发挥价值,从数据中识别人员异常行为模式, 是需要探索和解决的问题。 具体面临的问题痛点包括以下几点: 1、场所记录的数据量太大,传统 RDBMS 的 SQL 语句无法完成统计分析; 2、每个场所不同日期产生的进出数据量,很大程度受场所的 出行管理措施的变化而急剧变化,采用一成不变的识别模式必然造成识别误差,无法动态 解决人为变更场所管理模式导致的判断异常出入的算法的变化。
技术实现要素:
为解决上述存在的技术问题,本发明提供了一种动态的基于大数据技术的场所出 入次数异常计算方法,基于海量场所出入记录数据,采用Hadoop 的MapReduce 大数据分布 式计算方法进行批处理,快速计算大数据量级的进出记录数据,动态判断每个日期下的场 所出入历史记录中,出入次数异常的人员行为,从而辅助场所管理人员进一步跟踪查询人 员异常行为轨迹,加强场所出入管理工作的有效性。 为达到上述目的,本发明所采用的技术方案是: 一种动态的基于大数据技术的场所出入次数异常计算方法,通过如下步骤实现: 1)大数据迁移和清洗,将RDBMS中的用户出入记录数据迁移到Hadoop大数据集群的 Hive数据仓库中,使用HDFS文件系统的MapReduce分布式计算进行批处理,将重复数据和无 效数据去除; 2)聚合某个场所每日进/出的次数的均值,在Hive数据仓库中,基于YARN计算引擎,采 用MapReduce分布式计算,根据公式r=c/m,得到某个场所每天的平均进/出的次数,并将该 平均值作为新的列项添加到过程表中,其中,c是该场所当日进/出次数的总数,m是该场所 当日进/出的总人次,r是该场所当日进/出次数的平均值; 3)聚合每人每日进/出每个场所的次数,使用HQL语句聚合出某场所每个人每日进/出 的次数xi; 4)计算某场所每日进/出次数的标准差,公式(一)为标准差的计算公式,公式(二)为标 准差平方的公式,得到方差,其中xi为某人某日在某场所进/出的总次数, r 为某场某日 进/出次数的平均值, n 为某场所某日进/出的总人数 公式(一): 公式(二):s2=[ (x1-r)2 (x2-r)2 ...... (xn-r)2 ] / (n) 3 CN 111552681 A 说 明 书 2/3 页 5)人员某日进/出某个场所的次数异常判断,将异常值定义如下公式(三)所示,公式 (三):|x - r| > 2 ×σ(r), 公式(四):|x - r|2 > 4 × s2, 其中各参数代表内容见步骤4)中的公式(一)和公式(二),满足公式(四)的x值,即为异 常进/出次数,对应的人员、日期、场所信息都输出到异常进/出数据库表中。 本发明设计了一种动态的基于大数据技术的场所出入次数异常计算方法,基于各 种智慧硬件的出入数据记录,采用Hadoop 的 MapReduce 分布式计算方法进行批处理,计 算某个场所每天的进/出次数平均值,该场所所有人的进/出次数,该场所进/出次数的标准 差,进而计算某人某天的进/出次数是否为异常,动态识别用户的异常出入行为,系统判别 为异常行为则对应的人员、日期、场所信息都会输入到异常进/出数据库表中,以供监督管 理部门下一步的应急处置,实现了场所出入情况异常状态识别和告警的精准性和快速性, 适合大规模推广应用。 附图说明 图1为本实发明的流程示意图。