
技术摘要:
本发明提供一种基于校园WiFi大数据的学生行为时空模型与数据清洗方法:获取WiFi路由器的源日志文件,建立编目管理;提取用户的身份信息,通过注册信息,提取与学生相关的记录;解析时间信息、位置的空间信息;判断学生的行为,构建针对学生的当前行为的时空属性,建立 全部
背景技术:
路由器是连接因特网中各局域网、广域网的关键设备,路由器在运行路由器程序 过程中会生成日志信息,包括此日志的日期、时间、事件类型、事件码、宿主IP、消息类型、消 息码、路由器地址和路由器IP等各种内容。同时随着移动互联网技术以及计算机软硬件技 术的快速发展,几乎人手一个移动设备,尤其是在大学校园中,每个学生都会有一个移动设 备。人们的移动设备在很多场合下都会连接WiFi进行使用,移动设备在和WiFi路由器连接 过程中,会产生大量的与移动设备属性相关的信息数据,这些数据以WiFi日志的形式被保 存。这些以WiFi日志形式被保存的数据,蕴藏了大量的与用户行为有关的信息,通过对这些 WiFi日志文件进行用户行为分析,可以对用户提供精准的个性服务,并且可以为设备管理 人员提供必要的决策支持。同时,现在大数据技术越来越得到广泛的应用,对大数据的分析 处理正成为新一代信息技术融合应用的结点。具体到大学校园中,校园中的WiFi路由器每 天都会产生海量的数据,如果能通过挖掘WiFi路由器中事务活动中产生的大量数据中的有 效信息,建立学生的行为模型并加以分析,那么将会为大学的管理者提供很有价值的必要 的学校事务处理方面的决策支持,然而目前这方面的研究较少,所以如何通过WiFi路由器 的事务活动中产生的信息建立学生的行为模型将会是一件亟待解决的技术问题。
技术实现要素:
本发明的目的是提供一种基于校园WiFi大数据的学生时空模型与数据清洗方法, 以解决上述现有技术存在的问题,能够从WiFi数据中提取有价值的学生时空行为数据,为 后续分析学生行为提供数据。 为实现上述目的,本发明提供了如下方案:本发明提供一种基于校园WiFi大数据 的学生时空模型与数据清洗方法,内容如下: S1、获取校园中WiFi路由器的源日志文件,以日期和WiFi路由器编号为序建立编 目管理; S2、根据WiFi路由器的源日志文件的记录格式,提取认证字段中的用户身份信息; 根据学生的注册信息,提取与学生相关的记录; S3、解析与学生相关的记录中的时间信息、位置的空间信息,根据WiFi路由器的位 置、WiFi路由器事务发生的时间以及教务系统的相关信息判断学生当前时刻的行为,构建 针对于学生的当前行为的时空属性,建立学生在某一时刻的时空向量表达,并建立以学生 为中心的临时存储文件; S4、完成对所有日志文件的解析,以学生对象为单位,汇集其临时存储文件的行为 时空向量,以时间为序,对所有行为时空向量采用由远及近的排序,采用张量表达,形成基 4 CN 111611235 A 说 明 书 2/5 页 于张量的学生日常行为的时空模型; S5、使用面向对象的非结构化序列方法,对每一个学生基于张量的日常行为时空 模型进行非结构化的组织与存储,最终存储到相应的非结构化数据库中,建立行为时空数 据库,完成对日志文件的清洗。 优选地,所述步骤S3包括如下内容, S31、对WiFi路由器的日志文件进行解析,提取包括学生信息的日志记录; S32、解析某一条记录项,获取记录的时间、WiFi路由器位置,以及WiFi路由器的事 件信息; S33、根据WiFi路由器的位置,查找校园管理部门路由器位置设定表,得到相应的 地点信息,结合教务管理系统中的排课信息确定当前时刻学生的行为; S34、根据时间特征与位置特征,标记教学时间之外的行为; S35、按照学生、时间、位置、行为构建学生在某一时刻的时空向量表达,并构建以 学生为中心的临时存储文件。 优选地,所述步骤S4包括如下内容, S41、遍历所有日志文件,并解析得到相应的学生信息,存储到相应的临时文件; S42、对每一个学生行为的临时文件,取出学生的行为时空向量,以对向量进行时 序排序; S43、建立学生行为时空张量表达,依时序排序的行为时空向量为张量元素,最终 形成表达整个时间跨度的学生日常行为的张量模型;在构建张量模型时,首先将一天的时 间分成若干时间段,然后从记录学生行为的临时文件中获取每个时间段学生所处地理位置 和此时间段学生行为的数据,进而构建学生日常行为的张量模型。 优选地,所述步骤S5包括如下内容, S51、对每一个表达学生时常行为的时空张量模型,构建面向对象的序列化方法; S52、完成对每一个学生的时空张量模型的非结构化组织结构并针对所采用的数 据库,构建其序列化与反序列化算法;在序列化张量模型时,首先根据张量结构存储的不同 种类的数据的含义,用计算机语言中类的概念定义张量结构,同时在类声明文件中对类及 其属性声明添加可序列化的注解信息,将普通类标记为可序列化类,在可序列化类为需要 序列化的属性添加可序列化注解,将属性标记为可序列化属性;对可序列化类,加载类信息 及类中所有可序列化属性信息到内存,形成预加载序列化信息;根据预加载序列化信息,获 取待处理字节序列中所有可序列化属性,并根据序列化顺序排序;获取待处理字节序列的 内容;根据所述内存中加载的所述序列化信息和属性类型信息将所述字节序列中的内容转 换为属性值。 S53、采用非关系数据NoSQL进行存储,完成对数据的清洗。 本发明公开了以下技术效果: (1)本发明技术方案能够基于校园WiFi路由器在事务处理过程中产生的大量数 据,建立学生的行为时空模型,从而能够挖掘并汇总海量WiFi数据中存储的与学生行为有 关的零星且有价值的信息,并且将这些有价值的信息按照一定的格式存储到非关系数据库 中,为后续对这些数据进行分析处理提供必要的数据准备。 (2)本发明综合考虑了WiFi路由器的日志文件、学生日常活动行为以及对象非结 5 CN 111611235 A 说 明 书 3/5 页 构化组织与存储模式,建立了面向校园广泛可获取的日志文件的学生日常活动信息的提取 方法,提出了校园活动行为的挖掘新模式。 (3)本发明为分析校园学生行为提供了一种新的思路,所提取的有价值的数据可 以应用到后续学生行为的分析模型中,从而为学校管理者的校务决策提供合理的数据支 撑。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图 获得其他的附图。 图1为本发明实施例的方法流程图。