
技术摘要:
本发明属于数据处理技术领域,公开了一种分布式数据统计处理系统、方法、存储介质、终端,包括数据采集模块用于获取待处理任务,并采集需要处理的数据;数据预处理模块用于进行数据归一化处理;数据分类模块用于进行关键词提取分析、分类;任务下发模块用于将数据处理 全部
背景技术:
目前,随着自动化控制系统的技术发展,依托数据库进行数据统计处理已经成为 一种趋势。现有技术主要依靠云服务器或单一服务器进行数据处理,采用云服务器或单一 服务器进行数据处理,不仅负载大,且运算复杂度高,工作量大,效率慢。同时利用单一处理 器或单一服务器进行数据统计处理,一旦某一步骤计算失误,则需要重新进行数据的统计 处理,容错率不高。 综上所述,现有技术存在的问题是:现有数据统计处理一般依靠核心处理、单一服 务器或云服务器进行数据的统计处理,负载大,且运算复杂度高,工作量大,效率低,容错率 不高。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种分布式数据统计处理系统、方法、存 储介质、终端。 本发明是这样实现的,一种分布式数据统计处理方法,所述分布式数据统计处理 方法包括: 步骤一,获取待处理任务,并基于处理任务采集或上传需要处理的数据;对采集的 相关数据进行归一化处理; 步骤二,对采集到的相关信息进行关键词提取分析,并基于得到的关键词进行分 类;将数据处理任务划分为多个处理子任务,并下发至不同的服务器;所述服务器对传感器 节点需要对收集的数据进行预处理,然后再向簇首节点传输数据;采用格拉布斯预准则对 传感器节点所采集到的数据进行预处理假设某个簇首节点含有n个传感器节点,传感器节 点收集到的数据为x1,x2,…,xn,服从正态分布,并设: 根据顺序统计原理,计算格拉布斯统计量: 给定显著性水平α=0.05之后,测量值满足gi≤g0(n,α),则认为测量值有效,测量 值参与到下一层次的数据聚合;反之,则认为测量值无效,因此需要剔除,即不参与到下一 层次的数据聚合; 步骤三,各服务器处理接收到的相应处理子任务,并得到相应子任务处理结果;网 络状态差的情况下,采用基于预先存储的数据迁移方法: 5 CN 111597174 A 说 明 书 2/6 页 1)用户登录边缘云使用云服务,系统检测边缘云中是否有该服务所需要的数据, 若有转5); 2)边缘云系统将该服务所需要的数据形成数据请求消息发送到核心云; 3)核心云接收到数据请求消息后,查找该用户的家乡云,并将该数据请求消息发 送到该用户的家乡云; 4)该用户家乡云接到消息后,根据数据请求消息的信息将数据发送到用户登录的 边缘云,信息包括发送地址、数据名称; 5)用户服务使用完该数据后,将数据存储在该边缘云,以便用户下次使用; 步骤四,汇总统计各个服务器子任务处理结果,得到整体数据处理任务的处理结 果; 步骤五,输出整体数据处理任务的处理结果。 进一步,步骤一中,所述数据归一化处理包括: (1)过滤采集的数据中的无效数据,重复数据以及空格; (2)对过滤后的数据进行去噪; (3)将去噪后的数据进行格式化处理,统一为标准格式。 进一步,步骤二中,所述数据关键词提取分析包括: 从处理好的数据中提取关键句以及关键词,基于最少切分算法进行关键词的切分 处理; 所述基于最少切分算法进行关键词的切分处理包括: 1)找出关键句中所有关键词,同时结合从数据中直接提取的管件词构建关键词有 向无环图; 2)寻找出关键词有向无环图的最短路径; 3)判断最短路径上的关键词是否为关键句最少切分结果,若是,则输出最短路径 上的关键词,若否,则返回步骤2)。 进一步,所述分布式数据统计处理方法还包括:利用数据库存储采集的数据以及 处理结果,并建立多个不同的数据表;同时可输入查询质量,通过关键词匹配进行数据查 询。 本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程 序使电子设备执行权利要求任意一项所述包括下列步骤: 步骤一,获取待处理任务,并基于处理任务采集或上传需要处理的数据;对采集的 相关数据进行归一化处理; 步骤二,对采集到的相关信息进行关键词提取分析,并基于得到的关键词进行分 类;将数据处理任务划分为多个处理子任务,并下发至不同的服务器; 步骤三,各服务器处理接收到的相应处理子任务,并得到相应子任务处理结果; 步骤四,汇总统计各个服务器子任务处理结果,得到整体数据处理任务的处理结 果; 步骤五,输出整体数据处理任务的处理结果。 本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包 括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的分布式数据 6 CN 111597174 A 说 明 书 3/6 页 统计处理方法。 本发明的另一目的在于提供一种实施所述分布式数据统计处理方法的分布式数 据统计处理系统,所述分布式数据统计处理系统包括: 数据采集模块,用于获取待处理任务,并基于处理任务采集或上传需要处理的数 据; 数据预处理模块,用于对采集的相关数据进行归一化处理; 数据分类模块,用于对采集到的相关信息进行关键词提取分析、分类; 任务下发模块,用于将数据处理任务划分为多个处理子任务,并下发至数据处理 模块; 数据处理模块,包括多个服务器,用于利用不同服务器处理不同的子任务; 结果统计模块,用于汇总统计各个服务器子任务处理结果,得到整体数据处理任 务的处理结果; 数据库,用于存储采集的数据以及处理结果,并建立多个不同的数据表; 结果输出模块,用于输出整体数据处理任务的处理结果; 查询模块,用于通过输入指令进行数据查询。 进一步,所述数据库包括: 所述数据库用于存储采集的数据以及处理结果,并建立多个不同的数据表; 所述数据表包括: 用于实时存储采集数据的采集数据统计表; 用于存储分类数据的数据分类表; 用于存储处理数据的数据处理表; 基于采集数据统计表以及数据处理表建立的日数据表、月数据表以及年数据表。 本发明的另一目的在于提供一种终端,所述终端搭载所述的分布式数据统计处理 系统。 本发明的另一目的在于提供一种自动化控制系统,所述自动化控制系统搭载所述 的分布式数据统计处理系统。 综上所述,本发明的优点及积极效果为:本发明的分布式数据统计处理系统能够 将复杂的大规模数据分割成多个不同的处理任务,利用多个服务器分别处理不同任务,不 仅减轻了服务器的负载,同时降低了运算复杂度,减少了每个服务器或处理器的工作量,提 高了统计处理的效率。同时即使某一运算出现错误,也可针对性的进行该步骤或该部分数 据的处理,无需全部重新处理,容错率高。 附图说明 图1是本发明实施例提供的分布式数据统计处理系统结构示意图; 图中:1、数据采集模块;2、数据预处理模块;3、数据分类模块;4、任务下发模块;5、 数据处理模块;6、结果统计模块;7、数据库;8、结果输出模块;9、查询模块。 图2是本发明实施例提供的分布式数据统计处理方法流程图。 7 CN 111597174 A 说 明 书 4/6 页