logo好方法网

基于大数据的多源数据仓库的库间数据转换系统及方法

技术摘要:
本发明属于大数据技术领域,具体基于大数据的多源数据仓库的库间数据转换系统及方法,所述系统包括:语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库  全部
背景技术:
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据 仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定 性和时变性。 数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出 来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数 据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这 是最有效的数据组织方式。 源数据融合技术应用于地质矿产调查中时不仅能实现数据最优选择还能对数据 进行预处理然后再进行数据融合综合分析得出结果。这是多源数据融合技术的特性也使其 具体的应用操作流程。数据选择是多源数据融合的第一步必须保证数据选择的正确性尽量 优选出合适的数据对象来进行数据融合若数据对象选择错误将直接影响到多源数据的后 期融合效果。数据选择时首先要根据用途来判定需要选择的数据类型,可供选择的数据类 型有两种分别遥感数据、非遥感数据。国内地质矿产工作中获取到航天遥感数据以及航空 遥感数据均可作为选择对象,为区域地质矿产调查提供参考。 数据合理选择之后要先对其进行预处理以免未经处理的数据在多源融合时影响 到融合效果,使融合后得到的数据无法满足地质矿产调查要求。数据预处理的方法主要包 括首先对选择出的各种数据信、遥感影像进行几何校准然后转换数据格式将所有数据全部 转换成图像格式。预处理必须保证所有数据都能实现互相沟通保证数据融合能够在同一平 台上实现。
技术实现要素:
本发明的主要目的在于基于大数据的多源数据仓库的库间数据转换系统及方法, 能够有效将多个不同数据类型、不同数据标准和不同数据协议的数据仓库中的数据进行融 合和转换,提升了数据利用的效率,同时,实现了不同数据仓库的。 为达到上述目的,本发明的技术方案是这样实现的: 基于大数据的多源数据仓库的库间数据转换系统,所述系统包括:语法语义解析 引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标 准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库中各自所需的数据 格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类 型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数 据仓库的数据结构;调度引擎模块,用于协调各个数据仓库进行转换接口,分配资源,按照 5 CN 111581299 A 说 明 书 2/9 页 预先设计的流程,执行相关接口引擎操作;监控引擎模块,用于对所述的调度引擎模块和各 个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;及 校验引擎模块,用于校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型 转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性。 进一步的,所述语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应 对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤: 步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集, 使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应 用支持向量机对所述训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数 据标准化方法进行数据标准化。 进一步的,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征 的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据 通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即: 其中 ,Ν 表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的 行数,w(m,η)为5X5的窗口函数。 进一步的,所述数据类型转换模块,对不同数据类型之间的衔接,把不同的数据类 型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽 取数据,输入抽取的数据,数据的类别集合表示为:S={S1 ,S2,S3,…,Sn},数据的属性特征 集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分 布,j=1,2,3 ,… ,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布 为: 其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特 征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使 用如下公式,计算每个数据类别具有属性特征O的概率为: 其中,y为定义的类别参数,其可以是任 何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体 执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得 到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结 构进行表示。 进一步的,所述校验引擎模块,校验接口语法语义解析引擎模块、数据标准转换引 擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性的方 法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进 行数据匹配校验,得到数据校验的结果。 一种基于大数据的多源数据仓库的库间数据转换方法,所述方法执行以下步骤: 解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据 6 CN 111581299 A 说 明 书 3/9 页 库协议之间的对接;获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的 数据格式标准和数据结构对数据标准进行转换;对不同数据类型之间的衔接,把不同的数 据类型进行转换后符合各个数据仓库的数据结构;协调各个数据仓库进行转换接口,分配 资源,按照预先设计的流程,执行相关接口引擎操作;对所述的调度引擎模块和各个数据仓 库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;校验前述步 骤执行动作的合法性、准确性以及数据格式的合法性。 进一步的,所述解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成 不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随 机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后 数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对所述训练 集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标 准化。 进一步的,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征 的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据 通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即: 其中 ,Ν 表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的 行数,w(m,η)为5X5的窗口函数。 进一步的,所述对不同数据类型之间的衔接,把不同的数据类型进行转换后符合 各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取 的数据,数据的类别集合表示为:S={S1 ,S2 ,S3 ,…,Sn},数据的属性特征集合表示为:O= {O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2, 3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为: 其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位 调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计 算每个数据类别具有属性特征O的概率为: 其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相 同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到 的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为 同一类别,对应为同一y值,使用同一数据结构进行表示。 进一步的,所述校验前述步骤执行动作的合法性、准确性以及数据格式的合法性 的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特 征,进行数据匹配校验,得到数据校验的结果。 本发明的基于大数据的多源数据仓库的库间数据转换系统及方法,具有如下有益 7 CN 111581299 A 说 明 书 4/9 页 效果:本发明通过语法语义解析,针对不同数据库使用的不同语法和语义,自动识别,解析 不同数据仓库中的语法语义,完成多源数据仓库的数据对接,使得多源数据的大数据分析 变为可能;同时,数据标准转换模块,获取不同数据库中各自所需的数据格式标准和数据结 构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对 不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构; 针对不同数据结构的数据也能进行转换和融合;且在进行数据转换和融合过程中,使用高 斯金字塔的数据特征提取融合方式,利用改进的算法,能够更好适应大数据的数据融合,进 一步提升了系统的运行效率。 附图说明 图1为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统的 系统结构示意图; 图2为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换方法的 方法流程示意图; 图3为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及 方法进行数据融合时数据冗余度的实验曲线示意图与现有技术的实验曲线示意图的对比 示意图; 图4为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及 方法的数据转换效率的实验曲线示意图与现有技术的实验曲线示意图; 图5为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及 方法的数据转换出错率实验效果示意图与现有技术的实验曲线示意图。 其中,1-现有技术贝叶斯数据融合的实验曲线,2-现有技术泊松数据融合的实验 曲线,3-本发明的数据融合的数据曲线,4-本发明数据转换差错率曲线,5-现有技术数据转 换差错率曲线。
分享到:
收藏