logo好方法网

基于互联网金融数据的ETL方法及系统


技术摘要:
本发明公开了一种基于互联网金融数据的ETL方法及系统,其中方法包括如下步骤:调度器根据ETL任务依赖关系,获取调度指令,执行离线调度操作的步骤;和/或,调度器根据ETL任务依赖关系,获取调度指令,执行准实时调度操作的步骤。这样,本发明所提供的一种基于互联网金  全部
背景技术:
ETL(Extract-Transform-Load),用来描述将数据从来源端经过抽取(extract)、 转换(transform)、加载(load)至目的地的处理过程。随着移动互联网的普及,作为我国新 兴行业的互联网金融得到了快速的发展。总体而言,互联网金融和传统金融在数据层面存 在较大差异。传统金融业务相对稳定成熟,比如银行、证券、保险等,历经几十、几百年的发 展,业务模式成熟,所以其基于业务模式的数据相对稳定,而互联网金融业务迭代变更速度 快,自身数据差异大;传统金融有着规范严格的业务和IT流程,所以数据的标准化程度高, 数据格式内容规范,而互联网金融的数据庞杂,规范程度低;传统金融聚焦的行业和客户类 型,和互联网金融存在天然的界限,互联网金融主要聚焦于传统金融业服务不到的或者是 重视不够的用户,利用信息技术革命带来的规模效应和较低的边际成本,比如行为数据分 析等,所以的两边产生的数据类型是不一致的;传统金融的数据管理更强调“数据管控”,而 互联网金融则是更侧重通过数据治理实现数据价值。基于以上的不同,传统金融的常规数 据处理方法已经不适合互联网金融数据的处理。 传统ETL对数据的时效性要求不高,对程序的处理时间也不敏感,一般是T 1日通 过一个完整的ETL流程处理T日的数据。在大数据时代,数据大量、高速、多样的生成,在某些 场景中,业务需要实时监控业务状态并做出运营决策,传统ETL方法已经无法满足时效性、 准确性等要求;此外随着数据量的急速膨胀,T 1日可能无法及时处理完T日的数据,影响系 统的稳定性。
技术实现要素:
本发明的目的是提供一种基于互联网金融数据的ETL方法及系统。 本发明提供了一种基于互联网金融数据的ETL方法,包括如下步骤: 调度器根据ETL任务依赖关系,获取调度指令,执行离线调度操作的步骤; 和/或,调度器根据ETL任务依赖关系,获取调度指令,执行准实时调度操作的步 骤。 本发明提供了一种基于互联网金融数据的ETL方法,包括如下步骤:Web服务器处 理http请求,允许用户与应用服务器进行业务规则交互,用户通过web页面跟踪任务的运行 状态以及管理任务的步骤;和/或,应用服务器负责业务逻辑的处理的步骤。所述调度器根 据ETL任务依赖关系,获取调度指令,执行离线调度操作的步骤,包括:S1用于通过数据收集 器对第一源数据进行抽取的步骤;S2用于将抽取的第一源数据进行解析,并转换输出平面 文件的步骤;S3用于将所述平面文件进行加载至离线计算平台的步骤。所述S2将抽取的第 一源数据进行解析,并转换输出平面文件的步骤,包括:S21用于对于数据库系统,基于 4 CN 111581254 A 说 明 书 2/7 页 ODBC/JDBC驱动,通过SQL实现数据的抽取,输出平面文件的步骤;和/或,S22用于对于非结 构化文本文件,通过结构化处理输出结构化平面文件的步骤;和/或,S23用于对于非文本文 件,通过相应的数据解码器输出平面文件的步骤。所述S3将所述平面文件进行加载至离线 计算平台的步骤,包括:S31用于离线计算平台对源数据进行清洗转换加工,通过数据建模, 并将平台的源数据进行分布式存储的步骤;和/或,S32用于离线计算平台对源数据进行清 洗转换加工,基于分布式计算引擎,对源数据进行计算处理的步骤。所述调度器根据ETL任 务依赖关系,获取调度指令,执行准实时调度操作的步骤,包括:S4用于通过实时数据捕获 器对第二源数据进行抽取的步骤;S5用于通过数据采集中间件接收上述抽取的第二源数据 的步骤;S6用于将从数据采集中间件获取的第二源数据进行结构化解析的步骤;S7用于将 解析后的第二源数据发送至准实时计算平台进行计算处理的步骤。本发明所提供的一种基 于互联网金融数据的ETL方法,还包括如下步骤:S8用于按照多维方式,搭建数据集市进行 存储的步骤。 本发明所提供的一种基于互联网金融数据的ETL系统,包括:调度器根据ETL任务 依赖关系,获取调度指令,执行离线调度操作的模块;和/或,调度器根据ETL任务依赖关系, 获取调度指令,执行准实时调度操作的模块。本实施例提供一种基于互联网金融数据的ETL 系统,包括:Web服务器处理http请求,允许用户与应用服务器进行业务规则交互,用户通过 web页面跟踪任务的运行状态以及管理任务的模块;和/或,应用服务器负责业务逻辑处理 的模块。所述调度器根据ETL任务依赖关系,获取调度指令,执行离线调度操作的模块,包 括:用于通过数据收集器对第一源数据进行抽取的子模块;用于将抽取的第一源数据进行 解析,并转换输出平面文件的子模块;用于将所述平面文件进行加载至离线计算平台的子 模块。所述用于将抽取的第一源数据进行解析,并转换输出平面文件的子模块,包括:用于 对于数据库系统,基于ODBC/JDBC驱动,通过SQL实现数据的抽取,输出平面文件的单元;和/ 或,用于对于非结构化文本文件,通过结构化处理输出结构化平面文件的单元;和/或,用于 对于非文本文件,通过相应的数据解码器输出平面文件的单元。所述将所述平面文件进行 加载至离线计算平台的子模块,包括:用于离线计算平台对源数据进行清洗转换加工,通过 数据建模,并将平台的源数据进行分布式存储的单元;和/或,用于离线计算平台对源数据 进行清洗转换加工,基于分布式计算引擎,对源数据进行计算处理的单元。所述调度器根据 ETL任务依赖关系,获取调度指令,执行准实时调度操作的模块,包括:用于通过实时数据捕 获器对第二源数据进行抽取的子模块;用于通过数据采集中间件接收上述抽取的第二源数 据的子模块;用于将从数据采集中间件获取的第二源数据进行结构化解析的子模块;用于 将解析后的第二源数据发送至准实时计算平台进行计算处理的子模块。本发明所提供的一 种基于互联网金融数据的ETL系统,还包括:用于按照多维方式,搭建数据集市进行存储的 模块。 本发明提供了一种基于互联网金融数据的ETL方法及系统,利用实时处理模块依 托实时捕获工具对业务数据进行采集,采用准实时计算技术对数据做准实时加工,既保证 了系统的稳定性,也满足了业务对数据时效性的需求。 附图说明 图1为本发明实施例一、二所提供的基于互联网金融数据的ETL方法及系统的逻辑 5 CN 111581254 A 说 明 书 3/7 页 架构示意图; 图2为本发明实施例一所述调度器根据ETL任务依赖关系,获取调度指令,执行离 线调度操作的步骤示意图; 图3为本发明实施例一所述调度器根据ETL任务依赖关系,获取调度指令,执行准 实时调度操作的步骤示意图。
分享到:
收藏