数据信息的同步方法、装置、电子设备和介质-好方法网

技术摘要：
本公开提供了一种数据信息的同步方法，应用于控制服务器，包括：响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件，不同组的待同步数据信息与部署于源集群中不同的特定组件对应，且与不同的源管理节点对应；控制源集群将导出的多个元数据文件全部
背景技术：
随着企业业务的不断扩展深入，在运营管理和生产过程中将会不断地产生海量的数据，能否高效且快速地对这些产生的海量数据进行存储、整理、分析和计算，在一定程度上将直接影响到大数据在实际应用中的价值和作用。相关技术中对大数据进行管理的方式之一是使用基于Hadoop的集群技术建立数据仓库或者数据集市。Hadoop是一种分布式系统的基础架构，可以将大量的数据分布到不同的机器上进行处理。Hadoop集群包括多个不同的生态组件，例如LDAP(Lightweight Directory Access Protocol，轻型目录访问协议)、HIVE、HDFS(Hadoop Distributed File System，分布式的文件系统)以及YARN(Yet Another Resource Negotiator，另一种资源协调者)。其中，LDAP是一个开放的，中立的，工业标准的应用协议，通过IP(Internet Protocol，网际互连协议)提供访问控制和维护分布式信息的目录信息。HIVE是基于Hadoop 的一个数据仓库工具，用来进行数据提取、转化、加载，是一种可以存储、查询和分析存储在 Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供结构化查询语言(Structured Query Language，SQL)的查询功能。HDFS是适合运行在通用硬件(commodity hardware)上的分布式的文件系统，与现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。YARN的本质是资源管理器，用于控制整个集群并管理应用程序向基础计算资源的分配。随着数据量的不断增长，Hadoop集群的数量也呈现出日益增多的趋势，如何在多个Hadoop集群之间的实现生态组件的元数据信息同步可以提高Hadoop集群的数据管理效率，因此也成为必须要关注的一个研究方向。但是，相关技术中并无成型的技术方案可以将一个Hadoop集群包含的生态组件的元数据信息同步给另一个Hadoop集群的生态组件。
技术实现要素：
有鉴于此，为了填补在现有分布式集群体系中，业界无成型的技术方案将多个 Hadoop集群之间的生态组件的元数据进行同步的空白，并因此实现将多个Hadoop集群之间的生态组件的元数据进行同步的技术效果，本公开提供了一种数据同步方法、装置、电子设备和介质。与现有技术不同，本公开提供的数据同步方法，用于在不同的Hadoop集群之间实现各生态组件的元数据同步，而且是一种可视化、定制化以及自动化的数据同步方法，使得用户可以使用基于Web的图形界面、可选式的进行不同分布式环境下Hadoop集群的任意一个或者多个生态组件的元数据的同步。 5 CN 111581285 A 说　明　书 2/16 页为实现上述目的，本公开的一个方面提供了一种数据信息的同步方法，应用于控制服务器，上述方法包括：响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件，不同组的待同步数据信息与部署于上述源集群中不同的特定组件对应，且与不同的源管理节点对应，控制上述源集群将导出的上述多个元数据文件分别传输至目标集群对应的目标管理节点，不同的元数据文件与部署于上述目标集群中上述不同的特定组件对应，且与不同的目标管理节点对应，将与上述多个元数据文件对应的原配置参数修改为目标配置参数，以生成对应的多个目标元数据文件，上述原配置参数与上述源集群对应，上述目标配置参数与上述目标集群对应，将上述多个目标元数据文件分别导入至对应的上述目标管理节点，以实现上述特定组件的数据信息同步。根据本公开的实施例，上述将源集群的多组待同步数据信息导出为对应的多个元数据文件包括：将源集群的用户数据信息导出为对应的用户数据信息元数据文件，上述用户数据信息与用户信息源管理节点对应，将源集群的数据仓库元数据信息导出为对应的数据仓库元数据信息元数据文件，上述数据仓库元数据信息与数据仓库元数据源管理节点对应，将源集群的资源数据信息导出为对应的资源数据信息元数据文件，上述资源数据信息与资源数据源管理节点对应。根据本公开的实施例，上述控制上述源集群将导出的上述多个元数据文件分别传输至目标集群对应的目标管理节点包括：控制上述源集群将导出的上述用户数据信息元数据文件传输至上述目标集群的用户信息目标管理节点之后，控制上述源集群将导出的上述数据仓库元数据信息元数据文件传输至上述目标集群的数据仓库元数据目标管理节点，同时控制上述源集群将导出的上述资源数据信息元数据文件传输至上述目标集群的资源数据目标管理节点。根据本公开的实施例，在控制上述源集群将导出的上述多个元数据文件分别传输至目标集群对应的目标管理节点之前，上述方法还包括：检测上述目标集群中是否已存在数据信息，若是，则获取上述已存在数据信息，在上述目标集群中备份上述已存在数据信息。根据本公开的实施例，上述方法还包括：对上述目标集群执行禁止主备切换操作。根据本公开的实施例，上述响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件包括：接收上述源集群的源配置文件和上述目标集群的目标配置文件，上述源配置文件包含源配置参数，上述目标配置文件包含目标配置参数，基于上述源配置文件和上述目标配置文件，获取上述源集群和上述目标集群的登录状态，在上述登录状态表明上述源集群和上述目标集群登录成功的情况下，响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件。根据本公开的实施例，在将上述多个目标元数据文件分别导入至对应的上述目标管理节点之后，上述方法还包括：对上述目标集群取消上述禁止主备切换操作。为实现上述目的，本公开的另一个方面提供了一种数据信息的同步装置，应用于控制服务器，上述装置包括：导出模块，用于响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件，不同组的待同步数据信息与部署于上述源集群中不同的特定组件对应，且与不同的源管理节点对应，传输模块，用于控制上述源集群将导出的上述多个元数据文件分别传输至目标集群对应的目标管理节点，不同的元数据文件与部署于 6 CN 111581285 A 说　明　书 3/16 页上述目标集群中上述不同的特定组件对应，且与不同的目标管理节点对应，修改模块，用于将与上述多个元数据文件对应的原配置参数修改为目标配置参数，以生成对应的多个目标元数据文件，上述原配置参数与上述源集群对应，上述目标配置参数与上述目标集群对应，导入模块，用于将上述多个目标元数据文件分别导入至对应的上述目标管理节点，以实现上述特定组件的数据信息同步。根据本公开的实施例，上述导出模块包括：第一导出子模块，用于将源集群的用户数据信息导出为对应的用户数据信息元数据文件，上述用户数据信息与用户信息源管理节点对应，第二导出子模块，用于将源集群的数据仓库元数据信息导出为对应的数据仓库元数据信息元数据文件，上述数据仓库元数据信息与数据仓库元数据源管理节点对应，第三导出子模块，用于将源集群的资源数据信息导出为对应的资源数据信息元数据文件，上述资源数据信息与资源数据源管理节点对应。根据本公开的实施例，上述传输模块包括：第一传输子模块，用于控制上述源集群将导出的上述用户数据信息元数据文件传输至上述目标集群的用户信息目标管理节点之后，第二传输子模块，用于控制上述源集群将导出的上述数据仓库元数据信息元数据文件传输至上述目标集群的数据仓库元数据目标管理节点，第三传输子模块，用于同时控制上述源集群将导出的上述资源数据信息元数据文件传输至上述目标集群的资源数据目标管理节点。根据本公开的实施例，在控制上述源集群将导出的上述多个元数据文件分别传输至目标集群对应的目标管理节点之前，上述装置还包括：检测模块，用于检测上述目标集群中是否已存在数据信息，获取模块，用于若是，则获取上述已存在数据信息，备份模块，用于在上述目标集群中备份上述已存在数据信息。根据本公开的实施例，上述装置还包括：禁止模块，用于对上述目标集群执行禁止主备切换操作。根据本公开的实施例，上述导出模块包括：接收子模块，用于接收上述源集群的源配置文件和上述目标集群的目标配置文件，上述源配置文件包含源配置参数，上述目标配置文件包含目标配置参数，获取子模块，用于基于上述源配置文件和上述目标配置文件，获取上述源集群和上述目标集群的登录状态，导出子模块，用于在上述登录状态表明上述源集群和上述目标集群登录成功的情况下，响应于同步请求，将源集群的多组待同步数据信息导出为对应的多个元数据文件。根据本公开的实施例，在将上述多个目标元数据文件分别导入至对应的上述目标管理节点之后，上述装置还包括：取消禁止模块，用于对上述目标集群取消上述禁止主备切换操作。为实现上述目的，本公开的另一方面提供了一种电子设备，包括：一个或多个处理器，存储器，用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。为实现上述目的，本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。为实现上述目的，本公开的另一方面提供了一种计算机程序，上述计算机程序包括计算机可执行指令，上述指令在被执行时用于实现如上所述的方法。 7 CN 111581285 A 说　明　书 4/16 页由上可见，本公开提供的数据信息的同步方法，考虑到Hadoop集群各生态组件元数据信息底层使用的是关系型数据库存储，所以将源集群的数据库中对应的用户数据信息、数据仓库元数据信息、资源数据信息这三部分内容分别导出成元数据文件，然后分别传输到目标集群的对应目标管理节点，接着将元数据文件的配置信息修改为目标集群对应配置信息，最后导入目标集群底层的关系型数据库中，一方面可以填补在现有分布式集群体系中，业界无成型的技术方案将一个Hadoop集群包含的生态组件的元数据信息同步给另一个Hadoop集群的生态组件的空白，另一方面可以实现Hadoop集群的生态组件的数据信息的定制化同步以及自动化同步，简化数据信息同步的操作步骤，并因此可以实现避免过多集群内部操作导致的Hadoop集群出现宕机或者服务不可用等技术问题。附图说明为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：图1示意性示出了适用于本公开实施例的数据信息的同步方法和装置的应用场景；图2示意性示出了适用于本公开实施例的数据信息的同步方法和装置的系统架构；图3示意性示出了根据本公开实施例的数据信息的同步方法的流程图；图4示意性示出了根据本公开另一实施例的数据信息的同步方法的流程图；图5示意性示出了根据本公开实施例的数据信息的同步装置的框图；图6示意性示出了根据本公开实施例的适于实现上文描述的数据信息的同步方法的计算机可读存储介质产品的示意图；以及图7示意性示出了根据本公开实施例的适于实现上文描述的数据信息的同步方法的电子设备的框图。在附图中，相同或对应的标号表示相同或对应的部分。

相关推荐