
技术摘要:
本发明提出一种自动化API接口文档解析配置方法、电子装置及存储介质,其中,该方法包括:获取API接口文档样本内的历史报文信息;对历史报文信息进行分段标注,并根据分段标注后的历史报文信息对预设的自动分词标注模型进行训练;获取实时报文信息,并通过自动分词标注 全部
背景技术:
文本数据是由一些具体的数据单位构成的,例如字、词、词组、句子、段落或这些具 体的数据单位的组合,都可以称之为文本数据,文本信息正是由具体的数据单位构成的一 种组合型信息文本。 在传统系统集成中,经常需要阅读大量的API接口文档,然后根据API接口文档内 的特定信息进行相应代码开发或系统配置。然而,由于这些API接口文档内的各种数据信息 的数据类型不同,因此通过人工阅读的方式获取这些API接口文档内的特定信息,往往会出 现漏记、错记的现象,此外,整个人工阅读过程虽然操作简单,但需要大量的重复操作,效率 极低,人员投入很大,入不敷出,缺少创造性。 在实际应用中,关于API接口文档中特定信息的提取,有些企业已经引入了文本信 息提取技术,文本信息提取技术是从文本信息中提取特定信息的一种技术。提取文本数据 中所需的名词短语、人名、地名等都是属于文本信息提取技术的范畴。但是,现有的文本信 息提取技术只能从文本信息中抽取具有简单结构特性的特定信息,并不能够精准地提取出 文本信息中的全部特定信息,从而严重降低特定信息的利用率,此时,为提高特定信息的利 用率,一般会使用人工继续对文本信息进行进一步特定信息提取。 此外,现有的文本信息提取技术对于文本信息的数据类型也有一定的数据要求; 不同的数据类型的文本信息使用的特征提取方法以及提取关键字均不同,例如,API接口文 档内的数据类型多种多样,包括xml、pdf、word、json等等,各种类型的数据均需要配置相应 的特征提取方法。另外,在API接口文档中,一些类型的数据是分布在另一些类型的数据中 的,比如,IP地址信息和参数信息并不全都伴随相应的关键字出现,而是隐藏在报文信息 中,因此,使用传统的文本信息提取技术无法提取。 所以,虽然有些企业已经在系统集成中使用了传统的文本信息提取技术,但这种 技术并不能自动的提取到各类文档中的所有关键信息,如接口参数、IP地址、Json报文样 例、XML报文样例等,从而完成对API的描述。 基于以上几个问题,亟需一种能够高效率的自动解析出API接口文档中所有特定 信息的方法。
技术实现要素:
本发明提供一种自动化API接口文档解析配置方法、系统、电子装置以及计算机存 储介质,其主要目的在于解决现有的系统集成中,使用传统的文本信息提取技术不能自动 的提取到各类文档中的所有关键信息的问题。 为实现上述目的,本发明提供一种自动化API接口文档解析配置方法,该方法包括 4 CN 111553150 A 说 明 书 2/10 页 如下步骤: 对历史API接口文档样本进行预处理,以获取所述历史API接口文档样本内的历史 报文信息; 对所述历史报文信息进行分段标注,以实现对所述历史报文信息中的报文开头、 报文结尾、报文体以及非报文体的标注,并根据分段标注后的历史报文信息对预设的自动 分词标注模型进行训练; 获取待配置API接口文档内的实时报文信息,并通过所述自动分词标注模型对所 述实时报文信息进行分词处理和标注处理,以获取所述实时报文信息的实时报文体; 提取所述实时报文体中的请求参数、返回参数以及IP地址; 将所述实时报文体中的请求参数、返回参数以及IP地址转化为第一Json格式数据 信息,并将所述第一Json格式数据信息保存至预设的excel数据库。 另外,本发明还提供一种自动化API接口文档解析配置系统,所述解析配置系统包 括: 预处理单元,用于对历史API接口文档样本进行预处理,以获取所述历史API接口 文档样本内的历史报文信息; 模型训练单元,用于对所述历史报文信息进行分段标注,以实现对所述历史报文 信息中的报文开头、报文结尾、报文体以及非报文体标注,并根据分段标注后的历史报文信 息对预设的自动分词标注模型进行训练; 模型应用单元,用于获取待配置API接口文档内的实时报文信息,并通过所述自动 分词标注模型对所述实时报文信息进行分词处理和标注处理,以获取所述实时报文信息的 实时报文体; 实时报文体处理单元,用于提取所述实时报文体中的请求参数、返回参数以及IP 地址; 数据存储单元,用于将所述实时报文体中的请求参数、返回参数以及IP地址转化 为第一Json格式数据信息,并将所述第一Json格式数据信息保存至预设的excel数据库。 另外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处 理器以及存储在所述存储器中并可在所述处理器上运行的自动化API接口文档解析配置程 序,所述自动化API接口文档解析配置程序被所述处理器执行时实现如下步骤: 对历史API接口文档样本进行预处理,以获取所述历史API接口文档样本内的历史 报文信息; 对所述历史报文信息进行分段标注,以实现对所述历史报文信息中的报文开头、 报文结尾、报文体以及非报文体的标注,并根据分段标注后的历史报文信息对预设的自动 分词标注模型进行训练; 获取待配置API接口文档内的实时报文信息,并通过所述自动分词标注模型对所 述实时报文信息进行分词处理和标注处理,以获取所述实时报文信息的实时报文体; 提取所述实时报文体中的请求参数、返回参数以及IP地址; 将所述实时报文体中的请求参数、返回参数以及IP地址转化为第一Json格式数据 信息,并将所述第一Json格式数据信息保存至预设的excel数据库。 另外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读 5 CN 111553150 A 说 明 书 3/10 页 存储介质中存储有自动化API接口文档解析配置程序,所述自动化API接口文档解析配置程 序被处理器执行时,实现如上述自动化API接口文档解析配置方法的步骤。 本发明提出的自动化API接口文档解析配置方法、电子装置及计算机可读存储介 质先通过预处理、分段标注等方式实现对历史报文信息的分段标注,然后,运用分段标注后 的历史报文信息训练预设的自动分词标注模型,最后使用训练好的自动分词模型对待配置 API接口文档进行解析并将解析到的数据保存至excel数据库,从而实现待配置的API接口 文档的自动解析与配置,进而显著提高API接口文档的解析效率。 附图说明 图1为根据本发明实施例的自动化API接口文档解析配置方法的较佳实施例流程 图; 图2为根据本发明实施例的电子装置的较佳实施例结构示意图; 图3为根据本发明实施例的自动化API接口文档解析配置程序的内部逻辑示意图。 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。