
技术摘要:
本发明公开了训练文件生成及评价方法、装置、计算机系统及存储介质,包括:接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获 全部
背景技术:
机器学习模型是一种通过从大量历史数据中挖掘出其中隐含的规律,实现预测或 者分类的算法的总称,具体表现为通过接收样本数据,并通过其自身的函数进行运算以输 出预测结果或分类结果;在智能搜索领域,目前,通常采用具有标注的样本文件对基于机器 学习模型构建的智能搜索模型进行训练,以获得能够准确理解样本数据,并根据该数据获 得准确的检索结果的成熟模型。 因此,高质量的样本文件对于训练智能搜索模型来说是至关重要的;然而,由于当 前训练文件的生成方法无法获知训练样本真实的命中率,导致训练样本的标注质量无法得 到保证,因此造成了无法快速准确的训练智能搜索模型的局面。
技术实现要素:
本发明的目的是提供一种训练文件生成及评价方法、装置、计算机系统及存储介 质,用于解决现有技术存在的无法获知训练样本真实的命中率,导致训练样本的标注质量 无法得到保证的问题。 为实现上述目的,本发明提供一种训练文件生成及评价方法,包括: 标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述 领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所 述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实 体; 所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其 进行序列标注获得训练文件,将所述训练文件发送命中服务器; 所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练 文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所 述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。 上述方案中,所述接收原始文件并获取所述原始文件的领域信息和训练实体包 括: 获取原始文件,对所述原始文件进行领域识别获得领域信息,对所述原始文件进 行实体识别获得独立实体; 通过预设的关系清单获得独立实体的编码,并将其与所述独立实体关联; 根据预设的关系规则判断相邻的两个独立实体是否具有关联关系;若具有关联关 系,则合并所述两个独立实体形成关联实体,并识别下一相邻的两个独立实体是否具有关 联关系;若不具有关联关系,则识别下一相邻的两个独立实体是否具有关联关系; 4 CN 111582497 A 说 明 书 2/11 页 将所述独立实体和关联实体设为训练实体。 上述方案中,所述根据所述领域信息和训练实体处理所述原始文件获得标注文件 包括: 根据所述训练实体标注所述原始文件获得标注处理文件; 将所述领域信息载入所述标注处理文件获得标注文件。 上述方案中,所述识别所述标注文件的语义,并对其进行序列标注获得训练文件 包括: 对所述标注文件进行语义识别获得查询意图; 根据标注文件中的编码对所述标注文件进行槽值填充,以实现对所述标注文件中 的训练实体的序列标注; 汇总所述查询意图以及具有序列标注的标注文件形成训练文件。 上述方案中,所述将所述训练文件录入与所述领域信息对应的智能搜索模型以获 得训练结果包括: 根据所述训练文件的领域信息在生产环境中选择对应的智能搜索模型,将所述训 练文件录入所述智能搜索模型; 所述智能搜索模型根据所述训练文件的查询意图和标注文件获得训练结果。 上述方案中,所述通过命中分析算法计算所述训练结果获得命中率包括: 通过命中分析算法计算训练文件中各训练实体在训练结果中的出现频率,以获得 用于描述所述训练实体对相关文件的重要程度的词频; 通过命中分析算法计算训练文件中各训练实体在训练结果中的数量,以获得用于 描述训练实体在训练结果中稀缺程度的逆向文件频率; 通过命中分析算法将所述词频信息和逆向文件频率相乘,以获得用于描述所述各 训练实体与各相关文件之间匹配度的实体匹配值; 将所述相关文件的实体匹配值相加,以获得用于描述所述训练文件与所述相关文 件之间匹配度的文件匹配值; 将各所述相关文件的文件匹配值相加,以获得用于描述所述训练文件与所述训练 结果之间匹配度的命中率。 上述方案中,所述汇总所述训练文件和命中率生成命中分析报告之后还可包括: 将所述命中率与预设的命中阈值进行比对; 若所述命中率超过预设的命中阈值,则判定所述训练文件合格,并向用户端发送 所述命中分析报告; 若所述命中率未超过预设的命中阈值,则判定所述训练文件不合格,并向用户端 发送所述命中分析报告。 为实现上述目的,本发明还提供一种训练文件生成及评价装置,包括: 标注服务器,用于接收原始文件并获取所述原始文件的领域信息和训练实体,根 据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器; 其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中 的命名实体; 识别服务器,用于通过预设的自然语言理解模型识别所述标注文件的语义,并对 5 CN 111582497 A 说 明 书 3/11 页 其进行序列标注获得训练文件,将所述训练文件发送命中服务器; 命中服务器,具有智能搜索模型和命中分析算法,用于将所述训练文件录入与所 述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获 得命中率,汇总所述训练文件和命中率生成命中分析报告。 为实现上述目的,本发明还提供一种计算机系统,其包括多个计算机设备,各计算 机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述 多个计算机设备的处理器执行所述计算机程序时共同实现上述训练文件生成及评价方法 的步骤。 为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质, 各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行 时共同实现上述训练文件生成及评价方法的步骤。 本发明提供的训练文件生成及评价方法、装置、计算机系统及存储介质,通过获取 原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理 所述原始文件获得标注文件;以及识别所述标注文件的语义并对其进行序列标注以获得训 练文件;以实现自动获得训练文件的技术效果,消除了人为错误的影响,保证了训练文件的 生成质量和生成速度。 将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过 命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报 告,因此,通过向用户端发送训练结果的命中率,解决了当前无法获知训练样本真实的命中 率,导致训练样本的标注质量无法得到保证的问题。 附图说明 图1为本发明训练文件生成及评价方法实施例一的流程图; 图2为本发明训练文件生成及评价方法实施例一中获得训练数据集的流程图; 图3为本发明训练文件生成及评价方法实施例一中获得标注文件的流程图; 图4为本发明训练文件生成及评价方法实施例一中获得训练文件的流程图; 图5为本发明训练文件生成及评价方法实施例一中获得训练结果的流程图; 图6为本发明训练文件生成及评价方法实施例一中获得命中率的流程图; 图7为本发明训练文件生成及评价方法实施例一中生成命中分析报告之后的流程 图; 图8为本发明训练文件生成及评价装置实施例二的程序模块示意图; 图9为本发明计算机系统实施例三中计算机设备的硬件结构示意图。 附图标记: 1、训练文件生成及评价装置2、计算机设备11、标注服务器 12、识别服务器13、命中服务器21、存储器22、处理器