
技术摘要:
本申请实施例提供了一种训练文本的处理方法、装置、电子设备及可读存储介质。该方法包括:获取各训练文本;确定各训练文本之间的文本相似度;将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果;基于聚类 全部
背景技术:
在人工智能技术领域中,无论涉及哪个技术领域,均需要大量且准确的样本作为 训练集来实现模型准确的识别,现有技术中在对训练集进处理时,大多数的方法依然是传 统的人工方式单条处理。例如,采用人工的方式单条标注训练标签,对此时不仅会存在人工 标注效率低下的问题,还会影响需求该样本集的技术模型的上线周期。
技术实现要素:
本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有的症状识别方法 的识别准确性较差的技术缺陷。 第一方面,本申请实施例提供了一种训练文本的处理方法,该方法包括: 获取各训练文本; 确定各训练文本之间的文本相似度; 将各文本相似度中大于设定阈值的相似度所对应的各训练文本作为待聚类文本, 对各待聚类文本进行聚类,得到聚类结果; 基于聚类结果对各待聚类文本进行处理。 第二方面,本申请实施例提供了一种训练文本的处理装置,该装置包括: 文本获取模块,用于获取各训练文本; 文本相似度确定模块,用于确定各训练文本之间的文本相似度; 聚类结果确定模块,用于将各文本相似度中大于设定阈值的相似度所对应的各训 练文本作为待聚类文本,对各待聚类文本进行聚类,得到聚类结果; 文本处理模块,用于基于聚类结果对各待聚类文本进行处理。 第三方面,本申请实施例提供了一种电子设备,该电子设备包括: 处理器;以及存储器,该存储器配置用于存储计算机程序,该计算机程序在由该处 理器执行时,使得该处理器执行第一方面中的任一项方法。 第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质 用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述第一方 面中的任一项方法。 本申请实施例提供的技术方案带来的有益效果是: 在本申请实施例中,在获取到各训练文本后,可以先确定各训练文本之间的文本 相似度,然后基于各文本相似度与设定阈值的关系过滤部分训练文本,然后将保留的训练 文本作为待聚类文本,并对各待聚类文本进行聚类,得到聚类结果,进一步的,基于本申请 实施例所提供的方案,可以基于训练文本所对应的聚类结果,实现对训练文本的批量处理, 5 CN 111597336 A 说 明 书 2/16 页 从而可以有效提升文本的处理效率。 附图说明 为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所 需要使用的附图作简单地介绍。 图1为本申请实施例提供的一种训练文本的处理方法的流程示意图; 图2为本申请实施例提供的一种显示的聚类类别的示意图; 图3为本申请实施例提供的一种显示界面的示意图; 图4为本申请实施例提供的一种得到目标训练集的流程示意图; 图5为本申请实施例提供的一种各训练文本的示意图; 图6a为本申请实施例提供的一种显示聚类结果的示意图; 图6b为本申请实施例提供的一种显示非聚类结果的示意图; 图7为本申请实施例提供的一种聚类标注界面的示意图; 图8为本申请实施例提供的一种训练文本的处理装置的结构示意图; 图9为本申请实施例提供的一种电子设备的结构示意图。