logo好方法网

分词数据集生成方法、装置、设备及其存储介质


技术摘要:
本申请公开了分词数据集生成方法、装置、设备及其存储介质。该方法包括对输入文本按照不同的分词方式进行分词处理,得到分词语料;按照分词组合统计结果对分词语料进行去重采样处理,得到采样结果;基于采样结果的词性预测结果对采样结果进行切分修正,得到分词数据集  全部
背景技术:
在中文自然语言处理领域,大多数针对分词算法进行优化改进,但是无论采用何 种分词工具,如果不能保证训练数据的数量足够大,尽可能覆盖更多的词语组合情形,则不 能保证训练结果的准确性。 现有公开的分词数据集,根据各自的分词工具构建的,但是不同的分词工具对词 粒度的切分处理是不同的,各自分词工具处理的数据来源也是比较单一的。因为来源较为 单一,可能这些数据集不能涵盖一些新的词语,例如“抖音”、“微视”等。在不同的训练场景 中,如果期望利用现有的分词数据集进行模型训练,则需要对现有的分词数据集进行复杂 的处理才能使用,则导致分词数据集可利用性较差,数据处理的效率较低。
技术实现要素:
鉴于现有技术中的上述缺陷或不足,期望提供一种分词数据集生成方法、装置、设 备及其存储介质,通过对分词进行抽取。 一方面,本申请实施例提供了一种分词数据集生成方法,该方法包括: 对输入文本按照不同的分词方式进行分词处理,得到分词语料; 按照分词组合统计结果对分词语料进行去重采样处理,得到采样结果; 基于采样结果的词性预测结果对采样结果进行切分修正,得到分词数据集。 一方面,本申请实施例提供了一种分词数据集生成装置,该装置包括: 分词处理单元,用于对输入文本按照不同的分词方式进行分词处理,得到分词语 料; 分词采样单元,用于按照分词组合统计结果对分词语料进行去重采样处理,得到 采样结果; 分词修正单元,用于基于采样结果的词性预测结果对采样结果进行切分修正,得 到分词数据集。 一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存 储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描 述的方法。 一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序, 该计算机程序用于: 该计算机程序被处理器执行时实现如本申请实施例描述的方法。 本申请实施例提供的分词数据集生成方法、装置、设备及其存储介质,该方法通过 对输入文本按照不同的分词方式进行分词处理,得到分词语料;按照分词组合统计结果对 4 CN 111597807 A 说 明 书 2/12 页 分词语料进行去重采样处理,得到采样结果;基于采样结果的词性预测结果对采样结果进 行切分修正,得到分词数据集。本申请实施例通过对输入文本按照不同的分词方式进行分 词处理,来增加分词数量,然后利用去重采样处理来减少分词语料中初始分词的噪音,从而 增加分词数据集的有效性;最后利用采样结果的词性预测结果对采样结果所包含的初始分 词进行分词修正,来克服相关技术的分词数量较少,分词粒度不一致的问题,并有效地提高 分词有效性和准确性。 附图说明 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显: 图1是本申请实施例提供的分词数据集生成系统的架构示意图; 图2示出了本申请实施例提供的分词数据集生成方法的流程示意图; 图3示出了本申请实施例提供的分词数据集生成的流程示意图; 图4示出了本申请实施例提供的分词数据集生成的流程示意图; 图5示出了本申请实施例提出的分词修正处理的流程示意图; 图6示出了根据本申请实施例提供的分词数据集生成装置的示例性结构框图; 图7示出了适于用来实现本申请实施例的电子设备或服务器的计算机系统的结构 示意图。
分享到:
收藏