logo好方法网

文本生成方法、装置、设备以及存储介质


技术摘要:
本申请公开了一种文本生成方法、装置、设备以及存储介质,属于数据处理领域,方法包括:获取第一文本。基于所述第一文本中的字符,获取所述第一文本的语义特征。也就是说在这个过程中是以第一位文本的字符为单位进行语义特征的提取,语义特征从一定程度上反映了字符之  全部
背景技术:
随着计算机技术的发展,一些情况下需要生成与语义相似且表述方式不同的文本 来扩充文本数据库,便于后续基于文本数据库中的文本进行相应的查询操作。 相关技术中会通过一些基本的规则来生成与某一文本语义相似,但是表述方式不 同的文本,从而扩充文本数据库,比如对该文本中的关键字或短语进行替换、语义平移或引 入噪声等。由于规则可能无法适用于所有的文本,因此,采用上述扩充方式生成的文本可能 会改变原文本的语义,导致生成的文本与原文本之间语义差别较大,文本生成的效果不佳。
技术实现要素:
本申请实施例提供了一种文本生成方法、装置、设备以及存储介质,可以提升文本 生成的效果。所述技术方案如下: 一方面,提供了一种文本生成方法,所述方法包括: 获取第一文本; 基于所述第一文本中的字符,获取所述第一文本的语义特征; 基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的 概率,所述概率用于表示所述备选字符在生成文本时的出现概率; 基于所述概率符合目标概率条件的备选字符,生成多个第二文本。 一方面,提供了一种文本生成装置,所述装置包括: 文本获取模块,用于获取第一文本; 语义特征获取模块,用于基于所述第一文本中的字符,获取所述第一文本的语义 特征; 概率确定模块,用于基于随机生成的隐特征以及所述第一文本的语义特征,得到 多个备选字符对应的概率,所述概率用于表示所述备选字符在生成文本时的出现概率; 生成模块,用于基于所述概率符合目标概率条件的备选字符,生成多个第二文本。 在一种可能的实施方式中,所述语义特征获取模块,还用于对所述第一文本中的 字符进行嵌入编码,得到字符特征;为所述字符特征添加位置特征,基于注意力权重和添加 位置特征后的字符特征,获取所述第一文本的语义特征,所述位置特征用于表示所述第一 文本中的字符在所述第一文本中的位置。 在一种可能的实施方式中,所述概率确定模块,用于将所述隐特征以及所述第一 文本的语义特征进行拼接,得到所述第一文本对应的第一融合特征;基于所述第一融合特 征和所述第一文本的语义特征,得到多个备选字符对应的概率。 在一种可能的实施方式中,所述概率确定模块,用于对所述第一融合特征和所述 5 CN 111597779 A 说 明 书 2/20 页 第一文本的语义特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概 率,所述第一概率用于表示多个备选字符对应的初始概率,所述第二概率用于表示采用备 选字符对所述第一文本中的原字符进行替换的概率;基于所述第一概率和所述第二概率的 乘积,得到多个备选字符对应的概率。 在一种可能的实施方式中,所述概率确定模块,用于对所述第一融合特征和所述 第一文本的语义特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概 率,所述第一概率用于表示多个备选字符对应的初始概率,所述第二概率用于表示备选字 符对原字符进行替换的概率;基于所述第一概率和所述第二概率的乘积,得到多个备选字 符对应的概率。 在一种可能的实施方式中,所述概率确定模块,用于将所述第一文本的语义特征 中对应于不同字符的语义特征进行加权求和,得到第二融合特征;对所述第一融合特征和 所述第二融合特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概率。 在一种可能的实施方式中,通过文本生成模型获取所述第一文本的语义特征以及 所述多个备选字符对应的概率,所述文本生成模型的训练装置包括: 文本确定模块,用于确定样本文本和至少一个与所述样本文本之间相似度符合目 标相似度条件的参考文本; 输入模块,用于将所述样本文本中的字符和所述参考文本中的字符输入初始文本 生成模型,通过所述初始文本生成模型生成至少一个预测文本; 调整模块,用于基于所述至少一个预测文本与所述样本文本之间的差异信息,调 整所述初始文本生成模型的模型参数; 模型确定模块,用于将所述差异信息符合目标条件的模型作为所述文本生成模 型。 在一种可能的实施方式中,所述输入模块,用于基于所述样本文本中的字符确定 所述样本文本对应的样本语义特征;基于所述参考文本中的字符确定所述参考文本对应的 参考语义特征;基于所述样本语义特征以及所述参考语义特征生成所述至少一个预测文 本。 在一种可能的实施方式中,所述输入模块,用于基于所述样本语义特征以及所述 参考语义特征,确定后验高斯分布的分布参数;基于所述后验高斯分布的分布参数确定所 述样本文本和所述参考文本对应的样本隐特征;基于所述样本隐特征和所述参考语义特征 生成所述至少一个预测文本。 在一种可能的实施方式中,所述输入模块,用于将所述样本隐特征和所述参考语 义特征进行拼接,得到样本融合特征;对所述样本融合特征和所述样本语义特征进行归一 化处理,得到多个备选字符对应的概率;基于所述多个备选字符对应的概率,生成所述至少 一个预测文本。 在一种可能的实施方式中,所述调整模块,用于确定所述至少一个预测文本与所 述样本文本中字符的相对熵损失,根据所述相对熵损失调整所述初始文本生成模型的模型 参数。 一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个 或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述程序代码由所述 6 CN 111597779 A 说 明 书 3/20 页 一个或多个处理器加载并执行以实现所述文本生成方法所执行的操作。 一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至 少一条程序代码,所述程序代码由处理器加载并执行以实现所述文本生成方法所执行的操 作。 通过本申请实施例提供的技术方案,服务器可以根据第一文本的字符获取第一文 本的语义特征,也就是说在这个过程中是以第一位文本的字符为单位进行语义特征的提 取,语义特征从一定程度上反映了字符之间的关系,后续基于语义特征进行预测可以达到 更加准确的效果。根据随机生成的隐特征和第一文本的语义特征,得到备选字符对应的概 率,这样可以生成表述方式不同的文本,提高文本生成的多样性。通过上述技术方案,服务 器可以保证对第一文本语义特征提取准确性的前提下,通过隐特征提高生成文本的多样 性,达到了更好的文本生成效果。 附图说明 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他 的附图。 图1是本申请实施例提供的一种文本生成方法的实施环境的示意图; 图2是本申请实施例提供的一种文本生成类应用的界面示意图; 图3是本申请实施例提供的一种文本生成模型的结构示意图; 图4是本申请实施例提供的一种文本生成模型的语义特征提取层的结构示意图; 图5是本申请实施例提供的一种文本生成模型的训练方法流程图; 图6是本申请实施例提供的一种文本生成方法的流程图; 图7是本申请实施例提供的一种确定备选字符对应概率的方法流程图; 图8是本申请实施例提供的一种应用界面示意图; 图9是本申请实施例提供的一种文本生成方法的流程图; 图10是本申请实施例提供的一种文本生成装置的结构框图; 图11是本申请实施例提供的一种文本生成模型训练装置的结构框图; 图12是本申请实施例提供的一种终端的结构示意图; 图13是本申请实施例提供的一种服务器的结构示意图。
分享到:
收藏