
技术摘要:
本发明实施例提供实时文本自动添加标点的方法、模型构建方法及装置,其中,模型构建方法包括:构造包括标注模型和基于强化学习实现的决策模型的实时文本自动添加标点模型,将无标点的实时文本流作为输入流输入标注模型,对于输入流中当前输入标注模型的字符,标注模型 全部
背景技术:
随着社会的进一步发展,连续语音识别(Continuous Speech Recognition,简称 CSR)技术应用越来越广泛,如智能客服和同声翻译等等。但是,目前的CSR技术得出的文本 没有标点符号,这对CSR输出结果的进一步利用和语音识别的下游技术发展带来了很大限 制。因此,需要对CSR的输出结果进行自动添加标点符号处理,从而提高结果的可读性,使得 CSR技术获得更广阔的应用前景。 目前,现有的针对CSR技术输出的无标点文本进行添加标点的方法为:1)将自动添 加标点看作序列标注问题,以大量含有标点符号的自然文本为基础生成可用于训练的字 符-标点对集合;2)针对领域特点构建特定的神经网络结构,使用字符-标点对集合进行训 练,得到对文本自动添加标点符号的模型;3)将CSR输出的无标点文本输入对文本自动添加 标点符号的模型,得到包含标点的文本,实现标点符号的添加。 但是,现有的针对CSR技术输出的无标点文本进行添加标点的方法的不足主要在 于:在演讲和会议等实时场景下,待添加标点的文本无法一次性获得,而是要随着演讲者的 发言逐词获取,既实时文本;如果输出包含正确标点识别结果文本的过程相比于演讲者发 言有着较大时延,将会使听众无法将声音与文本及时对应,无法实时理解演讲者的语意,从 而带来较大的不便。现有的针对CSR技术输出的无标点文本进行添加标点的方法无法在实 时场景下及时响应的原因在于:当前方法的训练方式决定了当前方法更适用于对长文本进 行标点添加,在实时场景下获取长文本需要一定的时间,从而产生时延;同时如果不使用长 文本而直接对短文本进行标点添加,则添加结果质量会显著下降。
技术实现要素:
针对现有技术存在的问题,本发明实施例提供一种实时文本自动添加标点的方 法、模型构建方法及装置。 本发明实施例提供一种实时文本自动添加标点模型构建方法,包括: 构造实时文本自动添加标点模型,所述实时文本自动添加标点模型包括标注模型 和基于强化学习实现的决策模型,将无标点的实时文本流作为输入流输入所述标注模型, 对于所述输入流中当前输入所述标注模型的字符,所述标注模型输出当前字符是否进行标 点添加的标注结果,所述决策模型从输入流获取当前字符,根据所述标注模型当前的隐层 状态,对所述标注模型输出的当前字符是否进行标点添加的标注结果进行评估,控制是否 将当前字符是否进行标点添加的标注结果写入输出流; 以通用长序列加标点数据集作为输入,以所述通用长序列加标点数据集中的每个 字符是否进行标点添加的标注结果作为输出,基于机器学习算法,将所述标注模型训练至 5 CN 111581911 A 说 明 书 2/17 页 收敛,以及以包含预设数量个字符-标点对的数据集作为输入,以所述包含预设数量个字 符-标点对的数据集中每个字符是否进行标点添加的决策结果作为输出,基于强化学习算 法,将所述决策模型训练至收敛,进而获得训练好的实时文本自动添加标点模型。 可选地,所述标注模型为双层单向LSTM神经网络模型,所述双层单向LSTM神经网 络模型包括第一LSTM单元和第二LSTM单元,其中,所述第一LSTM单元的输入端作为所述双 层单向LSTM神经网络模型的输入端,所述第一LSTM单元的输出端与所述第二LSTM单元的输 入端连接,所述第二LSTM单元的输出端作为所述双层单向LSTM神经网络模型的输出端。 可选地,所述决策模型的主体结构是门控循环单元GRU;其中,令输入流为{x1, x2,...,xn},n为实时文本流中字符的数量,令t时刻需要标注的字符是xt,t=1,...,n,所述 决策模型指定所述标注模型的文本读取范围为{x1,x2,...,xq},q=1,...,n,所述标注模型 计算xt进行标点添加的标注结果为 所述决策模型根据所述标注模型当前的隐层状态, 利用决策dθ对 进行评估,若 符合决策dθ的要求,则将 作为t时刻对xt进行标点添加的 最终输出结果yt写入输出流,然后对xt 1进行标注;若 不符合决策dθ的要求,则令所述标注 模型读入xq 1后对xt进行重新标注,直至新的 符合决策dθ的要求,将新的 作为t时刻对xt 进行标点添加的最终输出结果yt写入输出流,然后对xt 1进行标注; 其中,将所述标注模型的第一LSTM单元的第一隐层状态向量h1、所述标注模型的 第二LSTM单元的第二隐层状态向量h2和待输出标点序列向量sT合并成观测变量ot=[h1;h2; sT],所述决策模型使用自身的门控循环单元GRU对ot进行编码,得到相应的决策dθ(at|a