
技术摘要:
本发明提供的一种混合深度学习网络与单词生成统计学指导的机器翻译方法,该方法以NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精度,在机器翻译性能上显著优于单独使用NMT、SM 全部
背景技术:
机器翻译研究是对如何通过计算机实现两种自然语言间翻译任务的技术研究,机 器翻译技术现已广泛应用于人们的生产、生活当中。目前,机器翻译研究主要面临以下研究 难点:第一,从语言学的角度出发,自然语言具有多样性、多变性和歧义性。同样的单词、短 语或句子在不同的语境中可能代表不同的意思,不同甚至意义相反的单词、短语或句子在 同一语境中有时却能表达相同的含义;自然语言还常存在语言语法不规范的问题,因其表 达的灵活性,仅从语言学角度出发都难以寻找能够全面覆盖语法的统一规则;新字、新词和 错别字的混用,亦是计算机识别和理解自然语言的主要障碍。第二,从数学建模的角度出 发,即便语言学能够提供一个完全覆盖语言语法的统一规则,能够及时、正确对新字、新词、 错别字进行更新和更错,也难以建立一个能够尽可能包含文字信息、理解语义并且符合计 算机可承受能力的数学模型。第三,从语料的角度出发,什么样的语料正确反应语言特点, 如何采集或获取这样的语料都是机器翻译研究所面临的重要问题。 在能够提供优质语料 ,解决第三个研究难点的基础下 ,统计机器翻译 (Statistical Machine Translation ,SMT)方法与基于神经网络的机器翻译(Neural Machine Translation,NMT)方法针对第一、第二个研究难点采用了不同的解决方案。SMT方 法通过对大量平行语料的统计学分析及统计特征提取,赋予语言统计学意义,将不同语种 间的语义语法关系建模为统计学关系,能够在机器翻译任务中得到较准确的翻译结果;而 NMT方法以“编码-译码”模型为基础,搭建深度学习网络,将语言互译过程建模为“编码 译 码”的过程,充分适应自然语言多样性、多变性的问题,在完成机器翻译任务上展现出优秀 的性能。然而,受限于自身建模方法和翻译机制,上述两种机器翻译方法同样具有难以克服 的不足之处。 NMT方法性能受限于以下因素:首先,NMT方法存在翻译覆盖问题[1]Z.Tu ,Z .Lu , Y.Liu,X .Liu,and H.Li“, Modeling coverage for neural machine translation ,”in Proc.40th Annu.Meeting Assoc.Comput.Linguistics,2016,pp.76–85,翻译过程以预先 约定的符号(如“EOS”符号)为结束标记,缺乏针对待翻译语句中已翻译单词的显式标记机 制,从而不能保证待翻译语句中的所有单词能被准确翻译。第二,NMT方法存在翻译不准确 的问题[2]P.Arthur,G.Neubig,and S.Nakamura“, Incorporating discrete translation lexicons into neural machine translation ,”in Proc .Conf .Empirical Methods Natural Lang.Process.,2016,NMT系统使用了注意力机制,系统的译码器受注意力参数平 滑作用的影响,可能产生流畅却不够准确的翻译结果。最后,NMT方法存在有限词汇问题[3] S.Jean,K.Cho,R.Memisevic,and Y.Bengio“, On using very large target vocabulary f o r n e u r a l m a c h i n e t r a n s l a t i o n ,”i n P r o c .5 3 r d A n n u .M e e t i n g 7 CN 111597831 A 说 明 书 2/13 页 Assoc.Comput.Linguistics 7th Int.Joint Conf .Natural Lang .Process.(Volume 1: Long Papers) ,Beijing ,China ,Jul .2015 ,pp .1–10,NMT系统译码器嵌入层及编码器 Softmax层计算成本与词汇范围的大小成正比,故NMT系统在待翻译语言和目标语言中均只 使用出现频率最高的有限词汇,有限的词汇范围使得待翻译语句中的低频词汇语义丢失、 翻译结果中的语义无法充分表达,造成翻译系统输入、输出语句的语义截断,进而使得系统 无法得到最优的翻译结果。 SMT方法性能受限于以下因素:首先,SMT方法较NMT方法而言需要更大的空间开 销:SMT方法通过提取双语平行语料库的统计学特征,将不同语言之间的语义语法关系建模 为统计学关系,其翻译过程的实质是寻找当前输入条件下,输出概率最大的结果,故需要占 用大量的内存储存这些统计学概率。第二,SMT方法对语料库依赖性强,需要高质量的平行 语料才能够提取出正确的统计学特征。最后,因SMT方法在翻译过程中使用固定的概率映射 关系,导致其翻译结果虽相对准确、充分,却可能缺乏一定的流畅性。
技术实现要素:
本发明为克服现有的NMT方法性能和SMT方法性存在的多种受限因素导致系统无 法获取最优的翻译结果的技术缺陷,提供一种混合深度学习网络与单词生成统计学指导的 机器翻译方法。 为解决上述技术问题,本发明的技术方案如下: 混合深度学习网络与单词生成统计学指导的机器翻译方法,包括以下步骤: S1:构建基于神经网络的机器翻译模型,即NMT模型、统计机器翻译模型,即SMT模 型、第一分类器和第二分类器,形成混合机器翻译系统; S2:将待翻译语句同步输入NMT模型和SMT模型中,引入翻译覆盖向量,统一NMT模 型与SMT模型的翻译进度; S3:使用SMT模型为NMT模型译码过程提供单词生成指导,同时,NMT模型将其注意 力参数与SMT模型共享,SMT模型接收并结合注意力参数产生当前译码步骤的生成词评分; S4:利用第一分类器、第二分类器分步指导混合机器翻译系统完成翻译译码过程。 上述方案中,该方法NMT模型为主体,SMT模型为混合机器翻译系统提供单词生成 的统计学特征并指导混合机器翻译系统的译码过程,能够有效提升机器翻译系统的翻译精 度,在机器翻译性能上显著优于单独使用NMT、SMT方法的基准系统,对于提升机器翻译系统 性能具有重要的现实意义。 其中,在所述步骤S1中,所述NMT模型为常用的NMT模型,其最终输出结果为经过 Softmax函数映射后词汇表中所有所有单词的译出概率估计;其中,将Softmax层从NMT模型 模型中分离,并记为第零分类器。 其中,在所述步骤S1中,所述SMT模型包括基于一元模型的生成词评分系统和基于 二元模型的生成词评分系统;其中:所述基于一元模型的生成词评分系统用于生成一元模 型生成词评分;基于二元模型的生成词评分系统用于生成二元模型生成词评分。 其中,在所述步骤S2中,所述翻译覆盖向量用以显式标记待翻译语句中已被翻译 的部分;对某一待翻译语句而言,翻译覆盖向量长度与该语句的句长相等,向量元素按序与 待翻译语句中的各单词对齐,所有元素均只有0和1两种取值,0表示对应单词未被翻译,1表 8 CN 111597831 A 说 明 书 3/13 页 示对应单词已被翻译。 其中,为在译码过程中标记混合机器翻译系统的翻译状态,所述翻译覆盖向量使 用如下更新规则:当混合机器翻译系统最终生成单词由基于一元模型的生成词评分系统或 基于二元模型的生成词评分系统产生时,则根据SMT模型显式对齐关系更新对应位元素至 1;若不由基于一元模型的生成词评分系统或基于二元模型的生成词评分系统产生,则当前 译码步骤不对翻译覆盖向量做任何更新。 其中,在所述步骤S3中,基于一元模型的生成词评分系统具体计算过程为: 所述基于一元模型的生成词评分系统包括预评分模块、重排序评分模块和最终评 分计算模块; 待翻译语句在基于一元模型的生成词评分系统中被切割为离散单词后被送入预 评分模块中,根据翻译覆盖向量对单词进行预评分,具体计算过程为: 其中,xt表示通过翻译覆盖向量限定为待翻译语句中未被翻译的单词,yt限定为对 应xt的预评分最高的nlocal个候选生成词,Hm、λm分别为预构造的统计学特征及其对应权重; 因待翻译语句被切割为离散单词后丢失了词对齐信息,而词对齐信息在机器翻译 任务中具有重要的作用,预评分结果需送入重排序评分模块对候选词进行重排序评分; 重排序评分模块通过基于距离的词对齐信息计算对预评分结果进行重排序评分, 具体计算公式为: 其中, 分别表示待翻译语句中与当前时刻可能的译出结果yt、上一时 刻最终译出结果yt-1对齐的单词在句中的位置;然而,在基于一元模型的生成词评分系统 中,SMT模型难以确定待翻译语句中与yt-1对应的单词,即无法确定 故使用NMT模型的 注意力参数对式(2)进行更改,基于一元模型的生成词评分系统中候选单词yt的重排序评 分计算公式如下: 其中,αt-1,j为NMT模型前一时刻产生的注意力参数,Tx为待翻译语句的总长度;为 综合考虑译出结果yt的预评分和重排序评分,通过最终评分计算模块进行基于一元模型的 生成词评分系统最终的评分计算; 在最终评分计算模块中存在一个门控单元,该门控单元负责调整单词预评分与重 排序评分在最终评分中的权重,最终评分计算方法如式(4)所示: score1(yt)=λ·SMT1(yt) (1-λ)·d1(yt) (4) 其中,λ为取值为0-1的门控单元参数;最后,最终评分计算模块的输出将作为基于 一元模型的生成词评分系统当前时刻的输出送至第一分类器中。 其中,在所述步骤S3中,基于二元模型的生成词评分系统具体计算过程为: 9 CN 111597831 A 说 明 书 4/13 页 与基于一元模型的生成词评分系统不同的是,基于二元模型的生成词评分系统将 包含Tx个单词的待翻译语句x分割成(Tx-1)个二元单元;由于二元单元经过SMT模型译出结 果长度不定,因此需要将该结果补齐或截断为二元单元:当译出结果为一元单元时,在其尾 部添加一位空白元素使之形成二元单元;当译出结果长度大于2时,仅保留译出结果的前两 位作为基于二元模型的生成词评分系统的评分对象; 将所有译出二元单元中的元素作为候选结果,并按对齐假设与待翻译语句对齐形 成序列,序列中的任意候选结果,均可能由两个接续的二元单元依两种对齐假设生成,故在 基于二元模型的生成词评分系统中,对某一候选结果,应同时考虑两种对齐假设并分别进 行评分,再由最终评分计算模块计算最终的生成词评分; 所述基于二元模型的生成词评分系统由两组预评分模块、重排序评分模块和一个 最终评分计算模块组成,从t时刻候选结果序列中的某元素yt出发,基于二元模型的生成词 评分系统具体计算过程为: 对t时刻的候选结果yt,当仅考虑第一种对齐假设,即yt为译出二元单元的第一个 元素时,预评分方法与基于一元模型的评分系统相似,但因预评分输入为二元单元,预评分 SMT2-1计算公式应修改为: 其中,<·>表示将括号内两元素连接为二元单元, 表示待翻译语句中紧随xt出 现的下一个词,n-best表示在输入为 的情况下SMT模型输出评分最高的n个结果,