
技术摘要:
本发明各实施例公开了一种疾病分类编码识别方法、装置、计算机设备及存储介质,其中,所述疾病分类编码识别方法包括:获取诊断数据;将所述诊断数据作为源语言输入机器翻译模型,所述机器翻译模型包括编码网络和解码网络;通过所述编码网络进行所述源语言的特征提取, 全部
背景技术:
随着医学技术的发展,国际疾病分类(ICD, International Classification of Diseases)编码已被广泛地应用于描述病人病情,例如病因、损伤、死因等等。因此,如何快 速地将医生关于病人病情描述的非标准化的数据转化为标准化的疾病分类编码便具有重 要意义。 通常,上述非标准化至标准化的转化过程,是由医院专门的编码员为医生给出的 关于病人病情描述的数据赋予疾病分类编码。这就要求编码员需要掌握许多特殊技能,例 如医学知识、编码规则、医学术语等等,进而导致依赖于人工实现的疾病分类编码识别不仅 人力成本非常昂贵,而且效率过于低下。 为此,基于计算机设备的疾病分类编码识别应运而生,然而,无论是基于字典检索 技术的疾病分类编码识别,或者基于分类学习的疾病分类编码识别,虽然在一定程度上缓 解了人工实现的困境,但不可避免地存在因数据稀疏,而难以保证疾病分类编码识别的准 确率。 由上可知,现有的疾病分类编码识别尚存在准确率不高的缺陷。
技术实现要素:
本发明各实施例提供一种疾病分类编码识别方法、装置、计算机设备及存储介质, 以解决相关技术中存在的疾病分类编码识别的准确率不高的问题。 其中,本发明所采用的技术方案为: 根据本发明实施例的一个方面,一种疾病分类编码识别方法,包括:获取诊断数据;将 所述诊断数据作为源语言输入机器翻译模型,所述机器翻译模型包括编码网络和解码网 络;通过所述编码网络进行所述源语言的特征提取,得到所述源语言的特征;将所述源语言 的特征输入所述解码网络进行解码,使得所述源语言被翻译为目标语言,所述目标语言为 所述诊断数据匹配的疾病分类编码。 根据本发明实施例的一个方面,一种疾病分类编码识别装置,包括:数据获取模 块,用于获取诊断数据;数据输入模块,用于将所述诊断数据作为源语言输入机器翻译模 型,所述机器翻译模型包括编码网络和解码网络;编码模块,用于通过所述编码网络进行所 述源语言的特征提取,得到所述源语言的特征;解码模块,用于将所述源语言的特征输入所 述解码网络进行解码,使得所述源语言被翻译为目标语言,所述目标语言为所述诊断数据 匹配的疾病分类编码。 在一个实施例中,所述编码网络包括第一嵌入层和若干个编码子层;所述编码模 块,包括:编码映射单元,用于在所述第一嵌入层中,将所述源语言中的分词映射为待编码 5 CN 111581987 A 说 明 书 2/11 页 向量;特征提取单元,用于通过若干个所述编码子层对所述待编码向量进行特征提取,得到 所述源语言的特征。 在一个实施例中,所述编码子层包括第一多头注意力层、第一全连接层和第一残 差连接层;所述特征提取单元,包括:第一输入子单元,用于针对每一个编码子层,接收该编 码子层的输入向量作为所述第一多头注意力层的输入向量,由所述第一多头注意力层的输 入端输入;所述待编码向量作为第一个编码子层的输入向量;第一融合子单元,用于通过连 接于所述第一多头注意力层的第一残差连接层,使得所述第一多头注意力层的输入向量与 输出向量融合,并传输至所述第一全连接层;第二融合子单元,用于通过连接于所述第一全 连接层的第一残差连接层,使得所述第一全连接层的输入向量与输出向量融合,得到该编 码子层的输出向量;该编码子层的输出向量作为后一个编码子层的输入向量;第一输出子 单元,用于将最后一个编码子层的输出向量作为所述源语言的特征。 在一个实施例中,所述第一多头注意力层的输入端包括Q1输入端、K1输入端和V1 输入端;所述第一输入子单元,包括:第一向量输入子单元,用于在所述编码子层中,将所述 编码子层的输入向量通过Q1输入端、K1输入端和V1输入端输入所述第一多头注意力层,分 别作为所述第一多头注意力层的Q端输入向量、K端输入向量和V端输入向量。 在一个实施例中,所述解码网络包括第二嵌入层和若干个解码子层;所述解码模 块,包括:解码映射单元,用于将所述源语言的特征输入所述第二嵌入层进行映射,得到待 解码向量;特征解码单元,用于通过若干个所述解码子层进行所述待解码向量的解码,得到 所述目标语言。 在一个实施例中,所述解码子层包括第二多头注意力层、第三多头注意力层、第二 全连接层、第二残差连接层和第三残差连接层;所述特征解码单元,包括:第二输入子单元, 用于针对每一个解码子层,接收该解码子层的输入向量作为所述第二多头注意力层的输入 向量,由所述第二多头注意力层的输入端输入;所述待解码向量作为第一个解码子层的输 入向量;第三融合子单元,用于通过连接于所述第二多头注意力层的第二残差连接层,使得 所述第二多头注意力层的输入向量与输出向量融合,并传输至所述第三多头注意力层;第 四融合子单元,用于通过所述第三残差连接层,将对应于该解码子层的编码子层的输出向 量作为所述第三多头注意力层的输入向量,由所述第三多头注意力层的输入端输入,以及, 通过连接于所述第三多头注意力层的第二残差连接层,使得所述第三多头注意力层的输入 向量与输出向量融合,并传输至所述第二全连接层;第五融合子单元,用于通过连接于所述 第二全连接层的第二残差连接层,使得所述第二全连接层的输入向量与输出向量融合,得 到该解码子层的输出向量;该解码子层的输出向量作为后一个解码子层的输入向量;第二 输入单元,用于由最后一个解码子层的输出向量得到所述目标语言。 在一个实施例中,所述第二多头注意力层的输入端包括Q2输入端、K2输入端和V2 输入端;所述第二输入单元,包括:第二向量输入子单元,用于在所述解码子层中,将所述解 码子层的输入向量通过Q2输入端、K2输入端和V2输入端输入所述第二多头注意力层,分别 作为所述第二多头注意力层的Q端输入向量、K端输入向量和V端输入向量。 在一个实施例中,所述第三多头注意力层的输入端包括Q3输入端、K3输入端和V3 输入端;所述第三融合单元,包括:第三向量输入子单元,用于在所述第三多头注意力层中, 将对应于该解码子层的编码子层的输出向量通过K3输入端和V3输入端输入所述第三多头 6 CN 111581987 A 说 明 书 3/11 页 注意力层,分别作为所述第三多头注意力层的K端输入向量和V端输入向量;以及,第四向量 输入子单元,用于将所述第二多头注意力层的输入向量与输出向量融合的结果通过Q3输入 端输入所述第三多头注意力层,作为所述第三多头注意力层的Q端输入向量;所述第三融合 单元,还包括:向量融合子单元,用于通过连接于所述第三多头注意力层的第二残差连接 层,使得所述第三多头注意力层的Q端输入向量与输出向量融合。 根据本发明实施例的一个方面,一种计算机设备,包括处理器及存储器,所述存储 器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的疾 病分类编码识别方法。 根据本发明实施例的一个方面,一种存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时实现如上所述的疾病分类编码识别方法。 在上述技术方案中,利用机器翻译模型,对作为源语言的诊断数据进行翻译,得到 目标语言,以作为该诊断数据匹配的疾病分类编码。 具体而言,获取诊断数据,以将该诊断数据作为源语言输入机器翻译模型,通过机 器翻译模型中的编码网络进行源语言的特征提取,得到源语言的特征,进而将源语言的特 征输入机器翻译模型中的解码网络进行解码,得到目标语言,作为诊断数据匹配的疾病分 类编码,由此,实现了源语言到目标语言的翻译,既不涉及字典检索技术,也不涉及分类学 习,故而无需考虑数据稀疏问题,从而能够保证疾病分类编码识别的准确率,以此有效地解 决了现有技术中存在的疾病分类编码识别的准确率不高的问题。 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不 能限制本发明。 附图说明 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施 例,并于说明书一起用于解释本发明的原理。 图1是根据本发明所涉及的实施环境的示意图。 图2是根据一示例性实施例示出的一种计算机设备的硬件结构图。 图3是根据一示例性实施例示出的一种疾病分类编码识别方法的流程图。 图4是图3对应实施例所涉及的机器翻译模型的结构示意图。 图5是根据一示例性实施例示出的编码网络的结构示意图。 图6是图3对应实施例中步骤350在一个实施例的流程图。 图7是图5对应实施例所涉及的第一多头注意力层的结构示意图。 图8是根据一示例性实施例示出的解码网络的结构示意图。 图9是图3对应实施例中步骤370在一个实施例的流程图。 图10是图8对应实施例所涉及的第二多头注意力层和第三多头注意力层的结构示 意图。 图11是根据一示例性实施例示出的一种疾病分类编码识别装置的框图。 图12是根据一示例性实施例示出的一种计算机设备的框图。 图13是根据一示例性实施例示出的一种存储介质的框图。 通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图 7 CN 111581987 A 说 明 书 4/11 页 和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为 本领域技术人员说明本发明的概念。