技术摘要:
本发明针对重叠染色体图像中目标分割区域大小不一且区分不明显等问题,提出一种多尺度的U型卷积神经网络MACS Net。在UNet的最底层,引入多层空洞卷积和同步长池化技术,实现不同大小目标分割区域的检测及特征的提取;UNet编解码器间引入卷积块连接,缓解其语义信息差异 全部
背景技术:
人类的健康细胞核中存在23对染色体,包括22对常染色体和1对性染色体。作为基 因的载体,染色体异常在自发性流产、死胎、早夭中占50%以上,也是很多先天性疾病的重要 原因,新生儿发病率约1%。染色体异常包括数量变异和形态结构畸变,可发生于每条染色体 上。因此,如何甄别染色体数量和形态结构的异常,已成为基因遗传性疾病诊断,尤其是早 期诊断的关键途径。 染色体在有丝分裂的中期阶段会表现出较为清晰稳定的形态,因此,染色体核型 分析常以分裂中期的染色体作为研究对象,根据染色体的长度、着丝点位置、长短臂比例、 随体的有无等特征,并借助各种显带技术进行分析、比较、排序和编号,对染色体的形态结 构和数目的变异情况进行诊断,已成为诊断遗传疾病的重要辅助手段。常见的显带技术包 括染色体显带技术和荧光原位杂交技术(Fluorescence In Situ Hybridization,FISH)。 20世纪70年代末问世的FISH技术,通过将荧光物质的探针与染色体中的DNA相结合,在荧光 显微镜下能够更好地显示目标DNA。FISH技术可实现对染色部分的结构检测,因而更方便检 测出诸如染色体结构缺失、增添和变异等导致遗传疾病的因素。然而,作为一种柔性物质, 即使是相同编号的染色体,在不同时刻的细胞核中也会呈现出不同的弯曲形态,同时会因 为染色体的接触和重叠产生集群现象。目前,染色体核型分析首先对染色体进行分割,然后 再进行分类和编号,最后通过形态分析等手段鉴别是否出现异常。 染色体分割作为核型分析的第一步,直接决定后续染色体分类及异常检测的准确 性和可靠性。此外,统计数据显示,高达40%的染色体在中期分裂阶段会出现接触和重叠现 象,且以两条染色体接触重叠最为常见,但目前重叠染色体的分割严重依赖于人工。比如, Sharma等利用众包的方式将数据集分发至各大众包平台进行人工分割,然后再汇总完成后 续的分类及异常识别。人工分割方法严重依赖于操作者的经验,且耗时耗力。因此,如何自 动有效地分割染色体尤其是重叠染色体,已成为核型分析的关键环节。 传统的自动分割方法大多基于几何形态学实现。如,Balaji等人首先基于Otsu阈 值处理方法提取重叠染色体的边缘并计算其曲率,找到其中的交点(凹点)和切点,然后通 过Voronoi图和Delaunay三角剖分实现重叠染色体的半自动分割。Somasundaram等人首先 利用多目标测地轮廓方法分离出单个染色体,对于重叠染色体,通过曲率函数识别图像上 的切割点,利用获得的切割点在重叠区域上绘制假设线,最后分割出重叠染色体。Yilmaz等 人提出采用阈值化和分水岭分割的方法,分离出单个染色体和染色体簇,通过曲率函数计 算出染色体簇的切点,最后通过切点之间的最佳测地路径分割出重叠的染色体。该类基于 曲率确定染色体重叠部分交点进行分割的方法存在有效凹点的误判和漏判问题,通常准确 率有待提高。 4 CN 111612750 A 说 明 书 2/5 页 近年来随着深度学习的发展,出现了一批高性能的深层卷积神经网络,可实现图 像的像素级分割。其中,全卷积网络采用全卷积层作为网络的输出层,并引入转置卷积,首 次实现图像的像素级语义分割;UNet采用U型结构,网络分成编码和解码两部分,并通过跳 连接融合,可利用图像浅层特征和深层特征进行分割,且仅使用较少的数据量即可达到理 想的分割效果;密集卷积网络则在所有层之间建立直接的连接,对于每一层,将前面所有层 的输出特征作为其输入,同时它自身的输出也将作为后续所有层的输入,确保了网络各层 之间的最大信息流,缓解了深度网络的梯度消失问题,加强了特征的传播,同时特征的复用 减少了网络的参数量,提升了信息和梯度在网络中的传输效率。染色体图像分割的目标区 域大小不一,且语义特征不够丰富,给重叠染色体图像的分析带来困难。UNet以其强大的特 征提取能力,有效改善了重叠染色体分割的准确度。若能提高对目标分割区域的检测能力, 以及重叠部分的细节分割将有望进一步提升分割的准确率。
技术实现要素:
本发明的目的在于针对上述现有技术存在的缺陷,提出了一种基于多尺度U型卷 积神经网络的重叠染色体分割方法,以提高对重叠染色体的分割精度。 本发明的技术思路是:本发明以UNet为基础,建立一种用于多尺度分割重叠染色 体的网络结构MACS Net(MAC SSPM UNet,MACS Net),通过设计MAC和SSPM模块更好地提取 染色体重叠部分的多尺度空间特征,集成Res Path模块更充分地利用网络中的上下文信息 和语义信息,有效改善了不同大小的染色体重叠区域的分割。 其实现方案包括如下: (1)对重叠染色体图像进行数据扩增; (1a)将重叠染色体图像扩增至128×128尺寸; (1b)生成对应大小的像素级类别标签图像; (2)构建同步长池化模块(Same Stride Pooling Module,SSPM); (2a)统一各池化层的步长,均设置为2; (2b)在各池化层设计不同大小的池化尺寸,池化后的各特征图经过1×1卷积降至1维; (2c)经过2倍上采样得到与原图尺寸相同的多尺度特征图,最终堆叠各特征图并经1× 1卷积操作输出; (3)构建多层空洞卷积模块(Multi Atrous Convolution,MAC); (3a) MAC具有五条支路,其中四条支路仅保留一层空洞卷积,且各空洞卷积模块的填 充空洞数逐条增加,第五个分支不加操作; (3b) 在其中三个分支上又应用一个1×1卷积进行线性校正,最后将五个分支的输出 进行相加; (4)构建Res Path模块; (4a)在简单跳连接的路径上加上一系列卷积块构成Res Path,从而缓解编码器与解码 器之间语义信息的差异; (4b) MACS Net采用五个Res Path模块替换原先的五条跳连接, 分别记为Res Path Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ; (4c)第一个连接中设计了最多的卷积块,而其他路径中卷积块的数量逐个减少; 5 CN 111612750 A 说 明 书 3/5 页 (5)构建MACS Net; (5a)本发明基于Unet,通过设置SSPM、MAC及Res Path模块等提出MACS Net网络,网络 主体由27个标准卷积层、5个池化层和5个上采样层组成; (5b)在网络最底层使用(4)中的MAC和(3)中的SSPM模块替换原本的卷积模块; (5c)本发明的网络采用(5)中的Res Path模块实现编解码器间的跳连接; (6)对MACS Net网络进行训练; 为了有效避免过学习和欠学习,并综合考虑计算成本,本发明开展5折交叉验证实验并 统计其测试集的各个区域的IoU得分用于最终性能的评估。网络统一采用Adam优化器最小 化目标函数,这是一种经实践表明性能较优,且可自适应调节学习率的优化方法。 本发明与现有技术相比,具有以下优点: 1. 本发明实现了对重叠染色体更高精度的分割; 2. 本发明提出的MACS Net中设计的MAC模块表现出更优的噪声鲁棒性; 3. 本发明提出的MACS Net中设计的SSPM模块表现出更为稳定的数据泛化能力; 4. 本发明提出的MACS Net中集成的Res Path模块缓解了编解码器间的语义信息差 异,提高了网络的整体分割效果。 附图说明 图1是MACS Net网络结构;图2是SSPM模块结构图;图3是MAC模块结构图;图4是Res Path Ⅴ模块结构图;图5是重叠染色体图像和类别标签图。 具体实施方案 以下结合附图和具体实施例,对本发明作进一步的详细介绍: 步骤1,对重叠染色体图像进行数据扩增; 1a)将重叠染色体图像尺寸扩增至128×128尺寸; 1b)生成对应大小的像素级类别标签图像,如图5所示。其中,(a)是染色体α和β重叠的 合成图像,(b)-(e)为其对应的类别标签图像,(b)和(c)中浅色区域分别对应于染色体α和β 的非重叠区域,(d)对应于重叠区域,(e)对应于背景区域; 步骤2,构建SSPM模块,如图2所示; 2a)统一各池化层的步长,均设置为2; 2b)考虑到网络最底层特征图的尺寸为4×4,在各池化层设计不同大小的池化尺寸为 2、3和4,池化后的各特征图经过1×1卷积降至1维; 2c)经过2倍上采样得到与原图尺寸相同的多尺度特征图,最终堆叠各特征图并经1×1 卷积操作输出; 步骤3,构建MSC模块,如图3所示; 3a) MAC具有五条支路,其中四条支路仅保留一层空洞卷积,且各条之路中空洞卷积模 块的填充空洞数逐条增加,第五个分支不加操作; 3b) 在其中空洞数为2、3和4的三个分支上又应用一个1×1卷积进行线性校正,最后将 五个分支的输出进行相加; 步骤4,构建Res Path模块; 6 CN 111612750 A 说 明 书 4/5 页 4a)在简单跳连接的路径上加上一系列卷积块构成Res Path,从而缓解编码器与解码 器之间语义信息的差异; 4b) MACS Net采用五个Res Path模块替换原先的五条跳连接, 分别记为Res Path Ⅰ、 Ⅱ、Ⅲ、Ⅳ和Ⅴ,其中Res Path Ⅴ模块如图4所示; 4c)考虑到Res Path Ⅰ中存在最多的信息差异,因此设计了最多的卷积块,而其他路径 中卷积块的数量逐个减少,各链接路径配置参数如表1所示; 步骤5,构建MACS Net,如图1所示; 5a)本发明基于Unet,通过设置SSPM、MAC及Res Path模块等提出MACS Net网络,网络主 体由27个标准卷积层、5个池化层和5个上采样层组成; 5b)在网络最底层使用步骤4中的MAC和步骤3中的SSPM模块替换原本的卷积模块,以提 取更丰富的多尺度空间特征; 5c)本发明的网络采用步骤5中的Res Path模块实现编解码器间的跳连接,在提取空间 特征的同时充分利用网络中的上下文信息和语义信息; 步骤6,对MACS Net网络进行训练。 为了有效避免过学习和欠学习,并综合考虑计算成本问题,本发明在数据集上开 展5折交叉验证实验,每组实验中均将所有重叠染色体图像分为5份,每份数据分别作为测 试集,其余4份作为训练集,分别训练5个模型并统计其测试集的各个区域的IoU得分用于最 终性能的评估。网络统一采用Adam优化器最小化目标函数,这是一种经实践表明性能较优, 且可自适应调节学习率的优化方法。 以下结合仿真试验,对本发明的技术效果作进一步说明: 本发明实验环境配置如下:计算机处理器为Intel(R) Xeon(R) W-2175 CPU @ 2.50GHz, 64GB运行内存, NVIDIA GeForce RTX 2080Ti GPU,Keras框架。 表1 Res Path参数表 综上,本发明提出了一种多尺度特征提取和缓解语义信息差异的MACS Net网络,实现 重叠染色体的高精度分割。该网络特别设计固定空洞卷积层数的MAC模块、固定池化步长的 SSPM模块,并采用Res Path模块实现跳连接,提高了特征提取能力及对多尺度目标的检测 能力,重叠染色体分割的性能显著提升。以染色体重叠部分的IoU得分作为评价指标, MACS Net在染色体重叠部分的分割IoU达到0.9860,与目前最常用的UNet(0.9593)相比,提高了 7 CN 111612750 A 说 明 书 5/5 页 2.78%。 8 CN 111612750 A 说 明 书 附 图 1/2 页 图1 图2 9 CN 111612750 A 说 明 书 附 图 2/2 页 图3 图4 图5 10
本发明针对重叠染色体图像中目标分割区域大小不一且区分不明显等问题,提出一种多尺度的U型卷积神经网络MACS Net。在UNet的最底层,引入多层空洞卷积和同步长池化技术,实现不同大小目标分割区域的检测及特征的提取;UNet编解码器间引入卷积块连接,缓解其语义信息差异 全部
背景技术:
人类的健康细胞核中存在23对染色体,包括22对常染色体和1对性染色体。作为基 因的载体,染色体异常在自发性流产、死胎、早夭中占50%以上,也是很多先天性疾病的重要 原因,新生儿发病率约1%。染色体异常包括数量变异和形态结构畸变,可发生于每条染色体 上。因此,如何甄别染色体数量和形态结构的异常,已成为基因遗传性疾病诊断,尤其是早 期诊断的关键途径。 染色体在有丝分裂的中期阶段会表现出较为清晰稳定的形态,因此,染色体核型 分析常以分裂中期的染色体作为研究对象,根据染色体的长度、着丝点位置、长短臂比例、 随体的有无等特征,并借助各种显带技术进行分析、比较、排序和编号,对染色体的形态结 构和数目的变异情况进行诊断,已成为诊断遗传疾病的重要辅助手段。常见的显带技术包 括染色体显带技术和荧光原位杂交技术(Fluorescence In Situ Hybridization,FISH)。 20世纪70年代末问世的FISH技术,通过将荧光物质的探针与染色体中的DNA相结合,在荧光 显微镜下能够更好地显示目标DNA。FISH技术可实现对染色部分的结构检测,因而更方便检 测出诸如染色体结构缺失、增添和变异等导致遗传疾病的因素。然而,作为一种柔性物质, 即使是相同编号的染色体,在不同时刻的细胞核中也会呈现出不同的弯曲形态,同时会因 为染色体的接触和重叠产生集群现象。目前,染色体核型分析首先对染色体进行分割,然后 再进行分类和编号,最后通过形态分析等手段鉴别是否出现异常。 染色体分割作为核型分析的第一步,直接决定后续染色体分类及异常检测的准确 性和可靠性。此外,统计数据显示,高达40%的染色体在中期分裂阶段会出现接触和重叠现 象,且以两条染色体接触重叠最为常见,但目前重叠染色体的分割严重依赖于人工。比如, Sharma等利用众包的方式将数据集分发至各大众包平台进行人工分割,然后再汇总完成后 续的分类及异常识别。人工分割方法严重依赖于操作者的经验,且耗时耗力。因此,如何自 动有效地分割染色体尤其是重叠染色体,已成为核型分析的关键环节。 传统的自动分割方法大多基于几何形态学实现。如,Balaji等人首先基于Otsu阈 值处理方法提取重叠染色体的边缘并计算其曲率,找到其中的交点(凹点)和切点,然后通 过Voronoi图和Delaunay三角剖分实现重叠染色体的半自动分割。Somasundaram等人首先 利用多目标测地轮廓方法分离出单个染色体,对于重叠染色体,通过曲率函数识别图像上 的切割点,利用获得的切割点在重叠区域上绘制假设线,最后分割出重叠染色体。Yilmaz等 人提出采用阈值化和分水岭分割的方法,分离出单个染色体和染色体簇,通过曲率函数计 算出染色体簇的切点,最后通过切点之间的最佳测地路径分割出重叠的染色体。该类基于 曲率确定染色体重叠部分交点进行分割的方法存在有效凹点的误判和漏判问题,通常准确 率有待提高。 4 CN 111612750 A 说 明 书 2/5 页 近年来随着深度学习的发展,出现了一批高性能的深层卷积神经网络,可实现图 像的像素级分割。其中,全卷积网络采用全卷积层作为网络的输出层,并引入转置卷积,首 次实现图像的像素级语义分割;UNet采用U型结构,网络分成编码和解码两部分,并通过跳 连接融合,可利用图像浅层特征和深层特征进行分割,且仅使用较少的数据量即可达到理 想的分割效果;密集卷积网络则在所有层之间建立直接的连接,对于每一层,将前面所有层 的输出特征作为其输入,同时它自身的输出也将作为后续所有层的输入,确保了网络各层 之间的最大信息流,缓解了深度网络的梯度消失问题,加强了特征的传播,同时特征的复用 减少了网络的参数量,提升了信息和梯度在网络中的传输效率。染色体图像分割的目标区 域大小不一,且语义特征不够丰富,给重叠染色体图像的分析带来困难。UNet以其强大的特 征提取能力,有效改善了重叠染色体分割的准确度。若能提高对目标分割区域的检测能力, 以及重叠部分的细节分割将有望进一步提升分割的准确率。
技术实现要素:
本发明的目的在于针对上述现有技术存在的缺陷,提出了一种基于多尺度U型卷 积神经网络的重叠染色体分割方法,以提高对重叠染色体的分割精度。 本发明的技术思路是:本发明以UNet为基础,建立一种用于多尺度分割重叠染色 体的网络结构MACS Net(MAC SSPM UNet,MACS Net),通过设计MAC和SSPM模块更好地提取 染色体重叠部分的多尺度空间特征,集成Res Path模块更充分地利用网络中的上下文信息 和语义信息,有效改善了不同大小的染色体重叠区域的分割。 其实现方案包括如下: (1)对重叠染色体图像进行数据扩增; (1a)将重叠染色体图像扩增至128×128尺寸; (1b)生成对应大小的像素级类别标签图像; (2)构建同步长池化模块(Same Stride Pooling Module,SSPM); (2a)统一各池化层的步长,均设置为2; (2b)在各池化层设计不同大小的池化尺寸,池化后的各特征图经过1×1卷积降至1维; (2c)经过2倍上采样得到与原图尺寸相同的多尺度特征图,最终堆叠各特征图并经1× 1卷积操作输出; (3)构建多层空洞卷积模块(Multi Atrous Convolution,MAC); (3a) MAC具有五条支路,其中四条支路仅保留一层空洞卷积,且各空洞卷积模块的填 充空洞数逐条增加,第五个分支不加操作; (3b) 在其中三个分支上又应用一个1×1卷积进行线性校正,最后将五个分支的输出 进行相加; (4)构建Res Path模块; (4a)在简单跳连接的路径上加上一系列卷积块构成Res Path,从而缓解编码器与解码 器之间语义信息的差异; (4b) MACS Net采用五个Res Path模块替换原先的五条跳连接, 分别记为Res Path Ⅰ、Ⅱ、Ⅲ、Ⅳ和Ⅴ; (4c)第一个连接中设计了最多的卷积块,而其他路径中卷积块的数量逐个减少; 5 CN 111612750 A 说 明 书 3/5 页 (5)构建MACS Net; (5a)本发明基于Unet,通过设置SSPM、MAC及Res Path模块等提出MACS Net网络,网络 主体由27个标准卷积层、5个池化层和5个上采样层组成; (5b)在网络最底层使用(4)中的MAC和(3)中的SSPM模块替换原本的卷积模块; (5c)本发明的网络采用(5)中的Res Path模块实现编解码器间的跳连接; (6)对MACS Net网络进行训练; 为了有效避免过学习和欠学习,并综合考虑计算成本,本发明开展5折交叉验证实验并 统计其测试集的各个区域的IoU得分用于最终性能的评估。网络统一采用Adam优化器最小 化目标函数,这是一种经实践表明性能较优,且可自适应调节学习率的优化方法。 本发明与现有技术相比,具有以下优点: 1. 本发明实现了对重叠染色体更高精度的分割; 2. 本发明提出的MACS Net中设计的MAC模块表现出更优的噪声鲁棒性; 3. 本发明提出的MACS Net中设计的SSPM模块表现出更为稳定的数据泛化能力; 4. 本发明提出的MACS Net中集成的Res Path模块缓解了编解码器间的语义信息差 异,提高了网络的整体分割效果。 附图说明 图1是MACS Net网络结构;图2是SSPM模块结构图;图3是MAC模块结构图;图4是Res Path Ⅴ模块结构图;图5是重叠染色体图像和类别标签图。 具体实施方案 以下结合附图和具体实施例,对本发明作进一步的详细介绍: 步骤1,对重叠染色体图像进行数据扩增; 1a)将重叠染色体图像尺寸扩增至128×128尺寸; 1b)生成对应大小的像素级类别标签图像,如图5所示。其中,(a)是染色体α和β重叠的 合成图像,(b)-(e)为其对应的类别标签图像,(b)和(c)中浅色区域分别对应于染色体α和β 的非重叠区域,(d)对应于重叠区域,(e)对应于背景区域; 步骤2,构建SSPM模块,如图2所示; 2a)统一各池化层的步长,均设置为2; 2b)考虑到网络最底层特征图的尺寸为4×4,在各池化层设计不同大小的池化尺寸为 2、3和4,池化后的各特征图经过1×1卷积降至1维; 2c)经过2倍上采样得到与原图尺寸相同的多尺度特征图,最终堆叠各特征图并经1×1 卷积操作输出; 步骤3,构建MSC模块,如图3所示; 3a) MAC具有五条支路,其中四条支路仅保留一层空洞卷积,且各条之路中空洞卷积模 块的填充空洞数逐条增加,第五个分支不加操作; 3b) 在其中空洞数为2、3和4的三个分支上又应用一个1×1卷积进行线性校正,最后将 五个分支的输出进行相加; 步骤4,构建Res Path模块; 6 CN 111612750 A 说 明 书 4/5 页 4a)在简单跳连接的路径上加上一系列卷积块构成Res Path,从而缓解编码器与解码 器之间语义信息的差异; 4b) MACS Net采用五个Res Path模块替换原先的五条跳连接, 分别记为Res Path Ⅰ、 Ⅱ、Ⅲ、Ⅳ和Ⅴ,其中Res Path Ⅴ模块如图4所示; 4c)考虑到Res Path Ⅰ中存在最多的信息差异,因此设计了最多的卷积块,而其他路径 中卷积块的数量逐个减少,各链接路径配置参数如表1所示; 步骤5,构建MACS Net,如图1所示; 5a)本发明基于Unet,通过设置SSPM、MAC及Res Path模块等提出MACS Net网络,网络主 体由27个标准卷积层、5个池化层和5个上采样层组成; 5b)在网络最底层使用步骤4中的MAC和步骤3中的SSPM模块替换原本的卷积模块,以提 取更丰富的多尺度空间特征; 5c)本发明的网络采用步骤5中的Res Path模块实现编解码器间的跳连接,在提取空间 特征的同时充分利用网络中的上下文信息和语义信息; 步骤6,对MACS Net网络进行训练。 为了有效避免过学习和欠学习,并综合考虑计算成本问题,本发明在数据集上开 展5折交叉验证实验,每组实验中均将所有重叠染色体图像分为5份,每份数据分别作为测 试集,其余4份作为训练集,分别训练5个模型并统计其测试集的各个区域的IoU得分用于最 终性能的评估。网络统一采用Adam优化器最小化目标函数,这是一种经实践表明性能较优, 且可自适应调节学习率的优化方法。 以下结合仿真试验,对本发明的技术效果作进一步说明: 本发明实验环境配置如下:计算机处理器为Intel(R) Xeon(R) W-2175 CPU @ 2.50GHz, 64GB运行内存, NVIDIA GeForce RTX 2080Ti GPU,Keras框架。 表1 Res Path参数表 综上,本发明提出了一种多尺度特征提取和缓解语义信息差异的MACS Net网络,实现 重叠染色体的高精度分割。该网络特别设计固定空洞卷积层数的MAC模块、固定池化步长的 SSPM模块,并采用Res Path模块实现跳连接,提高了特征提取能力及对多尺度目标的检测 能力,重叠染色体分割的性能显著提升。以染色体重叠部分的IoU得分作为评价指标, MACS Net在染色体重叠部分的分割IoU达到0.9860,与目前最常用的UNet(0.9593)相比,提高了 7 CN 111612750 A 说 明 书 5/5 页 2.78%。 8 CN 111612750 A 说 明 书 附 图 1/2 页 图1 图2 9 CN 111612750 A 说 明 书 附 图 2/2 页 图3 图4 图5 10