
技术摘要:
本公开涉及一种文本识别方法、装置、设备和存储介质。该方法包括将获取的预设对象图像输入渐进式扩展网络进行分割以获取包括不规则文本区域的目标分割图像;利用薄板样条插值算法对目标对象图像进行矫正,利用文本识别模型识别矫正后的水平对象文本图像。可以实现对预 全部
背景技术:
目前OCR(Optical Character Recognition,光学字符识别)技术应用广泛,OCR技 术在文本检测时,检测出的文本区域一般为矩形框、旋转矩形框或四点矩形框,如图1所示, 这种检测方式,针对不规则文本(例如弯曲文本),检测出的文本区域会包括大量背景区域, 对文本的识别会造成很大干扰。并且现有的文本识别方法,例如卷积递归神经网络CRNN (Convolutional Recurrent Neural Network)识别方法,仅对矩形文本图像识别效果较 好,对于包括大量背景的文本图像则无法识别。 另外,现有的对于不规则文本的识别方法包括注意力模型(Attention model)和 极坐标矫正方法,其中,注意力模型可以识别2D结构信息的文本(如公式),可以应用于不规 则文本的识别,但需要的训练数据量较大,且较难通过模拟数据来构造,同时,会引入文本 字符顺序混乱的问题。极坐标矫正方法是将弧形文本恢复成直线形文本再进行文本识别, 该方法对于光照,畸变以及复杂场景缺乏鲁棒性。 现在很多线上业务的云端操作中,会对图像中的某类对象的文本进行识别和鉴 定,比如对公文、票据和证照等图像中的印章的文本进行识别和鉴定,而印章中一般会包括 不规则文本(比如弯曲文本、T形文本等),由上述分析可知,现有的文本识别技术均不能有 效的识别印章中的不规则文本。
技术实现要素:
有鉴于上述存在的技术问题,本公开提出了一种文本识别方法、装置、设备和存储 介质。可以有效识别文本。 根据本公开的一方面,提供了一种文本识别方法,该方法包括: 获取待识别图像中包括不规则文本的预设对象图像; 将所述预设对象图像输入渐进式扩展网络进行分割处理,获取包括不规则文本区 域的目标分割图像; 从所述预设对象图像中,提取出与所述目标分割图像对应的目标对象图像; 利用所述目标分割图像和薄板样条插值算法,对所述目标对象图像进行矫正,得 到水平对象文本图像; 将所述水平对象文本图像输入文本识别模型进行文本识别处理,获取文本识别结 果。 根据本公开的另一方面,提供了一种文本识别装置,该装置包括: 预设对象图像获取模块,用于获取待识别图像中包括不规则文本的预设对象图 像; 4 CN 111612009 A 说 明 书 2/16 页 目标分割图像获取模块,用于将所述预设对象图像输入渐进式扩展网络进行分割 处理,获取包括不规则文本区域的目标分割图像; 目标对象图像提取模块,用于从所述预设对象图像中,提取出与所述目标分割图 像对应的目标对象图像; 水平对象文本图像获取模块,用于利用所述目标分割图像和薄板样条插值算法, 对所述目标对象图像进行矫正,得到水平对象文本图像; 文本识别结果获取模块,用于将所述水平对象文本图像输入文本识别模型进行文 本识别处理,获取文本识别结果。 根据本公开的另一方面,提供了一种文本识别设备,包括:处理器;用于存储处理 器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。 根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有 计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。 通过获取待识别图像中的预设对象图像,并利用渐进式扩展网络PSENet对预设对 象图像进行像素级分割,不仅可以有效检测出各种形状的文本区域,还可以保证文本区域 中不引入背景,避免对文本识别造成干扰。并且,选择对不规则文本区域进行矫正,得到水 平对象文本图像,将该水平对象文本图像用于文本识别模型对文本进行识别,一方面可以 避免直接对不规则文本识别导致的文本失序问题,另一方面可以避免对不规则文本的大量 标注工作,解决了训练数据难获取的问题,而且文本识别模型可以用水平文本图像进行训 练,训练数据易获取,训练得到的文本识别模型泛化能力也更强。 另外,具体通过TPS算法对目标对象图像进行矫正,得到的水平对象文本图像用于 文本的识别,可以适用更复杂的应用场景,鲁棒性更好。并且,由于该目标对象图像是通过 PSENet对预设对象图像进行分割得到的,使得TPS算法的矫正可以精准地针对不规则文本 区域,从而可以使得矫正后的水平对象文本可以更容易被准确识别。 根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得 清楚。 附图说明 包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的 示例性实施例、特征和方面,并且用于解释本公开的原理。 图1示出现有技术中检测文本区域的文本框的示意图。 图2示出根据本公开一实施例提供的一种应用系统的示意图。 图3示出根据本公开一实施例的文本识别方法的流程图。 图4a示出根据本公开一实施例的预设对象图像的示意图。 图4b示出根据本公开一实施例的文本区域分割图像的示意图。 图5a示出根据本公开一实施例的包括不规则文本区域的目标分割图像的示意图。 图5b示出根据本公开一实施例的目标对象图像的示意图。 图5c示出根据本公开一实施例的矫正对象图像的示意图。 图6a示出根据本公开一实施例的印章文本识别界面的示意图。 图6b示出根据本公开一实施例的印章文本识别结果的示意图。 5 CN 111612009 A 说 明 书 3/16 页 图7示出根据本公开一实施例的将所述预设对象图像输入渐进式扩展网络进行分 割处理,获取包括不规则文本区域的目标分割图像的方法流程图。 图8a示出根据本公开一实施例的文本区域分割图像的示意图。 图8b和图8c示出根据本公开一实施例的分割图像的示意图。 图9示出根据本公开一实施例的利用所述目标分割图像和薄板样条插值算法,对 所述目标对象图像进行矫正,得到水平对象文本图像的方法流程图。 图10示出根据本公开一实施例的根据所述轮廓点的点集和所述外接矩形,获取所 述目标对象图像中不规则对象文本区域的边界控制点集及对应的矫正点集的方法流程图。 图11示出根据本公开一实施例的确定所述上边界控制点集对应的第一矫正点集 以及所述下边界控制点集对应的第二矫正点集的方法流程图。 图12示出根据本公开一实施例的文本识别方法的流程图。 图13示出根据本公开一实施例的渐进式扩展网络的训练方法的流程图。 图14示出根据本公开一实施例的文本识别装置的框图。 图15是根据一示例性实施例示出的一种用于文本识别装置1500的框图。 图16是根据一示例性实施例示出的一种用于文本识别装置1600的框图。