Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法

3.3端到端的文本检测与识别方法

基于深度学习的可端到端训练的自然场景检测与识别算法(text spotting)由于其简洁高效且统一的结构逐渐取代了过去将检测与识别分阶段训练然后拼接在一起的方案成为自然场景文本检测与识别的主流研究方向之一。端到端自然场景文本检测和识别网络一般都共享特征提取分支根据提取的特征进行文本检测然后将检测得到的文本特征送入识别模块进行文本识别。

目前的主流算法也可以分成单阶段和两阶段两大类两阶段的方法都是基于目标检测和实例分割中常用的算法Faster R-CNN Mask R-CNN

Li 等人(2017a)提出了第1个基于深度学习的端到端自然场景文本检测和识别算法该方法基于Faster R-CNN 进行检测将通过RoI-Pooling 提取的共享特征送入基于注意力机制(Attention)的识别器进行文本识别但该方法只能检测识别水平方向的文本。

Lyu 等人(2018b) 基于Mask R-CNN 提出了MaskTextSpotter,该方法在RoI-Align 之后额外增加了一个单字实例分割的分支对文本的识别也是依赖于该分支的单字符分类。它能够检测并识别任意形状的文本但训练的时候需要依赖字符级别的标注。作者后续在这个工作的基础上提出了MaskTextSpotter v2(Liao ,2021),它加入了基于Attention机制的序列识别分支以提高识别器性能其结构如图13 所示。

Qin 等人(2019) 也是在Mask R-CNN 上进行改进在预测出分割结果和文本最大外接检测框之后通过RoI Masking 的操作得到只有文本区域的特征图送入文本识别网络。

后来Liao 等人(2020a)考虑到RPN 得到的文本候选区域对于任意形状的文本不鲁棒于是提出了MaskTextSpotter v3,它首先设计了一个Anchor-free 的分割区域提取网络( segmentation proposal network,SPN)替代RPN 预测任意形状文本的显著图然后根据每个文本的掩码mask 进行Hard RoI Masking操作得到该文本的特征并送入识别网络检测和识别分支的设计思路都沿用作者之前的MaskTextSpotter v2

两阶段的端到端文本检测识别算法的性能通常受到RoI-Pooling 等特征对齐操作的影响所以很多学者也提出了单阶段的方法。Liao 等人(2017)提出的TextBoxes(Liao 等人,2017) TextBoxes + +(Liao 等人,2018a)都是基于单阶段目标检测器SSD进行改进在得到文本检测框之后送入CRNN(Shi等人,2017b)进行文本识别。其中TextBoxes 只能识别水平文本TextBoxes ++ 由于加入了角度预测所以能识别任意方向的四边形文本。He 等人(2018)使用EAST 算法先检测到任意方向的文本然后通过Text Align 层在检测框内进行采样得到文本区域特征送入识别分支进行识别。Liu 等人(2018c)提出的FOTS(fast oriented text spotting)也是和He 等人的思想类似同样使用EAST 作为检测分支不同之处在于FOTS 是通过RoI rotate 转换任意方向文本的特征送入识别器进行文本识别。

Xing等人(2019)提出的CharNet 则是和Mask TextSpotter一样使用单字符实例分割作为识别单元检测单元则是基于单字检测和文本行检测的结合。此外,CharNet 引入了和CRAFT 类似的迭代字符检测方法以得到单字检测结果提高端到端的性能。

基于文本组件的方法还有Feng 等人(2019a)提出的Text-Dragon,它不需要与CharNet 一样的单字符级别标注其检测分支先检测文本的任意四边形组件然后通过RoI slide 操作与CTC 算法结合进行文本识别。Qiao 等人(2020a)提出的TextPerceptron 基于分割的方法对任意形状的文本进行检测然后通过一个形状变换模块(shape transform module)将检测到的文本区域矫正成规则形态并送入识别分支。Wang 等人(2020a)的工作则是通过检测任意形状文本的边界点并通过TPS 变换对文本进行矫正然后送入识别分支输出最后的结果。

Liu 等人(2020)基于不需要锚点框(anchor-free)的单阶段目标检测器FCOS(fully convolutional one-stage object detector) (Tian,2019)提出了ABCNet(adaptive Bezier-curve network),用三次贝塞尔曲线对不规则文本进行建模通过学习贝塞尔曲线控制点检测文本实例并提出了Bezier Align 更高效地连接检测与识别的特征极大提高了端到端文本检测与识别的效率和性能,ABCNet的结构如图14 所示。

Baek 等人(2020)以他们之前自然场景文本检测的工作CRAFT 为基础提出CRAFTS,在检测到不规则文本后对区域特征做TPS变换得到矫正后的文本特征结合单字检测的结果然后将其送入识别器进行文本识别。

3.3.1常用的端到端文本检测与识别模型

FOTS
        FOTS由中国科学院深圳先进技术研究所发表的论文《FOTS: Fast Oriented Text Spotting with a Unified Network》提出一个统一的端到端可训练的快速定向文本定位(FOTS)网络,用于同时检测和识别,在两个互补的任务之间共享计算和视觉信息。
       特别地,引入了旋转旋转来共享检测和识别之间的卷积特征。得益于卷积共享策略,FOTS与基线文本检测网络相比,计算消耗很小,并且联合训练方法学习了更多的通用特征,使FOTS方法比这两阶段方法表现得更好。实验ICDAR 2015,ICDAR 2017 MLT和ICDAR 2013数据集表明,该方法优于最先进的方法,在ICDAR 2015上取得89.84%的F1,帧率达到22.6fps。

在本文中,提出同时考虑文本检测和识别。它产生了快速端到端训练的文本定位系统(FOTS)。与之前的两阶段文本定位相比,FOTS的方法通过卷积神经网络学习更一般的特征,这些特征在文本检测和文本识别之间共享,而这两个任务的监督是互补的。由于特征提取通常需要大部分时间,因此它将计算范围缩小为一个单一的检测网络,如图1所示。连接检测和识别的关键是ROIRotate,它根据定向的检测边界框从特征图中得到合适的特征

FOTS算法原理:

        FOTS是一个端到端可训练的框架,它可以同时检测和识别自然场景图像中的所有单词。它由共享卷积、文本检测分支、旋转操作和文本识别分支四个部分组成。

       其体系结构如图2所示。首先利用共享卷积的方法提取特征图。在特征图之上建立了基于全卷积网络的面向文本检测分支来预测检测边界框。旋转操作符从特征图中提取与检测结果对应的文本建议特征。然后将文本建议特征输入循环神经网络(RNN)编码器和基于神经网络的时序类分类(CTC)解码器进行文本识别。由于网络中的所有模块都是可微的,所以整个系统可以进行端到端进行训练。

backbone

共享卷积层的主干网络是ResNet-50 。受FPN 的启发,FOTS连接了低级特征映射和高级语义特征映射。由共享卷积产生的特征图的分辨率为输入图像的1/4。文本检测分支使用共享卷积产生的特征输出文本的密集每像素预测。利用检测分支产生的面向文本区域的建议,所提出的旋转旋转将相应的共享特征转换为固定高度的表示,同时保持原始区域的高宽比。最后,文本识别分支识别区域提案中的单词。采用CNN和LSTM对文本序列信息进行编码,然后采用CTC解码器。

文本检测分支(the text detection branch)

EAST与DDRN的启发,FOTS采用完全卷积网络作为文本检测器。 由于自然场景图像中有许多小文本框,FOTS将共享卷积中原始输入图像的1/32到1/4大小的特征映射放大。 在提取共享特征之后,应用一个转换来输出密集的每像素的单词预测。 第一个通道计算每个像素为正样本的概率。 与EAST类似,原始文本区域的缩小版本中的像素被认为是正的。 对于每个正样本,以下4个通道预测其到包含此像素的边界框的顶部,底部,左侧,右侧的距离,最后一个通道预测相关边界框的方向。 通过对这些正样本应用阈值和NMS产生最终检测结果。

RoIRotate操作

RoIRotate对定向特征区域进行变换,得到轴对齐的特征图,如图4所示。在这项工作中,我们固定了输出高度,并保持高宽比不变,以处理文本长度的变化。与RoIpooling和RoIAlign相比,RoI旋转提供了一个更通用的提取感兴趣区域特征的操作。FOTS还与RRPN中提出的RRoIpooling进行了比较。RRoIpooling通过最大池化将旋转区域转换为固定大小的区域,同时我们使用双线性插值来计算输出的值。该操作避免了RoI与提取的特征之间的不一致,并使输出特征的长度成为变量,更适合于文本识别。

RoIRotate以共享卷积生成的特征图作为输入,生成所有文本提案的特征图,高度固定和高宽比不变。与目标分类不同,文本识别对检测噪声非常敏感。预测文本区域的一个小误差可能会切断几个字符,这对网络训练有害,因此FOTS在训练过程中使用地面真实文本区域而不是预测的文本区域。在测试时,应用阈值化和NMS来过滤预测的文本区域。旋转后,转换后的特征映射被输入到文本识别分支。


文本识别分支(the text recognition branch)

文本识别分支的目标是利用共享卷积提取和RoIRotate的区域特征来预测文本标签。考虑到文本区域中标签序列的长度,LSTM的输入特征只减少了两次(减少为1/4)沿着宽度轴通过共享的卷积从原始图像。否则,将消除紧凑文本区域中可区分的特征,特别是那些窄形字符的特征。FOTS的文本识别分支包括VGGlike 序列卷积、仅沿高度轴缩减的池、一个双向LSTM 、一个全连接和最终的CTC解码器。


实验结果:

      FOTS选择三个具有挑战性的公共基准数据集:ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013对方法进行评估

      ICDAR 2015是ICDAR 2015鲁棒阅读竞赛的挑战4,该竞赛通常用于定向场景文本检测和定位。该数据集包括1000张训练图像和500张测试图像。这些图像由谷歌眼镜捕获,不考虑位置,因此场景中的文本可以是任意方向。对于文本识别任务,它提供了三个特定的词汇列表,供测试阶段参考,分别命名为“STRONG”、“WEAK”和“GENERIC”。“STRONG”词典为每张图片提供100个单词,包括图片中出现的所有单词。“WEAK”词汇包括整个测试集中出现的所有单词。“GENERIC”词汇是一个90k单词词汇。在训练中,首先使用ICDAR 2017 MLT训练和验证数据集中的9000张图像对模型进行训练,然后使用1000张ICDAR 2015训练图像和229张ICDAR 2013训练图像对模型进行微调。

     ICDAR 2017 MLT是一个大型多语言文本数据集,包括7200个训练图像、1800个验证图像和9000个测试图像。该数据集由来自9种语言的完整场景图像组成,其中的文本区域可以是任意方向的,因此更具多样性和挑战性。这个数据集没有文本检测任务,所以只报告文本检测结果。

ICDAR 2013由229张训练图像和233张测试图像组成,但与上述数据集不同,它只包含水平文本。本识别任务提供了“STRONG”、“WEAK”和“GENERIC”词汇。。虽然FOTS方法是针对定向文本设计的,但该数据集的结果表明,所提出的方法也适用于水平文本。由于训练图像太少,首先使用ICDAR 2017 MLT训练和验证数据集中的9000张图像来训练预训练模型,然后使用229张ICDAR 2013训练图像进行微调。

       与以往将文本检测和识别分为两个不相关的任务的工作不同,FOTS将这两个任务联合训练,并且文本检测和识别可以相互受益。为了验证这一点,我们构建了一个两阶段系统,其中文本检测和识别模型分别进行训练。在FOTS网络中,检测网络是通过去除识别分支来构建的,同样,检测分支也是从原始网络中去除的,从而得到识别网络。对于识别网络,从源图像裁剪的文本行区域被用作训练数据,类似于以前的文本识别方法【《An end-to-end trainable neuralnetwork for image-based sequence recognition and its application to scene text recognitionReading scene text in deep convolutional sequences.Star-net: A spatial attention residue network for scene text recognition》】

       如表2、3、4所示, FOTS显著优于文本定位任务中的两阶段方法“Ourdetection”和文本定位任务中的“Our Two-Stage”。结果表明,FOTS的联合训练策略使模型参数达到了更好的收敛状态。

        FOTS在检测方面表现更好,因为文本识别监控有助于网络学习详细的字符级特征。为了进行详细分析,我们总结了文本检测的四个常见问题,未命中:丢失一些文本区域,错误:将一些非文本区域错误地视为文本区域,拆分:将整个文本区域错误地拆分为几个单独的部分,合并:将几个独立的文本区域错误地合并在一起。如图5所示,与“Ourdetection”方法相比,FOTS大大减少了所有这四种类型的错误。具体来说,“Ourdetection”方法侧重于整个文本区域特征,而不是字符级特征,因此当文本区域内部存在较大差异或文本区域与其背景具有相似模式等情况下,该方法效果不佳。因为文本识别监管迫使模型考虑字符的细微细节,FOTS学习具有不同模式的单词中不同字符之间的语义信息。它还增强了具有相似模式的角色和背景之间的差异。

       如图5所示,对于未命中的情况,“我们的检测”方法未命中文本区域,因为它们的颜色与其背景相似。对于错误的情况,“Ourdetection”方法错误地将背景区域识别为文本,因为它具有“类似文本”的模式(例如,具有高对比度的重复结构条纹),而FOTS在考虑拟议区域中的字符细节的认识损失训练后避免了这种错误。对于拆分情况,“Ourdetection”方法将文本区域拆分为两个,因为该文本区域的左侧和右侧具有不同的颜色,而FOTS将该区域作为一个整体进行预测,因为该文本区域中的字符模式是连续且相似的。对于合并案例,“Ourdetection”方法错误地将两个相邻的文本边界框合并在一起,因为它们太近且具有相似的模式,而FOTS利用文本识别提供的字符级信息并捕获两个单词之间的空间

ICDAR 2015数据集的实验结果如下图所示:

ICDAR 2017数据集的实验结果如下图所示:

ICDAR 2013数据集的实验结果如下图所示:

FOT与最先进的方法进行比较。如表2、3、4所示,FOTS的方法在所有数据集中都比其他方法有很大的优势。由于ICDAR 2017 MLT没有文本检测任务,实验只报告文本检测结果。ICDAR 2013中的所有文本区域都由水平边界框标记,而其中许多区域略微倾斜。由于FOTS的模型是使用ICDAR 2017 MLT数据进行预训练的,因此它还可以预测文本区域的方向。FOTS的最终文本定位结果保持预测方向以获得更好的性能,并且由于评估协议的限制,FOTS的检测结果是网络预测的最小水平外接矩形。值得一提的是,在2015年ICDAR文本识别任务中,FOTS的方法在Fmeasure方面比之前的最佳方法【《Detecting oriented text in natural images by linking segments. 》、《An end-to-end trainable neuralnetwork for image-based sequence recognition and its application to scene text recognition】要好15%以上。

对于单尺度测试,对于ICDAR 2015、ICDAR 2017 MLT和ICDAR 2013,FOTS分别将输入图像的长边大小调整为2240、1280、920,以获得最佳结果,FOTS采用3-5尺度进行多尺度测试。

结论:

        FOTS,一个面向场景文本识别的端到端可训练框架。提出了一种新的旋转操作,将检测和识别统一到端到端的流水线中。FOTS具有模型小,速度快,精度高,支持多角度特点在标准基准测试上的实验表明,FOTS方法在效率和性能方面明显优于以前的方法。


ABCNet

ABCNet(Adaptive Bezier Curve Network)是一个端到端的可训练框架,用于识别任意形状的场景文本。直观的pipeline如图所示。采用了单点无锚卷积神经网络作为检测框架。移除锚定箱可以简化我们任务的检测。该算法在检测头输出特征图上进行密集预测,检测头由4个步长为1、填充为1、3×3核的叠层卷积层构成。接下来,分两部分介绍拟议的ABCNet的关键组成部分:

1) 贝塞尔曲线检测

2) bezieralign和识别分支。

ABCNet算法原理:

Bezier Curve Detection

为了简化任意形状的场景文本检测,采用回归方法,我们认为贝塞尔曲线是曲线文本参数化的理想概念。Bezier曲线表示一个以伯恩斯坦多项式为基的参数曲线c (t)。其定义如式(1)所示。

        式中,n表示度数,bi表示第i个控制点,表示伯恩斯坦基多项式,如式(2)所示:

       其中是二项式系数。为了用贝塞尔曲线确定文本的任意形状,我们从现有的数据集中全面地观察任意形状的场景文本。在现实世界中,我们通过经验证明,三次贝塞尔曲线(即n为3)在实践中对不同类型的任意形状的场景文本是足够的。三次贝塞尔曲线如图所示。

Bezier Ground Truth Generation

       在本节中,将简要介绍如何基于原始注释生成贝塞尔曲线地面真值。任意形状的数据集,例如Total text和CTW1500,对文本区域使用多边形注释。给定曲线边界上的注记点,其中pi表示第i个注记点,主要目标是获得方程(1)中三次Bezier曲线c(t)的最佳参数。为此,可以简单地应用标准最小二乘法,如等式(4)所示:

这里m表示曲线边界的注释点数量。对于total-text和ctw1500,m分别为5和7。t是通过使用累积长度与多段线周长的比率来计算的。根据方程(1)和方程(4),我们将原始的多段线注释转换为参数化的贝塞尔曲线。注意,我们直接使用第一个和最后一个注释点分别作为第一个(b0)和最后一个(b4)控制点。可视化比较如图5所示,其结果表明,生成的结果在视觉上甚至比原始地面真实性更好。此外,基于结构化的Bezier曲线边界框,可以很容易地使用前文中描述的Bezier对齐将曲线文本扭曲成水平格式,而不会产生明显的变形。Bezier曲线生成结果的更多示例如图所示。ABCNet方法的简单性允许它在实践中推广到不同类型的文本。

Bezier Curve Synthetic Dataset

      对于端到端的场景文本识别方法,总是需要大量的自由合成数据,如表2所示。然而,现有的800k SynText数据集只为大多数直文本提供四边形边界框。为了丰富和丰富任意形状的场景文本,我们尝试用VGG合成方法合成了150k个合成数据集(94723个图像包含大部分直线文本,54327个图像包含大部分曲线文本)。特别地,从COCO文本中过滤出40k个无文本背景图像,然后用[32]和[17]准备每个背景图像的分割遮罩和场景深度,用于以下文本渲染。为了扩大合成文本的形状多样性,对VGG合成方法进行了改进,将场景文本与各种艺术字体和语料库合成,并对所有文本实例生成多边形标注。然后使用注释通过Bezier Ground Truth Generation中描述的生成方法生成Bezier Ground Truth 。综合数据的示例如图8所示。

Bezier Align

       为了实现端到端训练,以往的大多数方法都采用了各种采样(特征对齐)的方法来连接识别分支。通常,一个采样方法表示一个网络内的区域裁剪过程。换句话说,给定一个特征图和感兴趣区域(RoI),使用抽样方法来选择RoI的特征,并有效地输出一个固定大小的特征图。然而,以往基于非分割的方法的采样方法,如RoI Pooling , RoIRotate , Text-Align-Sampling  or RoI Transform ,都不能正确地对齐任意形状文本的特征(RoISlide大量预测片段)。利用一个紧凑的贝塞尔曲线边界盒的参数化性质,ABCNet提出了用于特征采样的BezierAlign。

        Bezieralign是从RoIAlign 扩展而来的。与RoIAlign不同,BezierAlign的采样网格的形状不是矩形的。相反,任意形状的网格中的每一列都与文本的贝塞尔曲线边界正交。采样点的宽度和高度分别具有等距间隔,它们相对于坐标进行双线性插值

       形式化地给出输入特征映射和Bezier曲线控制点,同时处理hout×wout大小的矩形输出特征映射的所有输出像素。以具有位置(giw,gih)的像素gi(来自输出的特征图)为例,通过公式(5)计算t:

       然后用t和方程(1)计算上Bezier曲线的边界点tp和下Bezier曲线的边界点bp。利用tp和bp,我们可以通过方程(6)对采样点op进行线性索引:

        利用op的位置,可以很容易地应用双线性插值来计算结果。

识别分支

        得益于共享的主干特性和BezierAlign,设计了一个轻量级的识别分支,如表1所示,以便更快地执行。它由6个卷积层、1个双向LSTM 层和1个全连接层组成。基于输出分类分数,使用一个经典的CTC Loss 来进行文本字符串(GT)对齐。请注意,在训练过程中,直接使用生成的Bezier曲线GT来提取RoI特征。因此,检测分支并不影响识别分支。在推理阶段,RoI区域被检测Bezier曲线所取代。实验部分的消融研究表明,所提出的BezierAlign可以显著提高识别性能。

实验结果:

        ABCNets在两个最近引入的任意形状的场景文本基准上评估了方法,即Total-Text和CTW1500,它们也包含大量的连续文本。ABCNets还在Total-Text进行了简化研究,以验证方法的有效性。

        数据集:Total-Text数据集是在2017年提出的最重要的任意形状场景文本基准之一。它收集了各种场景,包括类文本复杂场景和低对比度的背景。它包含1555张图像,其中1255张用于训练,300张用于测试。为了模拟真实的场景,这个数据集的大多数图像都包含大量的常规文本,同时保证每个图像至少有一个弯曲文本。文本实例使用多边形进行单词级注释。它的扩展版本改进了训练集的注释,按照文本识别序列为每个文本实例添加了一个固定的10点注释。数据集只包含英文文本。为了评估端到端的结果,我们使用与以前相同的度量方法,即使用F-measure来测量单词的准确性。

       简化研究:BezierAlign。为了评估提出的组件的有效性,实验对这个数据集进行简化研究。首先对采样点的数量如何影响端到端的结果进行敏感性分析,如表4所示。从结果中可以看出,采样点的数量对最终的性能和效率有很大的影响。实验发现在(7,32F-measure与FPS之间达到最佳平衡,在接下来的实验中作为最后的设置。进一步评估BezierAlign表3中显示的结果表明,BezierAlign可以显著改善端到端结果。定性的例子如图9所示

        简化研究:贝塞尔曲线检测。 另一个重要的组成部分是贝塞尔曲线检测,它可以实现任意形状的场景文本检测。因此,也进行了实验来评估的时间消耗贝塞尔曲线检测。表5中的结果表明与标准边界盒检测相比,贝塞尔曲线检测没有引入额外的计算。

        先进性对比:ABCNet的一些结果质量如图10所示。结果表明,该方法能准确地检测和识别任意形状的文本。此外,ABCNe的方法还可以很好地处理直文本,具有近似四边形的紧密边界框和正确的识别结果。图中也出现了一些错误,这些错误主要是由于错误地识别了其中一个字符。

CTW1500实验结果

       数据集:CTW1500是2017年提出的另一个重要的任意形状场景文本基准。与Total-Text相比,该数据集包含中英文文本。此外,注释是基于文本行级别的,它还包括一些类似文档的文本,即,无数可以堆叠在一起的小文本。CTW1500包含1k训练图像,500张测试图像。

       实验:由于该数据集中中文文本的占用非常小,训练时直接将所有中文文本视为“未见”类。实验结果如表6所示,表明在端到端场景文本定位方面,ABCNet可以显著地超越以前最先进的方法。此数据集的示例结果如图11所示。从图中,可以看到一些长文本行实例包含许多单词,这使得完全匹配单词准确性变得非常困难。也就是说一个字符识别错误将导致整个文本零分。

结论:

        提出了ABCNet,一种基于贝塞尔曲线的任意形状场景文本实时端到端定位方法。利用参数化的贝塞尔曲线重新构造任意形状的场景文本,ABCNet可以用贝塞尔曲线检测任意形状的场景文本,与标准边框盒检测相比引入的计算成本可以忽略不计。使用这种规则的Bezier曲线边框,可以通过一个新的BezierAlign层自然地连接一个轻量级的识别分支。

       另外,通过利用Bezier curve 合成数据集和公开数据集,在两个任意形状的场景文本基准测试集(Total-Text和CTW1500)证明了ABCNet可以实现最先进的性能,同时也比以前的方法快得多。


CRAFTS

       场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。一个典型的体系结构将检测和识别模块放置到单独的分支中,通常使用RoIpooling来让这些分支共享一个视觉特征。然而,当采用使用基于注意力的解码器和表示字符区域空间信息的检测器时,仍然有机会在模块之间建立更互补的连接。这是可能的,因为这两个模块共享一个共同的子任务,即查找字符区域的位置

       在此基础上,构建了一个紧密耦合的单管道模型。该体系结构是通过利用识别器中的检测输出并通过检测阶段传播识别损失而形成的。字符得分图的使用有助于识别器更好地关注字符中心点,并且将识别损失传播到检测器模块,增强了字符区域的定位。此外,一个加强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量的实验证明了在公开可用的水平基准集和弯曲基准数据集的最先进的性能。

CRAFTS算法原理:

        CRAFTS可以分成3个阶段:检测阶段、共享阶段和识别阶段,详细的网络结构如图所示。

检测阶段:获取一个输入图像,并定位面向方向的文本框。共享阶段,然后汇集backbone的高级特性和检测器输出。然后使用校正模块对合并后的特征进行校正,并连接在一起形成一个角色参与特征。在识别阶段,基于注意力的解码器使用字符参与的特征来预测文本标签。最后,一种简单的后处理技术可选地用于更好的可视化。

检测阶段:CRAFT检测器作为基础网络,因为它能够表示特征区域的语义信息。工艺网络的输出代表了特征区域的中心概率和它们之间的联系。CRAFTS认为这个以字符为中心的信息可以用来支持识别器中的注意模块,因为这两个模块都旨在定位字符的中心位置。在这项工作中,对原始工艺模型进行了三个修改;backbone替换、链路表示和方向估计

共享阶段:该阶段主要包含二大模块,文本纠正模块和字符区域注意力(text region attention, CRA)模块,使用 薄板样条(TPS)变换去纠正任意形状的文本区域,文本纠正模块使用 迭代-TPS,以获得更好的文本区域表示。典型的TPS模块输入一张单词图片,但在这里提供字符区域映射和链接映射,因为它们包含了文本区域的几何信息,使用二十个控制点来紧紧覆盖弯曲的文本区域,将这些控制点作为检测结果,转换为原始输入图像坐标。可以选择执行二维多项式拟合来平滑边界多边形,迭代-TPS和最终平滑多边形输出的例子如图4所示。

        CRA模块是紧密耦合检测和识别模块的关键部件,过简单地将修正后的字符得分映射与特征表示连接起来,该模型建立了以下优势。在检测器和识别器之间创建一个链接,允许识别损失在检测阶段传播,这提高了字符得分地图的质量。此外,将字符区域映射附加到特征上,有助于识别器更好地关注字符区域。

识别阶段:识别阶段有三个组成部分:特征提取、序列建模和预测。特征提取模块比单独的识别器更轻,因为它以高层语义特征作为输入。 该模块的详细体系结构如表1所示。提取特征后,采用双向LSTM进行序列建模,并对基于注意的解码器进行最终的文本预测。

       在每个时间步骤中,基于注意力的识别器通过屏蔽注意力输出到特征来解码文本信息。虽然注意模块在大多数情况下都能很好地工作,但当注意点不对齐或消失时,它无法预测字符。图5展示了使用CRA模块的效果,合适的注意点能够稳健的进行文本预测。

实验结果:

       实验采用如下几种数据集作为实验数据集:

       英语数据集IC13数据集由高分辨率图像组成,229个用于训练和233个用于测试。矩形框用于注释单词级文本实例。IC15由1000张训练图像和500张测试图像组成。四边形框用于注释单词级文本实例。Total-Text拥有1255张培训图片和300张测试图片。与IC13和IC15数据集不同,它包含曲线文本实例,并使用多边形点进行注释。

       多语言数据集IC19数据集包含10000个训练和10000个测试图像。该数据集包含7种不同语言的文本,并使用四边形点进行注释。

       在水平数据集(IC13, IC15)上取得的实验结果如下表:

水平数据集(IC13、IC15)为了针对IC13基准,采用在SynthText数据集上训练的模型,并对IC13和IC19数据集进行微调。在推断过程中,我们将输入的长边调整为1280。结果表明,与之前最先进的作品相比,其性能没有显著提高。

然后,在IC13数据集上训练的模型在IC15数据集上进行微调。在评估过程中,模型的输入大小设置为2560x1440。请注意,在没有通用词汇集的情况下执行通用评估。表2列出了IC13和IC15数据集的定量结果。

CRAFTS的方法在一般任务和弱上下文化端到端任务中都优于以前的方法,并在其他任务中显示出类似的结果。通用性能是有意义的,因为在实际场景中没有提供词汇集。请注意,CRAFTSIC15数据集上的检测分数略低,在强语境化结果中也观察到低性能。检测性能相对较低的主要原因是粒度差异,稍后将进一步讨论。


在曲边数据集(TotalText)上取得的实验结果如下表:

        曲线数据集(TotalText)从IC13数据集上训练的模型,实验进一步在TotalText数据集上训练模型。在推断过程中,CRAFTS将输入的长边调整为1920,整流模块的控制点用于检测器评估。定性结果如图7所示。字符区域图和链接图用热图表示,加权像素角度值在HSV颜色空间中可视化。如图所示,该网络成功地定位了多边形区域,并识别了曲线文本区域中的字符。左上角的两幅图显示了完全旋转和高度弯曲文本实例的成功识别。

        TotalText数据集的定量结果如表3所示。DetEval评估探测器的性能,修改的IC15评估方案测量端到端性能。CRAFTS的方法大大优于以前报道的方法。

       在多语言数据集数据集(IC19)上取得的实验结果如下表。多语言数据集(IC19)使用IC19-MLT数据集对多种语言进行评估。识别器预测层的输出通道扩展到4267,以处理阿拉伯语、拉丁语、中文、日语、韩语、孟加拉国语和印地语中的字符。但是,数据集中出现的字符并不是均匀分布的。在训练集中的4267个字符中,1017个字符在数据集中出现一次,这使得模型很难做出准确的标签预测。为了解决类别不平衡问题,CRAFTS首先在检测阶段冻结权重,并使用其他公开的多语言数据集(SynthMLT、ArT、LSVT、ReCTS和RCTW)在识别器中预训练权重。然后,CRAFTS让损失流经整个网络,并使用IC19数据集对模型进行调整。由于没有论文报告性能,结果与E2E-MLT进行比较。IC19数据集中的样本如图8所示。


结论:

        CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。实验结果验证了CRAFTS在各种数据集上的最新性能。


参考文献:

Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(刘崇宇,陈晓雪,罗灿杰,金连文,薛洋,刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报,26(06):1330-1367)[DOI:10. 11834 / jig. 210044] 

Liu X B, Liang D, Yan S, Chen D G, Qiao Y and Yan J J. 2018c. 

FOTS: fast oriented text spotting with a unified network //Proceedings of 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5676-5685 [DOI: 10. 1109 / CVPR. 2018. 00595] 

Liu Y L, Chen H, Shen C H, He T, Jin L W and Wang L W. 2020. ABCNet: real-time scene text spotting with adaptive bezier-curve network / / Proceedings of 2020 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 9809-9818[DOI: 10. 1109 / CVPR42600. 2020. 00983] 

Baek Y, Shin S, Baek J, Park S, Lee J, Nam D and Lee H. 2020. Character region attention for text spotting / / Proceeding of the 16th European Conference on Computer Vision. Glasgow, UK: Springer:504-521 [DOI: 10. 1007 / 978-3-030-58526-6_30] 


合合信息
合合信息

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

理论算法人工智能智能识别文本识别
2
暂无评论
暂无评论~