Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

合合信息

一个基于序列的弱监督视觉信息抽取学习框架
一个基于序列的弱监督视觉信息抽取学习框架

视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。

常用的表格检测识别方法-表格内容识别方法
常用的表格检测识别方法-表格内容识别方法

表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。

【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法
【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法

CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。 实验结果验证了CRAFTS在各种数据集上的最新性能。

【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景
【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。