2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事。北京航空航天大学张津津在本届比赛中斩获任意形状的场景文字端到端检测识别任务两项冠军,拉丁中文混排场景文字检测识别任务更是遥遥领先其他参赛队伍。
为推动任意形状文本检测识别技术发展做贡献,张津津将会开源本次斩获比赛第一名的项目及预训练模型,相文论文已在整理发表中。
项目地址:https://github.com/zhang0jhon/AttentionOCR
国际文档分析与识别大会ICDAR(International Conference on Document Analysis and Recognition)自1991年开始,今年为第十五届。自2003年大会开始设立技术竞赛,ICDAR竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点。
与赛后非正式刷榜不同,ICDAR官方认证的正式竞赛采用全新数据集,且赛期内不公布参赛团队信息和成绩,限制提交时间和次数,属于高难度“盲打”,吸引国内外众多队伍参赛。
2019届竞赛巨头云集,据赛后不完全统计,本届共有过百支队伍角逐,参赛队伍包括:(1)企业团队:腾讯、阿里、百度、华为、联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗、第四范式、合合信息、三星、Line,等;(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学、卡耐基梅隆大学、澳洲阿德莱德大学等。
识别图像和视频中各类文字(OCR),是计算机视觉、自然语言处理、个性化推荐等AI任务的基础技术。本届竞赛增加了多项中文和多语言识别任务,难度更高。北航张津津基于自研算法,共获得了两项第一名。
任务3.1:任意形状场景拉丁字母端到端检测识别任务冠军
任务3.2:任意形状场景混合文字端到端检测识别任务冠军
两项任务均难度极高,不仅需要支持横向、纵向、弯曲等任意形状的文本行检测识别,还需要支持中英文及符号混排场景文字检测识别,部分模型预测结果展示如下:模型预测结果示例图
两项任务官方排名
个人简介
张津津,男,硕士,毕业于北京航空航天大学,目前主要从事于目标检测,人体姿态估计,场景文字识别等计算机视觉相关工作。