CVPR 2024 | OmniParser统一图文解析模型：文字检测识别、视觉信息抽取和表格识别

本文简要介绍CVPR 2024录用论文“OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition”的主要工作。这篇文章提出了一个新的统一框架，将文字领域的核心任务（文字检测识别，关键信息抽取和表格识别）巧妙融合在一起，无需额外的任务相关的定制化模块设计。

论文题目： OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition 论文链接： https://arxiv.org/abs/2403.19128 代码链接： https://github.com/AlibabaResearch/AdvancedLiterateMachinery

一、研究背景

随着深度学习的快速发展，模型可用训练数据规模呈指数级上升，大规模语言模型[1]和多模态模型[2]的通用理解能力得到了巨大的提高，出现了一批能解决多种任务的统一模型[3-5]。

文字图像解析涉及到多种OCR领域核心技术，如文字检测识别，关键信息抽取和表格识别，尽管有部分模型[6-7]尝试仅通过一个模型覆盖多种文字解析任务，但它们通常依赖于外部预先得到的OCR结果或缺乏文字的精确定位能力。SPTS[8]尝试将文字检测识别通过一个序列完成，但由于文字形状复杂多变以及文字内容长短不一，使用一个序列包含这些信息将会导致序列长度过长，极大降低了模型的推理效率。

这篇文章首次提出文字图像的统一解析模型OmniParser，在一个框架内解决多个任务的同时提供了精确的文本位置，模型可解释性大幅提高。同时，OmniParser将OCR基础任务检测识别与结构化序列进行解耦，通过并行化处理检测识别大幅减少了推理时间。

图1 OmniParser多任务输入输出结构形式

二、方法原理简述

OmniParser整体框架如图2所示，模型主要包含图像编码器，结构化中心点序列解码器，检测框解码器以及文本内容解码器。首先，文字图像经过图像编码器得到预处理图像特征；其次，图像特征和任务提示符（用于区分不同任务，如、、分别表示表格识别、关键信息抽取、文本识别。）一起输入结构化中心点序列解码器，得到任务相关的结构化序列，该结构化序列包含丰富的信息，如表格中的行列结构以及信息抽取中的实体类别；

接着，将上一步得到的结构化中心点序列中的中心点和图像特征一起输入到检测框解码器和文本内容解码器，得到中心点对应的文本包围框以及文字识别内容；最后，根据解码后的文字包围框、文本内容以及结构化中心点序列得到最终的图像解析结果。文字包围框以及内容解码可以多个中心点并行处理，同时三个编码器的设计也进一步大幅降低了模型推理时间。

图2 OmniParser整体框架图

三、主要实验结果

作者主要在三个OCR核心任务上验证了OmniParser的先进性，在文字检测识别任务上，OmniParser不仅在常规文字数据集上达到了领先的效果，在曲形文字数据集以及文字行数据集上也超越了之前的方法。

表1 文字检测识别任务上方法效果对比

在关键信息抽取任务上，OmniParser可以同时得到实体的类别信息以及精确的位置信息，在CORD以及SROIE数据集上也取得了比之前方法更好的表现，值得注意的是多数端到端抽取方法无法提供精确的文本定位能力，这削弱了方法的可解释性，部分情况下会出现较为严重的幻觉问题。表3展示了OmniParser在表格识别任务上的性能对比，其不仅可以获得准确的表格结构，同时可以得到单元格的具体位置以及文本内容，通过一次前向处理端到端的得到最终的表格解析结果。

表2 关键信息抽取任务上方法效果对比

表3 表格识别任务上方法效果对比

作者进一步探究了OmniParser在层次化文字检测任务[9]上的表现，如图3所示，从左至右分别为单词、文字行和段落级别的检测粒度，可以看到OmniParser可以准确的区分出不同层次的文字粒度信息，这仅需要针对该任务将结构化中心点序列进行相应的改造适配，模型其他部分并不需要过多改动，即可实现对新任务的高效迁移。

图3 OmniParser在层次化文字检测任务上的部分可视化结果

四、未来展望

本文提出了一种面向文字图像的统一解析框架，将OCR多个核心任务进行了形式上的统一，同时展现出对于其他OCR任务如层次化文字检测的泛化能力，对于开发OCR领域的统一大模型又近了一步，未来考虑将解码器替换为更加先进的大规模语言模型，实现更通用的文本理解能力。

参考文献

[1] OpenAI. ChatGPT. https://openai.com/chatgpt, 2023. Accessed: 2023-09-27.

[2] OpenAI. GPT-4V(ision) System Card. https://cdn.

openai.com/papers/GPTV_System_Card.pdf, 2023. Accessed: 2023-10-09.

[3] Hao Feng, Zijian Wang, Jingqun Tang, Jinghui Lu, Wengang Zhou, Houqiang Li, and Can Huang. Unidoc: A universal large multimodal model for simultaneous text detection, recognition, spotting and understanding.

[4] Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, and Sungrae Park. Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 1076710775, 2022.

[5] Xin Li, Yan Zheng, Yiqing Hu, Haoyu Cao, Yunfei Wu, Deqiang Jiang, Yinsong Liu, and Bo Ren. Relational representation learning in visually-rich documents. In Proceedings of the 30th ACM International Conference on Multimedia, pages 4614–4624, 2022.

[6] Geewook Kim, Teakgyu Hong, Moonbin Yim, JeongYeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, and Seunghyun Park. Ocr-free document understanding transformer. In Computer Vision ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXVIII, pages 498–517. Springer, 2022.

[7] Haoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin, Hao Liu, Yinsong Liu, Deqiang Jiang, and Xing Sun. Attention where it matters: Rethinking visual document understanding with selective region concentration. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 19517–19527, 2023.

[8] Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Jing Li, Shenggao Zhu, Dahua Lin, Chunhua Shen, et al. Spts: single-point text spotting. In Proceedings of the 30th ACM International Conference on Multimedia, pages 4272–4281, 2022.

[9] Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhisa Fujii, and Michalis Raptis. Towards end-to-end unified scene text detection and layout analysis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1049–1059, 2022.

来源：公众号【CSIG文档图像分析与识别专委会】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（

www.techbeat.net

）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

CVPR 2024 | OmniParser统一图文解析模型：文字检测识别、视觉信息抽取和表格识别

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

从零手搓MoE大模型，大神级教程来了

GPT-4 更强的标志，原来藏在了 logo 里

不分割成token，直接从字节中高效学习，Mamba原来还能这样用

日本科学家研发出“可食用机器人”

模块化重构LLaVA,替换只需添加1-2个文件,TinyLLaVA Factory来了

Transformer的无限之路：位置编码视角下的长度外推综述

可以互相交谈的人工智能来了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

“离谱的AI扩图”火了！张张那叫一个出其不意

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

马斯克烧几十亿美元造最大超算中心，10万块H100训练Grok追赶GPT-4o

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

CoT提出者Jason Wei：大模型评估基准的「七宗罪」

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

李毅教授怎么了？前段时间还那么风光，这就寻死觅活了。令人唏嘘

2025-2026年被定为中日韩文化交流年

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

京东败给了这个时代，中产正在溃散