打开网易新闻 查看更多图片

在整理、审核各种材料的过程中,我们可能经常遇到类似的问题:

纸质材料内容多,整理难,逐字录入不仅费时费力,稍有疏忽,还可能带来不可预估的影响。

即便已经是图像格式,文本信息的提取,依然容易受到拍摄角度、清晰度、光照、版面形态等因素的影响。

遇上表格类信息的识别,因为很多OCR软件工具没法很好地识别和区分版面内容,信息抽取的完整性和准确率还会大打折扣。

更大的问题可能还在于信息识别的同时,很难在保持原有数据结构和逻辑的基础上,实现内容的深度理解和运用。

当做不好这些,各类信息要素很难升级为“数据资产”,更别说辅助信息检索、内容输出、知识库建设、分析统计等业务场景。

面对这种情况,怎么做,能更好地摆脱以往难点,高效完成信息识别呢?

选对工具很关键!在这其中,司普科技推出的智能OCR数采产品,已经为金融、医疗、教培等多行业的从业者带来了行之有效的解决方案。

和同类型产品相比,司普推出的智能OCR识别工具为实现高效信息识别,做好了这3点::

1.保障高准确率,全程无递减

传统的信息抽取需要分多个环节进行或者需要人工干预,从OCR识别到信息抽取、名词归一化,各环节的准确率往往会递减,最终准确率不到90%。

而司普科技推出的智能OCR数采产品,支持端对端抽取,整个环节的准确率可做到95%以上无递减。

依托智慧医疗模型和医疗保险知识库,在实际进行医疗、核保等信息抽取和采集时,司普产品的识别和匹配准确率还能更高(约99%)。以上极大保障了信息抽取的效度和质量。

2.扩大OCR识别范围,提高适用性

当信息抽取的准确性问题得以解决,支持识别的格式类型,就显得更为重要。

因为大多数情况下,信息抽取的性能(比如速度、精度、质量、并发、适用性)与产品自身实力、算力、算法等密切相关,这导致很多的OCR识别工具可能仅限于通用文档的抽取,多源异构型数据尤其是多格式、样式、布局的表格类信息识别和抽取,涉足不多也不深。

作为少数不多能较好实现通用图片、文档、表格、票据等信息识别和抽取OCR工具之一,司普科技推出的智能OCR数采平台强化了版面区分和内容提取能力,目前支持有边框、无边框等多类型、任意格式、样式和布局的表格信息提取。

以医疗行业为例,目前,司普已能轻松实现门诊病历、体检报告、入/出院小结、化验单、MRI、CT、医保结算单、事故证明、伤残鉴定等近20类医疗表格的信息识别和内容抽取。

而且完成抽取后的信息,还能自动实现结构化管理,不会影响原有的逻辑,更不会显得杂乱无章,信息混杂。仅仅这一点,就能省去不少二次加工和整理的麻烦。

3.实现识别、质检、自学习全覆盖

其实,司普智能OCR之所以能在保障高精准度信息识别的同时,把原有的逻辑关系也同步过来,很大程度上源于它的另外两大模块——质检+模型自学习。

举例来说,常规的图片信息识别,经常会受到拍摄技巧、角度、清晰度、光照等方面的影响,这很可能导致信息识别和抽取失败,或者识别错误率攀升。

为了避免这一点,司普智能OCR数采工具在一开始就支持自动实现倾斜矫正、旋转识别、去下划线、过滤红章、过滤噪点、抖动模糊识别等操作,并能依托行业知识库和大模型,进行名词归一化和标准化管理,从而进一步提升准确性。

此外,完成信息抽取并不是司普智能OCR数采工具的终极目标,通过数据的结构化管理和深度学习,盘活数据资产,辅助关联的业务场景,提升作用价值才是。这也是司普科技区别于传统信息识别厂商的一大特点。

据悉,目前,司普智能OCR数采解决方案正广泛应用于智能核保、智能理赔、档案管理、知识库建设、科研调研等场景。它为人们免去了填单登记、材料整理、信息录入等多方面的烦恼,也重塑着原有的商业模式和管理形态,推动数据管理和服务,实现质与量的提升。

而做好信息抽取准确率、提高文档+表格的适应性、实现信息抽取的同时做好数据结构化管理,对于其他OCR识别同样适用。