打开网易新闻 查看更多图片

采访嘉宾 | 张强、宋劼

作者 | 刘燕

互联「世界的知识」

1991 年,Tim Berners-Lee 发明的万维网给全球信息的交流和传播带来了革命性的变化,打开了人们获得信息的方便之门。2017 年,Tim Berners-Lee 因发明了万维网(World Wide Web)—— 世界上第一种网络浏览器和「能让网络实现扩展的基础协议和算法」而获得 2016 年度的图灵奖。

这种信息的“连接”改变了世界。

2013 年,一个名为 “Memect ”的车库创业公司在硅谷成立。这个项目的发起人是 Tim Berners-Lee 带过的一名叫鲍捷的博士生。鲍捷还曾是“语义网之父”James Hendler 的学生,其主要研究领域是语义网和知识图谱。

走出象牙塔,踏上创业之路的鲍捷,希望实现另一种“连接” — 「互联世界的记忆」( Memory Connected,缩写为“Memect”),“世界的记忆”就是知识,他希望将世界所有的知识联系在一起。

2015 年,鲍捷带领团队回国,在北京创立了文因互联(MEMECT)。

“‘文因’指在人类中复制和传播的‘文化基因’,是文化知识的最小承载单元,我们最根本的愿景是希望把全世界的文化知识单元进行连接”,文因互联联合创始人 &CTO 张强,近日在接受 InfoQ 采访时讲述文因互联的初心。

张强,文因互联联合创始人 &CTO

“实现知识的连接,无疑是一个长期目标。‘信息的连接’经历了数十年的积累铺垫,知识互联可能是一段同样漫长的旅程。”张强表示 ,“AI 技术是帮助完成知识连接的核心点,这与 Tim Berners-Lee 所提出的语义网络的概念一脉相承。为了实现这一目标,我们要持续地进行 AI 建设,坚持将人工智能技术作为公司整个技术战略投入的根本出发点”。

而文因互联找到的短期目标是以金融行业作为切入点,将人工智能技术在金融领域落地,基于知识图谱技术和自然语言处理技术,为金融机构提供业务流程自动化和智能化解决方案。

针对文本分析场景,金融领域有大量的金融文档需要分析,且有海量的信息披露文件,相较其他行业,公开数据更易获得。对当时的文因互联来说,金融行业是最可能直接落地的场景。

AI 模型「元」引擎:飞梭智能文档认知平台

实现知识互联的愿景,有了切入场景,还需要有一个核心的引擎。

这个核心引擎便是文因互联的核心产品 —飞梭(FinSense)智能文档认知平台。

张强表示,飞梭智能文档认知平台是一个「元」引擎。基于该平台开发出来的产品 / 解决方案,将成为推动金融领域企业知识沉淀和数字化转型的助力引擎。

解决金融行业三大痛点问题

作为第一代飞梭智能文档认知平台原型的主要开发和设计者,张强表示,该平台的诞生主要为了解决金融行业存在的三大痛点问题。

第一,金融行业历史沉淀文档多,大量信息固化其中,提炼成本高。但因金融行业数据驱动的效益高,企业对数据具有高需求,因此即便提炼成本高,企业也愿意花人力投入。数据就像石油,其中非结构化数据具有更大挖掘潜力,飞梭智能文档认知平台就是要释放这种潜力。

第二,金融行业缺失足够的信息做决策支撑。以文因互联合作的某头部农商行为例,其在很多时候无法精准分析每一个经营指标对决策的影响。在金融监管方面,许多信息存在于文档中,但之前并没有被充分利用起来,久而久之,就形成了大量在进行决策时,所需要的信息匮乏的局面。

第三,金融行业风险控制具有滞后性。例如针对暴雷的企业,监管机构希望能将事后监管转为事前监管,强调信息的时效性。在这样的背景下,机器介入替代人力就成了必然的趋势。

提供从生产到应用的一站式数据服务

飞梭智能文档认知平台可以提供对数据生产的全流程、一站式服务,针对数据生产过程中的所有环节,包括需求定义、样本标注、模型训练、数据生产、数据质控、模型修正反馈等。

具体而言,飞梭智能文档认知平台的一个重要功能是文档解析,将图片、PDF、扫描件、Word 等非结构化数据转化成结构化数据。转化后仍保留非结构化文本中的特征和信息,如版面布局、图片、图表的结构、字体等特征,所有语料将作为文档理解的“原料”。

在自然语言处理层面,飞梭智能文档认知平台主要提供两项服务,其一是文档理解,对文档、图片等非结构化数据中的信息进行解析,从中抽取关键信息点,形成结构化的数据用于进一步的分析和加工。其二是文档生成,基于关键信息点和语言模型,生成文档摘要、底稿等,解决自动写作的问题。

“飞梭”平台另一核心功能是知识图谱,解决认知问题。基于多源异构数据,经过数据治理、实体消歧、实体对齐等技术构建知识图谱。通过规则推理、复杂网络分析等技术,进一步进行规则核查、企业画像、风险传导分析、产业链分析等一系列的场景落地实践。

历时 4 年研发

飞梭平台诞生于文因互联从 2C 向 2B 转型的大背景下。

2016 年,文因互联主要面向 C 端做新三板投研方向的文档分析。一年后,为解决数据痛点问题,公司将关注点放到自然语言处理方向。

2018 年,文因互联决定向 B 端转型。从这一年开始,文因互联开始密切和国内头部的金融机构合作,深入参与到金融机构的“转型”中去——从监管出发,一直到数字化转型。在这个过程中,文因互联观察到,金融机构对 AI 技术的认知越来越清晰了。

于是,文因互联团队决定打造一款通用金融文本智能处理和图谱构造平台,为金融企业和机构提供快速构建、部署和优化迭代文档处理和文档任职 AI 模型的能力。同时, 通过平台化的建设,企业可以协同业务人员、开发工程师、算法工程师、数据标注人员等多方资源,达到以最好的性价比进行模型生产和知识沉淀。这,即飞梭平台的时代使命。

飞梭平台的研发历程持续了大概 4 年时间,至今已历经三个阶段的迭代:

第一阶段(2018 年 -2019 年),在这个阶段,飞梭平台主要解决金融企业 / 机构对 NLP 和知识图谱技术的具体需求,通过与不同的客户进行项目合作来打磨团队和技术,项目覆盖监管、证券、基金、银行等金融领域。

第二阶段(2020 年—2021 年),飞梭平台第一个版本上线。该版本以信息抽取任务为主要服务目标, 基于机器学习和深度学习技术,构造一个全流程的数据生产平台,主要解决金融文本中标准化的部分。

第三阶段(2021 年 -2022 年)的主要目标是打造融合平台,在机器学习和深度学习的基础上,增加基于专家知识的模型开发平台,通过专家知识低成本、冷启动等特性实现快速启动,增强模型的可解释性。同时,通过可视化的开发界面降低开发门槛,满足模型开发精准度更高、文档覆盖面更大、使用人群更广泛等升级的需求。

飞梭智能文档认知平台团队的负责人宋劼介绍,今年团队的研发重心主要在多模型可视化技术的迭代及混合模型的开发方面。

打开网易新闻 查看更多图片

宋劼,飞梭智能文档认知平台团队的负责人

独创多项优势技术

在飞梭平台构建以及迭代的过程中,飞梭团队自研了多项优势技术。

在算法层面,飞梭团队专注于对金融领域的文档做深度语义分析,平台中包含自研算法及对学术界最先进算法的迁移,通过多算法融合和基于知识结构的阈值算法等来提升模型的准确率。

值得一提的是,鲍捷博士提出了“柳叶刀”算法。在医学界,柳叶刀是一种很精细的手术刀。在金融领域,某一个具体的任务需要不同的小模型通力合作完成。文因互联希望构建像“柳叶刀”一般的模型,通过精细化的任务拆解及模型拆解,来完成自然语言处理任务。

在模型训练中,语料标注很重要,这项工作虽然门槛低,但工作量非常大。为了让标注过程更高效,飞梭团队独创了“麻瓜标注”技术。一方面使用已有的模型对语料进行预先标注,一键对数据集中的上百份、上千份语料进行标注,用户只需对有问题的地方进行修改。

另一方面,飞梭团队还独创了“语义扩展标注”技术。在金融文本中,通常一个表格包含许多信息点。该技术基于对表格结构的学习和语义理解,通过仅标注表头信息,“一键扩展”至表格中所有的单元格,实现标注数据的批量生产。在上百行的表格、跨页表格和复杂表头表格等场景中,该技术可以大幅提升标注效率。

标注语料的生成也是一个极消耗人力的过程。针对此问题,飞梭团队提出了基于预训练的小样本模型构建技术,只需少量标注就可以冷启动训练模型。

金融文档中信息类型复杂,既有标准信息,也有非标准的(信息)披露。飞梭团队通过混合模型的方式,结合多种子模型,即可处理许多非标准的披露,同时提高准确率。

飞梭团队还提出了置信度和错误追踪的方案。“对许多用户来说,即便模型准确率达到了 90%,但他们最在意的还是剩下的 10%。理论上讲,由于 AI 技术自身的边界性,可能永远无法实现 100%”,宋劼介绍,“为了提高剩下 10% 的准确度,同时降低人员投入,飞梭团队会通过多种算法计算数据置信度,探测在提取信息中可能发生的错误情况,并迅速给出提示,这样质控人员就可以针对性地修改数据”。

可视化、工具化和知识沉淀

在产品层面,飞梭智能文档认知平台遵循可视化、工具化和知识沉淀等原则。

飞梭智能文档认知平台的用户具有“多维度”特征,几乎覆盖了金融领域所有的岗位类型,如业务人员、技术人员,数据分析师、模型的开发者、模型的训练者、标注的管理者、数据的管理者、系统集成的管理者等,因此可视化非常重要。

将所有开发的过程通过可视化的方式呈现并集成到飞梭平台上,极大降低了开发者的门槛。通过可视化、拖拽式的模块搭建流程,用户可以在短时间内无代码地实现 AI 模型上线。

工具化是指将用户在开发过程中产生的每一个子模型转化为内部工具,开发者可以通过拖拽的方式复用这些工具,降低开发成本,加快开发速度。

知识沉淀是指在金融领域有很多知识,包括训练语料、业务逻辑知识等,这些知识以前是沉淀在用户的头脑中,无法复用,因此 需要通过工具的帮助来进行沉淀和积累。比如基于历史存档的研究报告、招股说明书、债券募集说明书、公告等语料训练相应的预训练模型,金融词库的沉淀和扩展。

与市场上的同类产品相比,飞梭智能文档认知平台在长文本解析和适配方面具有优势。大部分的自然语言处理平台,是基于句子级别进行信息抽取和文本分类等 NLP 任务,而飞梭平台主要是针对多种文档格式,例如招股说明书、研报等多种样式的长文档进行解析和识别,包括其中的版面布局、表格内容、表格结构、篇章结构等特征,均需一一分离。一份招股说明书可能达到 800-1000+ 页,仅在几分钟内便可完成处理。

同时,基于过往的积累,飞梭内预置了多种金融文档模型,开箱即用。同时,多个基础模型针对金融领域做了特定的适配和优化。

“吃透”金融行业
推动金融从“手工业”到“大工业”转化

经过过去十几年的建设,金融行业经历了从信息化到数字化和智能化的发展。随着文本数据激增,如何对这些数据进行加工,来激活它们不同的应用场景,是金融行业目前面临的问题。

“过去的几年中,金融行业大部分还都是‘手工业’的处理方式,这一点这几年有了很大的改变。当然,怎么用大数据、AI 等技术改变这一现状,实现从‘手工业’到‘大工业作业’的转变,需要做的工作还有很多,而且需要花一定时间”,张强说道。

从一开始主攻一级市场,到后来逐步扩大到二级市场,再到后来为金融监管机构、券商、银行、评级机构、公募基金、咨询机构等提供服务,过去 7 年,文因互联已经“吃透”了不同类别的金融机构的“脾气秉性”,并能够根据其差异化的需求提供解决方案,帮助解决业务场景中的问题。

宋劼向 InfoQ 列举了一些代表性落的案例和效果数据,可以看到,应用上飞梭平台之后,金融机构 / 企业的自动化、智能化水平和效率有了大幅提升,人力成本也逐渐降低。

以某头部银行为例,在合同自动解析和抽取方面,以前人工解析一份合同需要约两个小时。飞梭系统上线后,提取一份合同的时间仅为一分钟,速度较之前提高 120 倍,实现了整体效率的提升。

在知识沉淀方面,如果采用人工方式,每个人的提取标准并不一致,而且一旦人员出现变动,交接和培训成本很高。应用飞梭平台后,上述问题得以解决。在业务定义的同时进行知识沉淀,防范人员变动的风险,提升整体效率。

某案例应用数据显示,飞梭帮助用户完成划款指令的自动分类和处理,在 19 个小时里帮助客户完成 1200 多笔指令处理,完成 2500 多只产品、10 天的对账工作。

在底稿生成方面,文因互联目前与券商合作撰写债券发行中的承揽、承做分析报告。以前一个分析师写一份报告需要三天时间,现在只需要 3 分钟就可以帮助分析师完成底稿生成工作,极大提升效率。

金融场景下的知识图谱自动化构建

知识图谱需要运用到业务场景里才能够发挥出它的真正价值。最近几年,随着 AI 技术的发展和大数据时代的到来,知识图谱的自动化构建成为可能。

在金融场景,文因互联采用自动化的方式构建知识图谱。自动化构建过程中,具体应用实体识别、关系识别、实体对齐、实体融合等关键算法和技术。

针对行业图谱构建成本高这一业内难题,文因互联提出了自己的降本增效方案。

一方面,文因互联针对存量数据,包括现存的非结构化 / 半结构化的数据,以及结构化的数据来进行整体的静态图谱的构建。面对庞大的数据量挑战,通过算法和算力的不断提升,可以持续降低数据处理的成本。例如目前的基于深度学习的构建技术,和人工处理对比,成本已降低不止 100 倍。

另一方面是对增量数据的处理。信息爆炸时代,各种信息不断演化,信息的承载方式不断变化,如何随着数据的形式变化,快速建立与之配比的模型和能力,让工具本身具有这样的演化能力,这是整体推进知识图谱构建的效率的核心点。

针对这一问题,文因通过构建通用可配置的数据源引入、特征工程、实体对齐和实体融合算法框架,结合前序的 NLP 数据生产能力,实现图谱构建的快速迭代。在需求或场景变化的情况下,快速变化出适应新的模式、新的信息的处理模型。这样结合在一起后,工具就具备了演化能力,从而降低使用门槛,降低图谱构建的成本。

攻克“最后一公里”

飞梭平台在实际的应用落地中,也面临许多挑战。因为,现实世界的情况往往比想象中复杂得多。

“金融领域的文档多种多样,文本、表格、图片等每一个信息都是一种知识。信息的多样性背后,所反映出的本质是什么?在遇到各种各样类型的文档时,如何从知识的角度将多变的文档信息和问题,抽象成一种思想或某种知识的外化表现形式,怎样从原始文档级别的表达,转化成实际信息传递过程中的知识沉淀,这是我们的技术团队思考问题的根本出发点,也是我们不断探索的方向,”张强说。

而具体问题具体分析, 只有不断在项目中历练,才能在挑战中成长。每当在落地过程中遇到坎坷时,飞梭团队注重通过问题的反馈来完善平台,将问题转化为模型,沉淀到飞梭平台中去,一步步完善底层模型,确保团队在后续的项目中可以自如的应对挑战与风险。

跑通 AI 商业化落地的范式

张强告诉 InfoQ,经过过去 7 年的探索,到今年,文因互联在金融领域的整个商业模式已经跑通了。

回顾过往 7 年,文因互联在金融科技的商业化落地道路上,经历了两段探索期。

2015 年到 2018 年,公司还处在商业化的早期。那个时候,团队的商业化想法简单而朴素,“我们有技术,希望做出一款能够改变行业、具有颠覆性的爆款产品,卖给所有的金融机构”。

但到后来,张强和团队发现,这种思路和方式,很难行得通。

2018 年是文因互联商业化重要的转折点。随着公司开始和金融机构密切合作,当真正深入到客户的业务需求中去时,张强发现,正确的思路应该是,定位和明确需求点,逐渐沉淀出在特定领域有亮点的产品。

于是,文因互联决定通过与金融机构合作,反复实践自己的技术方案,打造出一些核心的模块。

在这个过程中,一个绕不过的难点是,在金融业务里,核心的数据很难甚至无法拿到。于是团队通过打磨算法模块或者其他核心模块来处理需求。久而久之,通过不断积累各种各样的模块和产品,由各个小功能模块再变成一个核心功能点,核心功能点积累多了之后,再进行抽象和整理,最终变成一个技术组件或技术模块。

如此,经过过去四五年的积累,目前文因互联已经有两百多个标准的模块和组件,完全能满足金融场景的不同业务需求,并具备了通过快速的场景跃迁来服务更多业务场景的能力。

AI 落地是这几年老生常谈但又十分困扰业界的问题。许多 AI 公司在推进行业落地时,前期会先选择一个或几个行业落地,再将标准化的方案复制到更多行业。也有的公司一上来就选了 N 个行业布局。

文因互联则选择了一条在一个垂直领域深耕的路线。“文因的打法是,先在金融行业,把公司的技术理念实践出来。当把一个行业‘吃透’,能适应所有的需求时,再开始做其他行业的拓展。目前,从技术积累上看,文因互联已经具备了拓展行业的能力。但在短期内,公司仍将在金融领域持续深入布局”,张强表示。

采访嘉宾介绍:

张强,文因互联 CTO& 联合创始人。曾任美国 Marvell 资深系统专家,Marvell 智能电视播放系统 Android 软件模块负责人。超 20 年工程开发经验和系统架构设计经验,研究方向:复杂系统架构与实现,计算机图形图像处理算法,10 年嵌入式多媒体系统构建经验,对视频编解码,图形处理,加解密算法,稳定系统构建有深入理解。

宋劼,博士,文因互联技术部工程 VP。西班牙马德里理工大学人工智能博士,瑞士苏黎世联邦理工学院客座研究员,本体工程、语义网、知识图谱专家,ISWC 知识图谱领域顶级会议组委,中国人工智能学会会员工委会副秘书长,欧盟“中国人工智能创新生态系统”研究项目执行人。

电子书推荐

本文选自《中国卓越技术团队访谈录》(2022 年第二季),本期精选了微软 Edge、蚂蚁可信原生、明源云、文因互联、Babylon.js 等技术团队在技术落地、团队建设方面的实践经验及心得体会。本期电子书已经在 InfoQ 网站上线,大家可以扫描下图二维码下载,查看更多精彩内容。

《中国卓越技术团队访谈录》是 InfoQ 打造的重磅内容产品,以各个国内优秀企业的 IT 技术团队为线索策划系列采访,希望向外界传递杰出技术团队的做事方法 / 技术实践,让开发者了解他们的知识积累、技术演进、产品锤炼与团队文化等,并从中获得有价值的见解。

访谈录现开放长期报名通道,如果你身处传统企业经历了数字化转型变革,或者正在互联网公司进行创新技术的研发,并希望 InfoQ 可以关注和采访你所在的技术团队,可以添加微信:caifangfang842852,请注明来意及公司名称。