打开网易新闻 查看更多图片

文 / 中国光大银行数据资产管理部 潘学芳 林勇 董波

随着新一轮科技革命和产业变革加速,数据作为新型生产要素在驱动商业银行发展与创新中的作用愈加凸显,数据资产的有效管理已成为银行发展和数字化转型的重要基础。随着大数据技术的广泛应用与发展,商业银行数据体量高速增长、数据种类多元化趋势日益加深、数据传播速度不断加快等新特点不断强化,如何盘点海量繁杂的数据资产已成为商业银行面临的新兴挑战,而人工智能等新型技术也为这一挑战带来新的契机。本文结合光大银行在数据资产管理领域的实践经验,围绕商业银行数据资产的特点,重点讨论人工智能技术在商业银行数据资产领域的应用场景,深入研究和论证AIGC(人工智能内容生成)技术在数据资产盘点中的应用路径及方案,为商业银行实现智能化、批量化、自动化的数据资产盘点提供参考。

中国光大银行 数据资产管理部 潘学芳

基于AIGC技术盘点数据资产的研究背景

AIGC是“Artificial Intelligence Generated Content”的缩写,即利用人工智能技术生成内容的一种新型技术。AIGC技术的基本原理就是利用AI技术(自然语言处理、机器学习等)对大量的语言数据进行分析、学习和模拟,从而实现对自然语言的理解和生成。AIGC也被认为是继UGC(专家生成内容)、PGC(用户生成内容)之后的新型内容生产方式。AI绘画、AI写作、AI编程等都属于AIGC的分支。

数据资产盘点作为数据资产管理的基础,决定着数据资产管理的内容宽度与深度。目前,商业银行的数据资产盘点基本采用“自上而下”或“自下而上”方式开展,主要是通过人工梳理和标注的方法,对全量的数据资产进行摸底盘点,工作过程面临投入人员多、工作量大、时间长,以及更新不及时等问题。目前在利用人工智能机器学习技术解决数据资产盘点人工标注的难题时,每个标注分类至少需要1000条样本数据,因此一个简单的十个二分类模型的训练就需要至少10万条以上标注样本,人工标注面临的问题仍然没有完全解决。随着AIGC技术的兴起和广泛应用,为智能化盘点数据资产带来了新的思路与方向。本文将重点介绍以AIGC技术为基础的智能化数据资产盘点研究。

基于AIGC的智能化数据资产盘点方案

1.研究目标

方案的最终目标是利用AIGC技术实现商业银行数据资产智能化盘点标注。考虑到实际操作的复杂性和时间成本等因素,现提出三个假设对目标进行简化,专注研究方案可行性。

假设1:数据集数量限定在一定范围

假设2:使用FS-LDM十大主题作为不互斥标签分类体系

假设3:每次分类标注的样本数量限定在一定范围

结合上述假设,本次研究目标具化为利用AIGC技术实现限定数量集下数据资产FS-LDM十大主题不互斥二分类的智能化盘点标注。

2.研究方案及结果

智能化的盘点标注方案一般包括样本标注、分类模型训练、分类模型维护三大步骤,并且一般仅在分类模型训练步骤利用自然语言处理、机器学习等智能技术。本次研究方案将对上述步骤,特别是样本标注和分类模型维护步骤进行优化,实现数据资产盘点的全流程自动化、智能化,同时也解决人工样本标注工作量大和模型更新不及时的难题。目前,在样本标注、模型训练等过程中可使用的智能技术较多,考虑到模型不同、最终效果也不同,为保障本次研究获取最佳的实验结果,对样本标注过程中常见的分词模型(如词袋模型和词向量模型等)、聚类模型(如K-means模型、DBScan模型、LDA模型等)及训练模型(如支持向量机、决策树、随机森林和神经网络等)分别进行组合并逐一验证,最终得出“词袋模型+LDA模型+支持向量机模型”组合效果最好。具体研究方案如图1所示。

打开网易新闻 查看更多图片
图1 数据资产智能盘点方案流程图

(1)样本标注

本次研究的样本标注将采用“文本分词聚类+专家规则匹配”的方式代替人工标注。首先,对样本数据应用词袋模型的方法进行分词和特征提取,然后,对样本数据应用非监督机器学习的LDA方法进行聚类,最后,根据聚类得到的类簇结果与专家经验生成专家规则,并将专家规则与类簇结果进行匹配,得到打上专家规则的弱标签样本。整体流程如图2所示。详细步骤如下。

图2 样本标注整体流程

第一步,准备研究使用的已限定数量的数据集,并从中随机抽取一定数量作为样本数据集。由于本次研究目标是针对数据资产数据项进行盘点打标,因此样本数据集应包含字段的中文名称、字段英文名称信息项,如表1所示。

表1样本数据集

第二步,使用“词袋模型+LDA主题模型”对待训练样本进行初步的分词、特征提取与聚类,设置划分簇数为10,得到对应簇的主题词以及相应的概率分布,如表2所示。

表2LDA主题模型主题聚类结果

打开网易新闻 查看更多图片

第三步,根据各簇的关键主题词与专家经验,梳理形成基于FS-LDM分类体系的专家规则。最后,使用该规则与聚类后的主题簇进行匹配并完成样本标注,最终,得到带有弱标签的样本数据。如表3所示。

表3 样本数据展示(部分)

(2)模型训练

在完成样本标注后,应用支持向量机(SVM)方法开展样本数据的模型训练,从下表可知支持向量机在处理大多数FS-LDM分类的任务中都能达到超0.9的查准率与查全率,在渠道主题的分类任务中准确率甚至达到1,模型整体效果优异,如表4所示。

表4SVM在FS-LDM分类体系中的效果

(3)模型维护

传统的训练模型随着数据量的增加需要人为持续更新参数保障模型的可靠性。为解决“已经训练好的模型随着数据量的增加,将逐渐失效”这一难题,本次研究在模型维护阶段引入“增量学习+经验池”的方法,实现模型的自动维护。这种基于经验池的模型更新方法已被广泛应用在强化学习等增量式模型训练任务中,并被证实是有效的。经验池的选择可利用我行数据资产管理平台中用户对数据资产评价、点赞点踩等反馈信息构建,最终,实现训练模型基于数据资产管理平台用户经验池信息的自动维护。

3.结论

综上,通过利用AIGC技术,配合专家规则与增量学习,能实现限定数量集下数据资产FS-LDM十大主题不互斥二分类的智能化盘点。本方法通过在样本集中应用“非监督机器学习LDA模型+专家规则”的方法生成带标签的样本数据,极大地降低了人工标注样本的工作量,比如一个10万级别的样本数据集,仅需人工标注1~3万,人工工作量减少70%至90%,大大减轻了人工工作成本。同时,基于“增量学习+经验池”的方法使得数据资产管理平台积累的用户反馈信息代替模型更新所必需的人工调参,实现了模型的自动更新维护。

下一步研究与实践思考

本文虽然验证了基于AIGC技术实现数据资产盘点的可行性,但出于时间、成本等因素考虑,对部分条件进行了限制。为进一步将上述研究方案应用到实际工作中,后续考虑从以下几方面进行细化研究。

一是通用与专用结合的标签体系设计。由于完善的全行标签体系复杂度和耦合性都较高,从易用性和可行性方面考虑,应分别设计通用的标签体系和专用标签体系,并根据实际情况结合应用。其中通用标签体系充分参考FS-LDM、企业级数据模型等行业现有成果;专用标签体系应结合银行实际的业务需求,针对单一业务场景设计专业的、细化业务的标签体系,解决通用性标签全而不深的问题。

二是多角度专家规则的提炼生成。专家规则是长时间、专业化的经验积累,应从多方面生成提炼。一方面是依托各业务领域专家的历史经验进行归纳总结;另一方面是针对企业数据集自身的特性,包括所属系统、所属部门、应用场景等维度信息进行提炼加工,最终熔炼一体得到相应的专家规则。

三是经验池关键信息的有效筛选。用户信息反馈必定伴随着无效信息或干扰信息,为保障增量学习模型的可靠有效,必须对经验池进行有效信息过滤,可以通过建立关键词词库的方式,将用户反馈信息与关键词词库进行匹配,实现经验池关键信息的有效筛选,增强模型的可靠性。

当下,互联网、移动互联网时代已过,以人工智能和大模型为标志的新一轮科技周期已然开始。商业银行作为企业数字化转型的排头兵,必然面临着新一轮科技周期浪潮的洗礼。而数据资产管理作为银行数字化转型的数据基石,发展基于人工智能及大模型技术的智能化数据资产管理已是时代的必然选择。

(此文刊发于《金融电子化》2024年1月上半月刊)