来源:鑫智奖·2024第五届金融机构数智化转型优秀案例评选

获奖单位:常熟农商银行

荣获奖项:基础设施优秀案例奖

随着近几年银行业数字化转型的不断深化以及线上业务模式不断创新和规模不断扩大,银行客户对银行服务的消费习惯已发生改变。银行业整体趋势为线下业务在逐渐萎缩,线上业务规模在持续扩大,通过数字化技术随时随地开展银行业务,及时为客户提供全方位、多元化的服务以满足快速变化的客户需求已经是银行业目前的核心关注点。

通过前期调研发现省内部分头部银行已开始尝试建设容器云平台,逐渐步入以容器为核心的新一代云计算技术的时代,开始将测试环境及部分生产环境上容器。从而满足金融行业新型业务转型对快速部署、弹性伸缩、高效运维的需求。但总体而言,云原生平台核心的容器技术目前在银行业普及度相对较低,在容器技术基础上用国产化高性能全闪存储来做数据持久化的案例更是凤毛麟角。我行积极响应国家加快数字经济建设要求,发扬“敢为、敢闯、敢干、敢首创”的“四敢”精神,目前正全面推进我行数字化转型。结合近几年国产化、信创工作的相关要求,建设一个安全、可靠且具有前瞻性的云原生平台作为敏态转型应用运行的核心载体成为本次项目的建设目标。

一、项目方案

常熟农商银行建设的容器平台,不仅需要为基于敏态架构的业务提供容器化运行和管控平台,还必须非常重视满足金融行业严苛的监管和安全要求,同时满足敏捷、高可用、国产化三点核心要求。

因此制定容器平台的需求时,我行考虑包括的方面有:

1.管理大规模容器集群能力,包括:提供容器所需的高可用集群、资源池管理、网络通信方案、存储方案、编排调度引擎、镜像管理、事件告警、集群监控和日志收集等。

2.为满足金融业务的监管和安全要求,平台需要考虑应用的高可用性和业务连续性、多租户安全隔离、不同等级业务隔离、防火墙策略、安全漏洞扫描、镜像安全、审计日志;如果容器平台还对公网提供访问,那么还需要考虑访问链路加密、安全证书等。

3.还有一个重要方面是,银行的金融云是一个范围更大的复杂云环境,容器平台通常是这个复杂系统中的一部分,因此容器平台还要遵从银行已有IT技术规范和运维要求,例如可能还需要考虑:

4.支持银行自身的应用发布体系、持续集成系统、应用管理规范、高可用管理策略

5.对接底层资源池(例如IaaS),遵从云计算资源的统一管理和分配

6.对接或改造容器平台的网络,以满足容器平台中应用与传统虚拟机、物理机中旧业务系统的相互通信,避免或尽可能减少对银行现有网络管理模式的冲击

7.如何形成统一的规范标准,便于新的技术在我行推广落地

除了已知的需求和难题外,落地细节上还有很多其他的要点。包括技术组件的选择、技术组件的运维、应用配置如何管理、容器网络安全如何防护、应用上云方案如何制定、规范标准如何积累等。

经过多轮选型及POC测试后我行云原生平台项目选定了曾经服务过多家金融行业客户的“博云科技BOC容器云平台”来管理、承载容器运行时。

存储作为数据底座,是金融数字化创新的基础。存储选型重点考虑性能、可靠性以及成本。企业级全闪NAS存储接入简单,无需单独采购和规划FC网络。性能、高可用方面,企业级全闪NAS存储可做跨中心双活,并且在同等存储规模下性能优于分布式存储。所以在容器挂载的持久化存储卷由华为OceanStor Dorado 5500V6全闪存储提供。云原生的管理面,业务面的master节点、镜像仓库由于均使用传统虚拟机部署,故备份采用虚拟机(OceanProtect X6000)整机快照备份,每天备份,一体机保留最近30天的整机快照备份。

云原生平台架构设计图如下:

打开网易新闻 查看更多图片

总体分为几层:

基础资源层:主要是IaaS层计算、存储、网络等各类基础资源,其中存储资源是华为OceanStorDorado全闪存存储。

基础设施层:为企业级K8s集群、多云异构k8s统一管理门户。

应用管理层:面向云原生应用提供开发态、部署态、运行态的全方位支持。

本次基于国产全闪存高性能数据底座的云原生平台方案设计主要从以下几个方面进行整体规划设计:

打造云原生金融级容器云基础架构平台

金融系统IT基础设施对高可用、稳定可靠有较高的要求,基于传统的IaaS部署应用已有相对成熟的解决方案,如存储层镜像复制、虚拟机漂移、全局DNS切换等。基于容器技术建设的云基础设施具备更优的资源利用率和弹性优势,但云原生技术体系仍在快速发展过程中,如何利用容器技术打造高可用、稳定可靠的IT 基础设施,各企业需求存在不同的解法,本方案设计了金融级容器云网络、高性能云原生存储、容器云高可用架构等系列方案进行容器云基础设施建设,并使其具备支撑企业级PaaS层的底层服务能力。

全面适应云原生负载的国产全闪存高性能数据存储底座

数据底座存储采用国产华为OceanStor Dorado高性能全闪存存储方案,满足金融系统多个模块在业务高峰期时段的高并发、低时延、高达数十万 IOPS 峰值的业务响应诉求,提升交易支撑能力,同时实现多层数据保护方案,可通过两地三中心的灾备部署为业务提供6个9可靠性保障。此外,OceanStor Dorado支持CSI(容器存储接口)、CDR(容器应用容灾)、CSM(容器存储监控)等软件引擎,完美适应云原生工作负载,大幅加强企业应用韧性和管理弹性。

提供PaaS层统一技术服务能力

通过基础技术平台为上云业务一键提供常用开源中间件服务,省去业务系统建设重复造轮子的过程;另外提供不同技术架构分布式体系环境下的微服务治理能力,为不同技术栈的应用系统上云扫清障碍。

基于PaaS能力的微服务应用管理平台、AI应用支撑管理平台以及容器安全管理平台等系列解决方案进行容器云PaaS层能力建设,并使其具备支撑企业级PaaS的扩展性能力。

安全合规下的CICD 高效交付体系

银行业务较多且复杂,很难迅速规模化服务化,欲快速规模化推进银行的传统业务系统容器化迁移,发挥云化基础设施效能,建立切实可行且便于研发、管理、运维人员上手的交付体系也非常关键。

本方案通过CICD流水线服务使自研应用从头云原生,为Serverless奠定基础;以企业制品仓库为交付体系的中枢,打通应用上云的制品流转、自动化安全合规审核。

加强云原生可观测性

基于kubernetes和容器云的架构优势,简化应用管理的复杂度,提升应用的交付效率。在稳定可信赖的,企业级容器云基础设施的基础上,提供全面的应用管理能力,极大增强应用的稳定性。提供全面的多应用类型的支持(微服务应用、中间件、AI应用),实现对这三类应用的全生命周期管理使管理者放心。通过提升资源的利用率,降低应用管理的难度,降低整体的资源成本和运维管理成本。

在可观测性规划设计方面,采用Prometheus作为整体平台资源监控,基于EFK提供统一日志汇聚、海量检索。形成Logs(日志)、Traces(链路追踪)、Metrics(报表统计)可观测性平台,保障在应用部署形态发生变化下的可观测能力。

二、创新点

本次基于国产全闪存高性能数据底座的云原生平台建设,是我行IT战略的重要组成部分,通过规划建设专有云原生平台,配套新数据中心建设,提供智能、安全、可扩展的高性能IT服务,能够满足适应面向客户的敏捷开发需求,打造稳定且可持续发展的我行IT坚实底座。同时,也有助于培养一支有云原生思维的新一代技术和管理团队。打造云原生分布式架构平台,支持轻量化容器引擎、高效虚拟化技术,实现应用秒级部署,让微服务成为可能,降低系统复杂度。本次项目在建设或推广应用等方面的创新点如下:

1、平台采用存算分离架构,将容器相关技术底座和国产高性能存储的数据底座结合,建设了容器云(应用发布)及微服务统一管理平台。该平台实现了应用持续集成、快速部署、秒级弹性伸缩、故障自愈等关键特性,能够对中间件的全生命周期统一管理,同时提供业务应用支持同城双中心的双集群部署和灾备双活能力,并配合存储层的双活能力,实现满足金融业务的高可靠性。

2、容器平台通过创新容器存储引擎CSI、CSM、CDR等,实现了资源的高效发放、管理和业务韧性的大幅提升。容器存储引擎实现了存储资源的自动化部署,使其快速满足业务诉求;提供可视化面板以实现容器存储资源的全局和细粒度管理;深度结合存储容灾功能,提供容器应用级一站式容灾解决方案,提升企业用云韧性。

3、容器网络采用高性能网络方案Fabric,兼容已有生产网络、并实现租户网络隔离、支持与现有网络和安全设备无缝对接等功能,性能接近原生网络,具备良好的扩展性。节点网络除了采用Fabric-underlay模式外,将node节点网络架构解耦为:k8s管理网络,业务运行网络,存储管理网络三个平面。三个网络各两根上联光纤保障高可用,不同平面流量互相隔离,互不干扰。

4、兼容满足信创要求。从云平台底座到软件服务具有全链路信创运行的能力,同时保障分布式应用高性能稳定运行。

5、应用上云标准化流程及标准规范制定

打开网易新闻 查看更多图片

按照“一业务一方案”“先虚机后容器”“先测试后生产”的原则进行应用平台上云迁移/部署,遵从“应用调研、应用分析、镜像制作、培训、上线方案制作、上线”六步法指导上云实践。

通过对应用上容器流程划分,在基础镜像、应用镜像、资源划分、应用发布、应用监控、日志存储划分等方面进行总结形成最佳实践,再通过培训、应用支持等方式标准化每个步骤的操作,循环往复,提升我行技术人员使用容器的能力,确保能用好、管好容器平台。

目前已经梳理出如下维度的规范:基础镜像标准化、资源分配标准化、应用镜像标准化、应用配置标准化

三、技术实现特点及优势

本次基于国产全闪存高性能数据底座的云原生平台实现的特点及优势包括:

整个容器云(博云)和全闪存储(华为)是采用全国产自主研发产品。平台支持“一云多芯”,可统一管理海光、鲲鹏等国产化芯片异构集群和混合集群,可根据业务或信创需要,灵活选择芯片类型;

采用容器技术建设容器云、微服务统一管理平台,通过容器与基础资源整合,建设可信赖的金融行业企业级云原生基础设施,实现PaaS平台层,满足金融行业内弹性计算、分布式架构以及高性能低时延存储的需求。

该联合方案通过博云云原生技术与华为数据存储的紧密结合,为我行数智化转型带来更佳的性能、更稳的服务和更优的体验。该方案可实现容器存储发放速度提升100%,节点故障快速漂移+存储双活,存储加密+存储防勒索,是高效率、高可靠、高安全的容器存储解决方案。基于国产全闪存高性能数据底座存储的高可用架构如下:

打开网易新闻 查看更多图片

业务应用实现海虞数据中心和档案楼数据中心同城双活方案落地,为金融行业提供了成熟的技术平台和案例支持。业务应用、微服务和中间件支持同城双中心的双集群部署和灾备双活能力,搭配存储层的双活能力,实现99.99999%的高可靠性。同时平台搭配存储能够提供完善的数据同步机制,来保障金融级别的数据强一致性。

具体全闪存高性能数据底座存储技术实现如下:

1、Huawei CSI支持丰富的企业级特性部署

Huawei CSI插件和k8s配合,实现在k8s平台对华为存储的管理功能。存储资源按需发放管理,简单易用。

CSI支持丰富的功能,OceanContainer CSI全面支持CSI标准接口,扩展支持租户、双活QoS等能力,满足容器应用开发者按需灵活调用存储资源。

2、Huawei CSI使能业务快速发放,批量部署场景效率提升30%

Huawei CSI和存储管理面深度优化,自动调整指令执行并发度,使资源调度效率达到最佳。可支撑海量容器应用并发部署,效率领先业界30%,并且网内所有k8s集群的均能使用博云的BOC平台管理,平台管理员只需纳管k8s集群后即可在云原生的管理平台上进行sc/pv/pvc的管理。

3、基于存储租户结合容器业务分层规划,实现全局可控与局部敏捷

存储管理员:根据集群业务的规划创建多个租户,配置租户管理员、存储池、租户配额、租户业务IP等。

集群管理员: 根据业务规划基于backend创建一个或者多个StorageClass,并设置回收策略、Qos、访问权限、访问协议等。

安装华为CSI插件,并基于不同的租户新增存储后端(backend),配置存储协议、业务访问端口,双活等。

业务用户:根据业务需要对PV进行读写/扩容/快照/克隆等

根据业务需要创建PVC,并设置PVC大小读写模式等参数。

4、结合应用和容器平台体系,以存储的共享为基础,以漂代切,降低应用副本数并带来极致的高可用

MySQL、Kafka 等多副本机制应用,主节点故障从应用主从切换替换为POD漂移方案。

故障POD快速漂移,通过快速检测 +存储快速就位+应用快速拉起时刻确保RPO=0,同时应用副本数不变,系统不降级,可靠性显著提升。依赖共享存储的“永远在线”和Pod漂移能力,还可通过降低副本数获得等同的可用性,达成节约资源的效果降低IO业务停顿时间。

不同中心间由全局域名解析来负责判断数据中心级应用的可用性,同中心内通过修改k8s默认配置以及结合应用探活机制来实现快速感知应用node故障,pod切换至正常node节点运行。当集群内漂移容错,集群内无法容错则通过华为CDR灾备软件以及华为存储的跨站点双活/异步复制实现应用的跨集群漂移容错容灾,实现多DC多层级的极致容错保障。

四、运营情况

截至目前,云原生平台已稳定运行包括三融商城、智慧食堂、企业微信营销平台、搜索中台、智能物业等9个应用,共计二百余个pod。

平台监控图:

打开网易新闻 查看更多图片

五、项目成效

通过本项目的建设,实现了我行各部门之间的互联互通、资源共享,从而避免各部门重复采集数据,提高行政效率,有助于实现协同办公。项目建成后,应用发布效率提升200%,运维成本降低了50%,应用发布成功率达到了近100%,资源成本节省了30%。PaaS平台有效支撑了新建多种类型微服务技术架构金融应用,提升了新技术应用安全可靠服务客户。

开发人员可以通过云原生平台上提供的服务,获取共享信息,提供人性化的服务,进一步方便居民和企业办事,促进服务型银行构建。

通过本项目的生产建设及运营实践,培养与拓展了技术人员的基础能力,能够独立开展多层面的分析与应用工作,强化了重点业务领域专家能力建设,建立了一支具有实战能力的内部科技团队,以更科学系统化的方法设计创新框架和路径,将金融科技真正落到实处,为我行打造了多层次、多类型的立体式金融科技复合型人才。

另外本项目按照全行一体化协同、全行一体化运维、全行一体化分布式技术栈建设,降低全社会的IT能耗,减少排放,真正做到绿色节能的云计算平台。

六、经验总结

作为国内农商行中首个采用同城双活架构,一云多芯模式下的平台项目的顺利完成,一方面为实现我行数字化转型的战略目标提供强大、稳定、敏捷的技术支撑平台,在满足云平台底座到软件服务具有全链路信创运行的能力的同时保障分布式应用高性能稳定运行,此外,基础资源以及应用层容器资源弹性供给,按照分布式技术框架,支撑行内各业务系统实现多中心多活的高可用容灾体系。另一方面,与国有大行云平台建设方式不同,我行在结合自有规模及业务特质构建的云平台,为后续其他农商行的建云、用云,提供了很强的借鉴意义。

1、高性能低时延云原生平台,存储性能得到极大提升

采用容器技术建设容器云应用发布与微服务统一管理平台,通过容器与全闪存高性能数据底座存储基础资源整合,建设可信赖的金融行业企业级云原生基础设施,实现PaaS平台层,满足金融行业内弹性计算、分布式架构以及高性能低时延存储的需求。

2、采用云原生化后,产品创新的速度可以大幅提高

基于国产全闪存高性能数据底座的云原生平台构建的系统可以十多天就可以投产一个创新产品,每周都会发布优化产品,基本上做到快速迭代、快速创新,真正敏捷起来。

3、采用同城双中心的双集群部署和灾备双活架构,实现七个9级的(3.15秒)高可靠性

业务应用和中间件实现同城双活方案落地,为我行提供了成熟的技术平台和案例支持。业务应用和中间件支持同城双中心的双集群部署和灾备双活能力,搭配存储层的双活能力,预计实现七个9的高可靠性。同时平台搭配存储能够提供完善的数据同步机制,来保障金融级别的数据强一致性。

4、采用容器平台后,业务秒级弹性、快速扩缩容

支持秒级的自动/手动的弹性伸缩,轻松应对业务流量冲击。通过容器镜像封装实现应用实例标准化,确保了应用在弹性扩容的时候应用实例完全保持一致。相比传统虚拟机停机启动至少需要10-15分钟,横向扩展则至少为1-2小时。容器非常轻量化,完全可以在访问量突增的情况下,实现秒级批量弹性扩容,应对突发流量冲击。

5、采用创新容器存储引擎,提升云平台敏捷性、韧性和可管理性

支持容器管理员与应用开发者按需编排存储资源,实现容器存储的高并发、自动化部署,30个容器存储资源部署仅需20余秒,效率提升1倍;支持容器级存储资源可视化,管理员可细粒度监测全局容器存储资源用量、性能表现等,实现云平台使用全局可控、局部敏捷;支持容器应用级容灾,实现服务器节点、存储、数据中心三层高可用,确保业务影响时间短甚至无影响,满足金融核心级业务可靠性要求。

更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。