2020年8月27日,中国工商银行(以下简称工行)联合华为完成了金融行业首家规模超千台的Hadoop集群大版本滚动升级,突破了传统的离线升级模式,真正实现了业务无感的平滑滚动升级。全程集群作业无中断、性能无影响,保障了7*24小时不间断的数据服务,树立了大数据服务连续性上的建设标杆,为金融同业大数据平台的高可用建设提供了可参考的综合解决方案。

工行从2002年起持续优化数据架构,推进数据赋能业务,截至目前,工行以可靠、高效、易扩展的大数据和人工智能平台为基础,构建了集基础设施、大数据和人工智能技术、海量高时效全数据、标准智能共享服务、丰富多样业务场景于一体的数据智能生态新模式,助力全行服务提质增效,向智能化、生态化时代的跃进。

工行大数据平台Hadoop批量集群节点数1000+,日均处理作业数十万个,数据存储数10PB+,支撑全行及分行应用,承载了重点批量作业,其中包括反欺诈、损益分析、减值测算等多个重要业务场景。而大数据技术迭代快,传统升级方式需断电、重启等操作,升级操作复杂,运维繁琐,影响现网业务运行,且大集群升级重启时间长,突发故障易中断升级动作。为保持业务的连续性和大数据平台的技术领先性,工行大数据平台滚动升级势在必行。

作为业界首个1000+节点的大数据生产集群平台滚动升级,面临着业务多、组件多、关键任务不中断、升级方案复杂等多重挑战。

华为云FusionInsight MRS借助于Hadoop核心组件的高可用机制,在不影响集群整体业务的情况下,一次升级/重启少量节点。循环滚动,直至集群所有节点升级到新版本。

打开网易新闻 查看更多图片

图1 HDFS组件滚动升级示例

为确保各组件升级过程及升级后版本的性能,华为云FusionInsight MRS对Hadoop集群相应架构进行调整和优化,实现滚动升级的全局可控、全程无感、全面无误。通过自研的Superior调度器,实现调度速率提升至每秒35万个Container,资源利用率提升至90%,解决上千节点规模集群的调度性能问题;优化社区的联邦解决方案,将性能下降控制在4%以内,降低集群维护成本,解决大规模存储的瓶颈问题;通过任务级“断点续传”能力保障大规模集群在滚动升级期间的容错能力。

图2 Superior调度器性能测试图

同时,华为云FusionInsight MRS还提供故障节点隔离功能确保升级动作的稳定运行,实现7*24小时不间断服务;1000+精细化运维指标及可视化操作简化运维,实现一个架构持续演进。

工行联合华为公司完成的本次金融业首家规模超千台的Hadoop集群大版本滚动升级,实现了客户无感知,切实保障了客户的核心利益,标志着工行向金融大数据蓝图迈出了重要的一步,借助于Hadoop核心组件的高可用机制,完成了端到端分步骤的滚动升级,实现了升级过程中的可视化控制和管理。

本次升级成功是华为云FusionInsight MRS滚动升级特性的又一力证,早在2017年运营商领域基于华为云FusionInsight MRS实现了首次滚动升级成功,在2020年广东移动实现了首个1000+大数据集群的滚动升级。

华为云FusionInsight MRS企业级特性致力于为客户打造一个可持续平滑演进的架构,具备滚动升级、单集群最大2W+节点、T+0实时供数、跨源跨域融合分析等特性,助力政企客户释放海量数据价值,让业务洞见更准,价值兑现更快!

打开网易新闻 查看更多图片