鼎捷数智数据要素案例
该数据要素项目案例由鼎捷数智投递并参与“数据猿年度金猿策划活动——2024数据要素产业年度创新服务企业榜单/奖项”评选。
1. 原数仓技术架构落后,企业数据增长速度快,已无法支撑爆炸性大数据处理加工需求(预计明年将达到亿级),原数仓基于关系型数据库,性能优化瓶颈难以突破,硬件资源扩展受限;
2. 数据口径不统一,数据未实现标准化管理,各部门各自为政,数据孤岛严重,分析数据计算逻辑自拟;业务数据名称、定义不统一;
3. 数据问题难定位,诊断问题成本很高,解决问题效率低,难以达到业务需求时效;
4. 数据质量不足,数据质量没有有效的改善机制,数据不够精准,从而影响战略决策分析和一线业务数据支撑;
5. 数据共享未推广,数据共享服务手段单一,数据服务开发效率低,不能及时满足多样的数据需求;
6. 找不到数据资产价值切入点,面对业务沉淀下的大量数据,难以转化为数据资产,数据复用性差,难以让数据为业务提供高价值服务。
时间周期:
项目开始时间:2023年9月15日
中间重要时间节点:2024年1月3日-24年1月31日,模型开发,数据标准建立
项目完结时间:2024年5月31日,项目一期结束
数据要素价值需求
1. 消除数据孤岛:解决各部门各自为政,业务数据定义、计算逻辑和使用标准不统一的问题;
2. 建立统一的数据标准:解决由于数据源头多,缺乏统一的标准,导致各部门在生成和使用数据时存在差异的问题,确保数据的准确性和一致性;
3. 实现数据资产化:解决数据资产不清,数据资产管理无序问题,盘点厘清企业数据资产的范围和分类,明确数据资产的权责;
4. 改善数据质量:解决数据存在缺失、错误、过时等质量问题,通过识别数据质量问题,提升数据质量;
5. 推广数据共享:解决企业内部和外部的数据流通障碍,提升数据的利用效率和业务协同能力。
数据需求解决方案
1. 引入数据中台:将各部门的数据集中管理,消除数据孤岛,实现数据的共享和整合,保证数据的一致性;
2. 建立统一的数据标准体系:引入统一的数据管理标准和规范,确保各部门在数据生成、存储、使用和共享时遵循一致的规则;
3. 数据资产盘点:通过以数据和资产视角重新梳理和盘点数据资产目录,完成主数据标准定标,业务数据标准定标,并在数据中台落地,从而提升企业数据价值;
4. 加强数据质量管理:定期进行数据质量评估,确保数据的准确性和完整性,从而提高数据的可信度,这些措施能够帮助企业逐步解决数据管理混乱的问题,提高数据的使用效率,增强决策过程中的数据可信度;
5. 数据共享服务:通过数据中台数据共享服务,可便捷、简单、易用的配置完成对数据的访问与应用,通过向导指引或自定义脚本的多样化选择,适配多种业务场景的实现,实现数据仓库或数据湖中的数据内容的数据交互服务。
面临挑战
1. 数据标准建立面临的挑战:在企业的数字化转型过程中,数据标准化是一项至关重要的工作,且需要各个部门的协同配合才能成功。为了推动项目顺利实现数字化战略目标,首先建立了一个体系化的数据标准组织架构。这一架构不仅明确了每个部门在数据标准化工作中的职责,还确保了各部门在项目执行过程中能够步调一致,避免各自为政、标准不统一的问题。从而企业内的数据标准能够有效地贯彻执行,形成标准化、系统化的管理模式。
同时数据标准规划的制定,需要从企业核心的业务主题域出发,如销售、生产等关键业务主题,在此过程中,项目团队应从实际业务需求出发,定义并建立业务数据标准。通过这些标准的统一,企业可以确保各个业务部门在同一套规则下进行数据的生成、管理和使用,避免了以往数据孤岛、口径不统一的问题。通过标准化主题相关的业务数据和维表的管理,使得主题数据的一致性和唯一性得到保障。这不仅为企业业务流程的优化奠定了基础,同时也为后续的数字化转型提供了重要的数据支撑。
2. 数据资产盘点面临的挑战:数据资产盘点在实际操作中面临着诸多挑战,数据分散且冗杂,企业的数据往往分布在多个业务系统中,使得数据汇总和统一管理变得复杂。
同时,重复数据和无效数据较多,增加了盘点的工作量和难度。跨部门协作难度大,数据资产盘点涉及多个部门和系统,往往需要跨部门的协作。部门间信息壁垒、沟通不畅、协作意愿不足等问题会导致盘点进程缓慢或不顺利。数据资产认知不足,部分业务人员对数据资产缺乏足够的认识,难以准确提供数据的来源、定义、用途等关键信息,导致盘点时的信息采集不全或不准确。克服这些挑战,需要通过建立规范化的数据管理流程,并推动各部门形成数据协同的共识。
3. 数据质量改善面临的挑战:数据质量问题往往是长期积累的结果,包含重复、缺失、错误、冲突等多种类型。数据质量改善需要持续的监控和修正,企业缺乏有效的质量规则、监控机制和反馈闭环,导致数据质量无法持续保持。因此结合企业的实际数据质量管理需求,制定详细的数据质量规则,并对数据质量进行了全面的检查和分析。
通过明确的整改方案,企业的数据质量逐步得到了提升。在整个数据质量管理闭环中,数据质量问题的整改措施得以有效实施,这为企业运营和管理决策的可靠性提供了强有力的支持。
4. 数据共享面临的挑战:数据安全与隐私保护,数据共享涉及多个部门甚至外部合作方,包含敏感信息和隐私数据。如何在共享数据的同时,保障数据安全和隐私合规,是共享体系中的重要挑战。数据共享需要对不同系统、平台的数据进行集成,不同系统的技术架构和接口兼容性差异较大,整合的难度和成本较高。
数据共享也需要清晰的规则和流程,包括访问权限、数据更新频率和共享责任等。如果缺乏完善的规则体系,数据共享的管理和维护会非常混乱。克服这些挑战需要在数据治理、隐私保护、共享机制等方面逐步完善,以建立高效、安全的数据共享体系。
通过系统化的、闭环的数据管理模式,使得企业的数据不仅具备了一致性和可靠性,还大幅度提升了数据的整体价值,最终为企业的数字化转型和业务提升提供了坚实的基础。
数据处理
在项目中,企业的数据仓库面临着诸多挑战。首先,数据来源非常多样化,包括ERP、MES、PLM、OA等多个核心业务系统,这使得数据整合工作复杂而庞大。其次,企业的数据量巨大,其中核心业务数据量千万级别以上的有30+。随着企业的快速发展,数据规模还在持续增长,预计明年数据将达到亿级别。如此庞大的数据规模给数据处理带来了极大的挑战。
与此同时,数据处理的逻辑也极为复杂。涉及业务系统多,数据表40+,并需要通过复杂的关联和汇总操作生成数据分析结果。在处理这些数据时,存储过程的脚本长度甚至超过了5000行。这种复杂的数据处理逻辑,进一步加大了数仓的运维难度。
这导致数仓的处理效率低下,企业无法及时获取高质量的数据,间接影响了各个业务部门的运营效率。本项目通过数据中台的上线,显著提升了数据处理的效率。通过优化数据处理流程,企业将全量离线数据的处理时间从5小时减少到了10分钟以内,极大地提升了数据处理的速度。此外,实时数据的处理时效也得到了优化,从原来的较长时延缩短到了1分30秒以内。这一改进不仅提升了业务部门对数据的信任度,还大幅度提升了企业的整体运营效率,为企业未来的大数据发展打下了坚实基础。
应用技术与实施过程
鼎捷数据中台是通过一站式提供数据采、算、存、治、用全生命周期的企业数据中心,可以助力企业显著提升数据治理水平,是构建企业数智化的底座。基于数据资源多样性的特点和能够高效支持业务的目标,通过智能演进不断提升数据接入、治理和服务的能力,不断丰富和完善数据中台。数据中台主要包含:数据采集、数据开发与计算、数据治理以及数据服务几大功能。
数据中台特色及价值
特色:
敏捷的数据中台套件,快速沉淀企业数据资产;
多源集成:预制10多种制造业系统(ERP/PLM/MES/智能物流)的标准集成接口,快速对接企业IOT数据,统一数据口径和数据标准;
部署灵活:支持公有/私有云和本地部署,灵活匹配企业基础设施;
原生大数据存储和计算技术,满足企业数据存用海量存储:采用hadoop大数据平台技术,轻松存储企业全域海量、多源、异构的数据;
计算快速:亿级数据计算,秒级响应结果;
技术先进:具有离线计算、实时计算、指标计算、数据标签体系等各类数据计算的关键能力。
价值:
存得下
1) 采用大数据技术存放企业海量数据和各类数据,实现数据集中管理需求;
2) 整合制造业设备常用OT连接技术,标准化接入储存设备数据。
管得好
通用标准的数据治理方案,直接套用成熟的管理典范,具备成熟数据管理水平。担任数据整合中转中心,统合企业多个系统数据,有效管理跨系统数据。
用得广
1) 数据以多种形式共享使用:管理层看企业驾驶舱、现场管理有大屏看板、开发人员可用数据API完成数据调用;
2) 整合企业数据,提高数据利用率,以数据为本,发挥数字效益。
数据中台功能详细介绍
1. 实时数仓架构
数仓,即存放数据的仓库,包括全量数据、历史数据,类型上又分为实时数仓、离线数仓。所谓实时数仓是指数据的实时性更高、延迟性低,一般是统计一天以内的数据,支持毫秒级的统计,在建设工具上采用Flink,实现秒级数据同步与分析查询,构建实时数仓;离线数仓基于Hadoop的大数据技术,数仓用的是Hive。考虑到数据的种类多样性、多源异构性以及通道的多样复杂性, 数据接入系统支持多源接入,支持对数据接入的插件化管理,可以分为关系型数据库、nosql 数据库、分布式存储系统、流式处理系统、消息中间件系统、文本文件和文件系统等。
在实时数仓中包含四层,即数据接入层ODS、数据明细层DWM、数据汇总层DWS、数据应用层APP。如下图所示,ODS层是数据的源头,包含系统的消息队列数据、系统日志、流量埋点数据、系统消息,不同业务线可能采用的方式存储数据,但是在接入数仓时需要统一来源接入,这样可以方便数据的处理以及数据一致性。在数据明细层,一般分两类进行数据建设,一类是业务数据明细、一类是按维度进行数据拆分。在汇总层主要基于共性维度进行建模分析,比如系统的日生产量、月生产量等数据,在汇总层就可以统一的运算。在APP层主要就是把实时数据写入应用系统的数据库,用于建设实时看板、实时特征应用、实时分析。
2. 实现流批一体计算架构
数据流实时分析和批量处理的架构主要涉及以下部分:
1)数据流处理:实时数据流通过流处理引擎进行处理,包括过滤、聚合、分类等操作;
2)数据批处理:对于大规模的数据,可以将其拆分成数据批次进行处理,每个批次可以是一天或一周的数据。
流程控制和动态处理支持按年、月、周、日、小时、分钟、秒定时调度,也可选指定有效时间内调度,增量情况下支持实时调度,数据近秒级同步。
支持以下集中调度方式:a.支持推(push)、拉(pull)的数据使用方式;b.提供任务代理调度功能,实现跨节点的任务之间的调度;c.提供操作系统的shell脚本调度功能,实现通过可视化配置任务调用 shell 脚本的功能,对于数据的操作系统级的 shell 命令调用,shell 脚本支持变量;d.提供SQL调度功能,通过可视化配置任务实现对统一的标准SQL语句、存储过程、SQL 函数的调度功能。e.提供前后处理调度功能,通过可视化界面配置前后处理调度实现多个任务之间联动运行的功能,被调用的处理为任务、二次开发的处理类(统计接入数据行数)。
3. 存储和计算分离架构
数据中台采取存储、计算分离架构,可根据业务特点动态升降配置和扩缩容;系统支持直接读取离线数仓数据 ,并根据业务情况灵活进行负载均衡调度,资源利用率更高,实现高可用、稳定性、容灾功能, 以更低成本交付部署系统。
4. 配备HTAP数据库
数据中台基于MPP架构的数据库,如:ClickHouse 、Impala、Starrocks,支持OLTP与OLAP (Hybrid Transactional and Analy tical Proces s ing, HTAP) ,包含了存储和计算能力,完全自主实现了高可用,可根据业务实时情况动态升降配置和扩缩容,具备高可用、实时HTAP特点,而且支持完整的SQL语法,兼容MySQL协议和MySQL生态。通过采用混合负载处理、实时数据同步、分布式计算多中技术相结合完成支持实时事务处理和复杂数据分析。
优势:极致的查询性能;低成本的海量存储:列存、压缩,大幅提升单机数据存储和计算能力,大幅降低使用成本;简单灵活且强大:完善SQL支持;提供json、map、array等数据类型;支持近似计算、概率数据结构等。
数据中台针对不同的应用场景支持传统的批处理系统和高并发MPP作为查询引擎。批处理系统使用场景分钟级、小时级以上的任务、稳定可靠、成本低;MPP使用场景为秒级、毫秒级以下的处理任务,主要服务于即席查询场景,对外提供各种数据查询和可视化服务。在查询引擎上层做统一封装,提供统一的分布式并行数据库服务。由于越来越多的应用在考虑对结构化数据的增删改查操作和半结构化数据做查询、检索和分析,对这些数据存储的支持能简化应用程序的开发工作,同时优化使得对这类数据的操作性能更高。
5. 敏捷的数据治理中台
用户可以通过多种建模方式创建基于标准的模型并部署到模型运行引擎上面,通过配置模型参数,模型运行引擎会对模型运行的合法性进行验证,包括是否符合标准,数据资源是否有访问权限,算法参数是否合法,模型编排是否合理等。模型通过验证之后,会上传到测试平台上面,通过数据采样、构建测试集等多种方式检测模型执行的准确性。
在数据中台的环境下,数据治理主要是对于各类数据(如元数据、业务数据、实时数据等)进行集中管理,确保数据质量,同时保障数据的安全和隐私。此外,数据治理还需要满足企业的合规需求,遵守相关的法律、法规和政策。
实施过程
浔兴一期主要目标是完成数仓向鼎捷数据中台的迁移,并实现数据标准化,根据项目时程及人力状况,整个实施过程按照数据中台的标准实施方法,并如期完成上线。
通过数仓迁移,完成数据标准化管理;基于营收场景模型优化的赋能培训,使IT团队完成对数据中台的开发技能掌握;使数据处理时间大大缩短,达到数据运行效能提升的目的。
鼎捷数据中台是一款覆盖企业数据采集、计算、存储、治理和应用的全生命周期的企业数据中心解决方案,旨在帮助企业提升数据治理水平,构建数智化转型的坚实基础。通过多样化的数据接入方式,鼎捷数据中台逐步提升了企业数据处理和服务能力,丰富和完善了企业数据的应用方式,为企业提供了一站式数据管理方案。
服务效果
1. 帮助浔兴形成数据驱动文化意识,更多人开始重视数据,相信数据。为浔兴进入数字化阶段打下基础,数字化用户覆盖率,从20%提升到65%以上;
2. 切合浔兴数字化转型战略,建置完整企业大数据底座,全量离线数据处理时间由5小时降低到10分钟内,实时数据处理时效优化到1分30秒内。使得浔兴的数据处理效率和需求交付效率都得到了有效提升,提升了各业务部门的分析决策能力和对企业数据的信任和依赖;
3. 帮助浔兴启动数据资源向数据资产转化,成立数据标准管理委员会,建立企业统一数据标准,逐步将数据转化为能产生价值的资产。数据标准定标50+,数据资产目录覆盖率达到45%;
4. 建立浔兴完整的数据质量改善方案,从数据质量规则,数据质量监控,数据整改策略方面入手,不断的改善数据质量问题,确保浔兴数据资产的完整性、准确性和时效性,数据质量问题降低30%;
5. 通过统一浔兴数据标准与业务模型,实现对业务数据的统一管理,互通共享,打通业务数字链路,构建企业级数据分析应用体系。数据API日调用峰值次数由2.3万次(平均16次/分钟)达到11.2万次(平均78次/分钟)。
相关企业介绍
·浔兴拉链
福建浔兴拉链科技股份有限公司2006年12月22日正式在深圳证券交易所A股上市,浔兴股份的SBS品牌是中国拉链行业的标志性品牌、国内拉链行业第一,世界排名第二。浔兴拉链连续八次跟随中国航天员一同遨游太空。
国家行业标准制订的主导者;国家技术创新示范企业;国家认定企业技术中心;国家企业专利工作交流站;国家知识产权示范企业;国家免检产品;中国拉链国际知名品牌;隐形拉链获“埃及金字塔奖”;福建省工业和信息化省级龙头企业;省级工业设计中心。
·鼎捷数智
鼎捷数智股份有限公司(股票代码:300378)成立于1982年,业务经营区域覆盖中国大陆、中国台湾、越南、马来西亚、泰国等多个国家与地区,是领先的数据和智能方案提供商。成立逾40年,聚焦制造、流通两大产业领域。在“智能+”整体战略布局下,与超过5万家企业用户深度合作,共同打造2000个以上的数智驱动应用场景,致力于为数智驱动企业运行提供方案服务,从提升企业内部运作效率到创新产品、服务及商业模式,助力企业数智化转型升级。近年来,鼎捷数智多次被评为“中国工业软件上市公司30强”、“中国智能制造年度领军企业”、“上海软件和信息技术服务业百强”等荣誉称号。