编者荐语
《美国陆军统一数据参考架构》1.0版的推出不仅简化了陆军数据架构,更是推动了“以数据为中心”的军事能力建设,为联合作战中的信息无缝对接树立了新标杆。
摘 要
美国陆军当前的数据架构过于复杂,严重阻碍了该军种的决策优势。为应对这一挑战,美国陆军于2024年3月22日正式发布了《美国陆军统一数据参考架构》1.0版本,旨在简化数据架构,精简数据产品,促进其与任务伙伴共享数据产品。该文件所定义的统一数据参考架构,为数据网格原则的系统级实施提供了指导,将使美国陆军的数据治理更高效、更有效,同时促进美国陆军采办“以数据为中心”的能力,提高美国陆军作为联盟、联合作战部队组成部分的有效性。
论文结构
0 引 言
1 统一数据参考架构
1.1 关键术语和定义
1.2 指导原则
2 数据网格
3 数据产品
4 数据域
4.1 定义数据域
4.2 数据域组成部分
4.3 角色与操作
5 服务活动描述
6 计算治理
7 支持作战任务
8 结 语
0 引 言
美国陆军当前的数据架构过于复杂,主要聚焦于数据移动和共享的网络、系统及消息协议方面。这种架构造成了过多的数据重复和数据保留,阻碍了数据共享和数据驱动的决策优势。美国陆军必须转变当前以网络、系统为中心的架构,成为一支以数据为中心的部队,更快地、按需地向决策者交付数据,进而加速任务执行并促使任务成功。
为应对这一挑战,美国陆军定义了统一的数据参考架构。该架构引入了数据网格原则来简化陆军数据架构,有望改进任务伙伴之间的数据产品共享,加速实现更大规模的数据驱动决策。
1 统一数据参考架构
该统一数据参考架构与《美国国防部数据战略》目标、美国国防部首席数字与人工智能官的数据网格方法、《美国陆军数据计划》以及《决策驱动的数据作战概念》保持一致,其主要特点包括:
(1)引入数据网格原则来简化陆军数据架构。
(2)纳入反馈机制来驱动数据产品内容并提升数据质量,以满足士兵对数据的需求。
(3)描述并定义了一系列服务,使用户自助地发现和使用数据产品。
(4)减少数据交换与特定传输方式的关联,可以支持所有梯队的所有网络,减少数据的重复和持久性存储。
(5)采用联合治理,自动地执行全局和局域的治理策略。
(6)分散数据产品的责任和权限,提高数据质量,扩展美国陆军在数据域之间共享数据产品的能力。
统一数据参考架构是一个概念,而不是一个系统或在案项目,但是它能够为在案项目及项目群、项目或产品经理提供指导,促进其设计并实施人员、程序、技术等方面的解决方案,加速美国陆军向作战人员交付所需能力。此外,美国陆军首席数字与人工智能官和陆军数据委员会负责该军种的数据治理组织工作和策略。该统一数据参考架构不会取代他们的策略与指导或与其相冲突,而是通过为数据网格原则的系统级实施提供指导,使美国陆军的数据治理更高效、更有效。特别是,计算治理能够使系统自动执行由特定数据治理机构制定的策略。
1.1 关键术语和定义
数据生态系统是人员、流程及工具的集合,用以生产士兵需求驱动的、相关域拥有的数据产品,促进数据分析,赋能决策优势。数据网格是一种基于联合、分散式的数据架构,用于分析性数据的生产、管理和共享。数据网格以联合治理、自助化服务基础设施平台为特征,它将数据视作产品并交付,是一个自治数据域。
数据域是具有特定职能的专业结构,它生产数据产品,与使用者共享信息,同时也可以使用由其他数据域生产的数据产品。一般由任务区域数据官确定该任务区域的数据域,并指定一名数据管理员对该数据域进行治理和策略控制。
数据集是相关数据项的集合,未经必要的综合处理和封装,无法在数据网格中使用。在统一数据参考架构中,一个数据产品团队可以使用其数据域所有的数据集及其他数据集来生产数据产品,以满足使用者的信息需求。数据产品是为满足使用者的任务或业务需求而制作的一套预封装数据和元数据集。数据产品应具备高质量、易使用、自描述和计算治理等特性。
网格服务是自动化服务的集合,用于数据产品的生产、使用、编排和可互操作共享。
数据平台是模块化开放系统技术和基础设施的集合,用于安全管理域内数据。数据平台使数据域能够生产、公开、检索和使用符合数据网格的数据产品。
终端用户设备是指挥官、参谋或士兵使用的个人计算机、工作站或者移动设备,用于获取和利用数据产品以支持决策。
1.2 指导原则
作为一种指导理念,统一数据参考架构的特点是由士兵驱动、相关域拥有。其目标是以数据产品为基础,加快人员、流程、技术和治理策略的运作节奏,实现更快的数据驱动决策并加快任务执行。该统一数据参考架构基于以下指导原则:
(1)信息和数据以可发现数据产品的形式在整个陆军体系中生产、交换与使用,符合可见、可访问、可理解、可链接、可信任、可互操作和安全性(Visible Accessible Understandable LinkedTrustworthy Interoperable and Secure,VAULTIS)目标。
(2)使用者通过自助化服务使用数据产品。
(3)数据产品的生产和托管是分散式的,而不是集中式的。
(4)生产数据产品的数据域拥有并控制数据产品的设计与模式。
(5)数据产品元数据与数据产品紧密结合,包括了发现、选择、检索和有效使用数据产品所需的所有信息。
(6)根据使用者的需求和反馈,生产和改进数据产品。
(7)为实现可互操作共享,数据产品在生产、使用和编排过程中需减少与传输的关联,以便支持各种网络。
(8)可以通过处理和聚合原始数据和(或)其他数据域产生的数据产品来生产数据产品。
(9)使用者不会持久化存储、复制或共享他们所接收的数据产品。然而,数据域可以创建由原始数据和上游数据产品衍生出的聚合数据产品。
(10)计算治理可实现数据治理策略的自动执行。
(11)服务解决方案采用模块化开放系统方法,基于应用程序编程接口的开放标准构建。这些原则并不是一成不变的,随着统一数据参考架构的更新,将有更多的原则被确定、定义、批准和执行。
2 数据网络
本章介绍了统一数据参考架构数据网格概念的关键职能、参与者及角色。在陆军数据架构应用数据网格概念时,关键参与者是决策者或指挥官,他们的需求是驱动数据产品的需求信号,确定明智决策所需的数据。为确保在陆军数据架构中高效、有效地应用数据网格原则,治理者(人类和计算机)是非常必要的。人类治理者在数据网格和局部数据域层面发挥作用,负责定义治理数据产品的策略。这些治理策略以机器可读的形式编码,使计算机治理者能够自动地执行策略。这些治理策略可以支持数据产品的生产、使用、编排,以及在整个数据生态系统中进行数据产品共享,它们被存储起来,并在必要时用于数据产品的发现和检索。
数据域既可以是数据产品的生产者,也可以是使用者。生产者数据域通常根据指挥官(决策者)确定的数据产品需求来生产数据产品,使用数据源的数据产品合成新的数据产品,供指挥官(决策者)使用。
数据网格服务的主要目标是在数据生态系统中支持数据产品的生产、使用、编排和可互操作共享。数据产品生产、使用及编排相关的服务和活动之间相互交互,实现数据产品的交换和使用,其主要流程如图1所示。
(1)识别数据产品需求。决策者需要利用数据做出明智的决策,促使其工作人员(使用者)启动流程来搜索数据产品,满足决策者的需求。
(2)生产数据产品。生产者数据域接收到对新数据产品的请求时,可以使用传感器数据流、存储的数据集、信息流及内部、外部数据域生产的现有数据产品来满足该数据需求。这些数据源和数据产品被收集、管理、转换并封装成新的数据产品。
(3)注册数据产品。生产数据域向“数据产品发现服务”注册该数据产品,同时对其进行编目以供潜在使用者后续发现。注册该数据产品并不会将数据产品转移到一个集中的位置。数据产品仍然保留在生产该数据产品的数据域中。注册该数据产品要提供便于数据产品发现的描述性元数据。
(4)发现数据产品。当使用者确定了对数据、信息的需求时,他们将启动流程从数据目录中发现数据产品。数据产品发现可能是自动化的(例如,使用人工智能或机器学习方法),也可以是手动的(例如,使用者按照标题、生产数据域、关键词或其他条件,对数据产品进行搜索或查询)。不管使用哪一种方式,使用者都将接收可能满足其需求的数据产品的元数据。同时,使用者在审查该数据产品时,如果对该数据产品满意,他便选定并开始检索该数据产品以供使用;如果现有数据产品无法让使用者满意,他便生成一个请求来获取新的数据产品,从而促使“生产数据产品”流程的开展。
(5)检索数据产品。数据域的数据平台、终端用户设备从数据产品的元数据所指定端点(在生产者数据域中)检索相关信息。
(6)使用数据产品。在收到数据产品后,该数据产品可以由数据域使用以合成新的数据产品,也可由终端用户用于情报分析、数据可视化和决策支持过程。新的数据产品随后被注册并共享以供使用。
(7)提供反馈。提供数据产品反馈对数据网格概念至关重要。当数据产品的质量不符合服务等级目标时,或者需要对数据产品进行改进时,使用者会告知生产者数据域。
(8)强调反馈。使用者提供的反馈由生产者数据域处理。反馈可能涉及质量、及时性或者其他数据产品需要改进、调整的特性。生产者进行数据域确定并采取合适的行动方案,以纠正数据产品、更新数据产品的服务等级目标或者增强数据产品价值。
3 数据产品
统一数据参考架构数据网格概念的一个关键原则是“数据即产品”。符合统一数据参考架构的数据产品包含3个组成部分,具体如图2所示。
(1)必要的元数据。旨在满足陆军数据服务要求并实现《美国国防部数据战略》VAULTIS目标。
(2)描述性字段。额外的、可扩展的字段,旨在提高数据产品的可用性、可发现性和计算治理能力。
(3)有效载荷数据。涵盖指挥官决策所需信息,使用者可直接从生产者数据域检索这些数据。
数据产品必要的元数据、描述性字段和有效载荷数据由数据域进行创建和维护。
数据产品与传统数据集的不同之处在于其附带的元数据及其管理方式,其生命周期由“产品化思维”驱动:
(1)满足或者超越使用者的需求。
(2)根据使用者的反馈进行维护和改进,如果发现数据产品存在问题,生产数据域可以将其召回。这是一种思维方式的转变,不再局限于将元数据附加到数据集并公开、共享该数据集。
数据产品可被决策者用于满足其即时需求,也可用于分析、可视化和(或)聚合到其他数据产品中。数据产品可能是分析或整理的数据子集、报告、文档、机器学习模型,以及其他支持决策的模式和形式的数据。数据域注册数据产品,以便用户可以直观地、自动地发现、理解、检索和获取数据产品并对其进行进一步的利用。数据产品使用开放标准和格式来公开数据,最大限度地提高跨数据域的互操作性。但是,在某些情况下,数据域可能会生产仅供其内部使用的数据产品,此类数据产品不会被注册,不被其他数据域发现和使用。
数据产品的特点如下:
(1)由数据域所拥有和生产,该数据域使用一个或多个数据源或数据产品,或者既使用数据源也使用数据产品。
(2)直接与数据用户、使用者共享。
(3)具备一系列可用性特征。
(4)具备独立性,拥有自己的生命周期和模型,这些生命周期和模型独立于其他的数据产品进行管理。
数据产品可能合并了不止一个数据域的权威数据产品。在这种情况下,输出数据产品归执行和管理该合并过程的数据域所有。
尽管数据产品的元数据会在一个目录中注册,以便支持数据产品的发现,但数据产品的有效载荷数据由生产数据域托管。每一个数据产品都可注册到数据产品目录,以便被发现。
4 数据域
4.1 定义数据域
如前文所述,数据域既可以是数据产品生产者,也可以是数据产品使用者。数据域的指导原则包括:
(1)拥有所生产的数据产品,定义该数据产品可供使用(例如,通过应用程序编程接口被使用)的可发布性和可访问性指标。
(2)负责管理、生产及维护其数据产品所需的资源(例如,人员、存储、计算、带宽和服务质量)。
(3)数据域治理、数据产品开发的角色(人员)由美国陆军首席数字与人工智能官“陆军数据治理角色与职责”备忘录定义。
数据域的4个关键职能如下:
(1)作为生产者,负责在数据产品的整个生命周期内创建和维护数据产品。
(2)作为使用者,发现数据产品,以各种分析、产品开发和可视化方式使用这些数据产品。
(3)进行数据产品治理,定义、执行数据治理策略并加强数据产品生产者中的数据质量。
(4)提供平台基础设施,为数据产品生产者和使用者提供一个数据平台,实现数据产品的发现、开发、治理和可观察性。
4.2 数据域组成部分
数据域包括以下4个组成部分:
(1)数据产品团队。数据域内的人员负责支持数据产品的生产和维护。数据产品团队的组织管理由数据域的数据治理机构决定。
(2)数据产品生产服务。为数据产品的开发、使用需求及计算治理提供支持。
(3)数据产品及其边界、接口。包括应用程序编程接口协议、输入端口和应用程序编程接口端点(输出端口)。
(4)数据平台。用于安全管理数据的基础设施和一系列模块化开放系统技术。数据平台使美国陆军能够生产、公开、检索和使用数据产品。美国陆军已经确定了若干经批准的数据平台(详见美国陆军数据平台指导备忘录)。
此外,数据域还要进行数据产品编排,如图3所示。数据域利用来自权威数据源和传感器的数据构建数据产品,或者使用其他数据域的数据产品,基于对聚合数据的专家分析来生产全新的数据产品。
4.3 角色与操作
统一数据参考架构在支持特定作战行动时涉及生产者、使用者和治理者3个主要角色。
以下罗列了生产者数据域和使用者数据域执行的操作,这2种角色支持数据网格治理的功能,使其遵从统一数据参考架构的数据网格原则。下列操作并不全面,只是生产者和使用者可能执行的典型操作。
生产者角色操作如下:
(1)通过审查请求,识别数据产品需求。访问数据产品发现服务。
(2)生产数据产品。
(3)查阅治理库,确保数据产品治理符合相关标准规范。
(4)注册数据产品,提供元数据和数据产品描述性字段。
(5)处理反馈。
(6)更新数据产品。
使用者角色操作如下:
(1)访问数据产品发现服务。
(2)发现数据产品。
(3)如果所需数据产品不可用,发起需求信号。
(4)遵循计算治理策略。
(5)检索经认定数据产品的元数据。
(6)检索数据产品。
(7)使用数据产品。
(8)提供数据产品反馈。
治理者角色的操作在第6节(计算治理)中进行讨论。
5 服务活动描述
本节确定并讨论了支持数据网格操作的一组自动化服务。这些服务在满足以下要求的情况下,能够促进数据产品的生产、使用、编排和互操作性共享。
(1)服务安全。访问控制、加密等。
(2)服务互操作性。与其他服务和数据产品、标准及协议之间的互操作性。
(3)服务可用性。服务的可用性和可靠性。
具体而言,统一数据参考架构主要包括以下6种服务:
(1)生产服务。是自动化活动的集合,使数据域能够准备、封装、推动注册(即发布)数据产品,使用者通过数据网格服务使用这些数据产品。
(2)使用服务。是一系列活动和工具的集合,使数据域和(或)终端用户(例如指挥官、作战人员或业务系统用户)能够使用和(或)合成数据产品。使用服务能够促进数据域和(或)终端用户发现和检索数据产品,促进数据可视化、数据分析、数据管理等过程,还可以在提供反馈以增加数据产品价值方面予以支持。
(3)编排服务。是生产者和使用者能够就数据产品进行交互的活动集合,包括为数据产品生产者接收、存储并更新数据需求。此服务在数据产品标识符生成之后注册数据产品,促进数据产品的发现。编排服务向使用者发送与数据产品相关的通知,存储数据产品使用和访问历史记录,实现查询使用度量,捕获并存储使用者反馈,提供一份关于所使用数据产品的反馈报告。
(4)应用程序编程接口代理服务。是一系列活动的集合,通过管理服务端点信息,为应用程序编程接口请求的处理提供支持,并将这些请求路由到不同数据产品端点。应用程序编程接口网关功能和策略为特定应用程序编程接口请求提供了域级响应。
(5)访问管理服务。是验证、认证和授权数据产品请求及响应的活动集合。访问管理服务可能包括强制执行数据产品策略(例如失效日期),它还包括为数据产品访问操作提供访问管理度量和访问管理审核功能,减少任何访问管理风险。
(6)计算治理服务。是一系列活动的集合,支持数据产品的自动化策略检查、监控和反馈,确保数据产品的安全、隐私、主权和互操作性。此外,计算治理能够帮助使用者数据域验证数据产品是否符合联合治理策略,同时强制生产者数据域管理数据产品的来源和谱系。
6 计算治理
统一数据参考架构将计算治理描述为通过应用计算方法来自动执行治理策略。计算治理强调在数字信息系统中应用算法,使策略的执行、验证和确认过程实现自动化。
数据域(由美国陆军首席数字与人工智能官和美国陆军数据委员会定义并授权,提供了治理策略)和统一数据参考架构计算治理网格服务,二者可协同促进数据治理的应用,进而在整个数据产品生命周期中实现问责制。
需要5个方面的计算治理行动来支持计算策略的执行:
(1)执行由美国陆军首席信息官 / 首席数字与人工智能官设置的全局控制、标准和策略的实施方案。
(2)通过实施“标准即代码、策略即代码、激励即代码、自动的脚本与测试”的方法,确保整个网格的一致性、互操作性与质量。
(3)自动化监控,即在数据的整个生命周期管理风险。
(4)酌情发送自动告警和通知。
(5)基于数据的使用,衡量网络的影响。
计算治理服务提供自动策略执行。结合数据产品元数据和描述性字段中列举的数据产品特征,计算治理可确保数据产品符合《美国国防部数据战略》中的VAULTIS目标,具体如图4所示。在数据网格(联合治理)和数据域层面批准的策略将采用计算治理服务来实施。当一项活动进入策略执行点时,就会触发针对该策略的策略决策点。
策略决策点是一个系统实体,负责为自身或其他系统实体的请求做出授权决定。策略执行点是请求并随后执行授权决定的系统实体。
计算治理如果检测到数据产品违反服务等级协议或服务等级目标时,将采取自动的默认行动或行为。数据网格层面或数据域层面可以单独定义和强制执行默认行动或行为,这2个层面也可以同时定义和强制执行默认行动或行为。
7 支持作战任务
美国陆军数据网格概念不会改变该军种开展行动的方式,而是根据陆军的训练和行动方式进行调整。该统一数据参考架构确定了加速任务决策所需的数据产品,具体如图5所示。
在作战任务区域,陆军围绕任务指挥、火力、情报、移动与机动、防护和保障等作战职能进行组织和作战。本文件描绘了一种概念化的陆军作战任务区域数据域结构,如图6所示。其中,生产者数据域是根据其作战职能和任务需求来组织的。
(1)任务指挥。是与作战力量相关的任务和系统,其目的是使指挥官能够同步和汇聚所有作战力量要素。
(2)移动与机动。是与部队移动和部署相关的任务和系统,其目的是获取相对于敌方和其他威胁的优势位置。
(3)情报。是帮助了解敌情、地形、天气、民事因素及作战环境等其他重要方面的相关任务和系统。
(4)火力。是与打击对手或敌人相关的任务和系统,其目的是在全域作战中创造聚合对敌打击效应,以支持在整个军事行动范围内开展行动。
(5)保障。是与提供支援和服务相关的任务和系统,其目的是确保行动自由、扩大作战范围并延长持续作战时间。
(6)防护。是与部队防护相关的任务和系统,其目的是使指挥官能够运用最大限度的战斗力来完成任务。
每个生产者数据域生成的概念化数据产品如下:
(1)任务指挥。指挥官的规划产品和态势估计,指挥官关键信息需求,知识管理规划,评估计划(实施衡量、效果衡量),警告指令、作战指令、简要指令,综合作战图形,通用作战图,演练(联合武装)。
(2)移动与机动。机动方案,任务组织,关键地形,组合障碍叠层,越野机动性,直升机着陆区,当前行动估计。
(3)情报。战场情报准备(战斗序列、弱点和特殊性、活动和能力、行动方案),收集计划,评估敌方重心和友军行动效果,高价值目标清单,威胁欺骗和拒止活动。
(4)火力。火力产品(高回报目标清单、目标选择标准、空域协调措施、空中任务指令),火力支持任务,野战炮兵战斗组织,火力支持协调措施,目标指示评估。
(5)保障。支援的概念,作战节奏所需基本物品的战斗配置负荷,分支部队或后续部队所需用品。
(6)防护。防护计划,威胁、危害和预防措施,关键资产清单、防御资产清单,空中和导弹威胁,后方区域安全、关键安全计划,作战安全措施。
8 结 语
此文件所定义的统一数据参考架构,引入了数据网格原则来简化美国陆军的数据架构,为美国陆军提供了理论性的框架与实施指南来促进数据交付、数据共享以及作战决策。随着美军所获取的数据量呈指数级增长,提升治理所有数据的能力是美军面临的最大挑战之一。自美国国防部2020年10月发布《数据战略》以来,自顶向下进行“以数据为中心”的改革已成为美军的必由之路。未来,美国陆军乃至其他军种可基于此统一数据参考架构,促进数据层面的集成、处理、利用与共享,进而加速联合全域指挥控制愿景实现。
作者简介
- 美国陆军负责采购、后勤及技术的助理部长办公室(U.S. Office of Assistant Secretary of theArmy for Acquisition, Logistics, and Technology,OASA(ALT)):根据《美国法典》第10编7016节而设立,是美国陆军部唯一负责采办职能的办公室,受陆军部部长的授权、指示和控制,于1998年5月成立。其核心任务是持续进行现代化建设,为联合作战及“陆军 2030”目标快速及时地开发并交付士兵所需能力,确保美军及其盟国和合作伙伴占据陆地、网络空间域的优势地位。
- 美国陆军首席信息官办公室(Office of theUS Army Chief Information Officer):负责全面监督信息管理,旨在为2030年数字化陆军目标开发颠覆性技术,支撑联合多域作战。该办公室的职能包括信息技术政策、云技术和信息技术治理、信息资源管理(涉及支撑全球范围美国陆军作战的信息技术、信息技术体系架构、网络安全政策等)。