面向数字孪生战场的智能体建模框架构建

1年前浏览6038

本文来源：防务快讯

作者：吴云超等

摘要：

针对现有军事对抗推演平台缺乏智能算法训练支撑能力的问题，分析了智能博弈技术的需求以及游戏对抗领域对智能决策问题的实现方法，研究了面向数字孪生战场的仿真数据模糊化以及任务分解等技术，构建了面向强对抗孪生战场的决策智能体建模框架，设计了数字孪生战场决策模型输入和输出层模型结构，为数字孪生战场中智能决策模型训练研发提供参考。

0 引言

随着“云物大智”等新技术的飞速发展与应用，数字孪生（digital twin）概念在制造业中应运而生，为制造业向更高的信息化阶段发展描绘了远景蓝图。数字孪生指利用物理模型、传感器更新和运行历史等数据，集成多学科、多物理量、多尺度和多概率的仿真过程，在虚拟空间中完成映射，从而反映相应的实体装备的全生命周期过程。

数字孪生的核心理念和模式引入军事领域尤其是战场建设领域，催生了数字孪生战场的概念。数字孪生战场的核心是对真实作战环境的逼真模拟，进而基于孪生战场中的超实时推演，预测真实战场未来可能的变化，从而为作战决策提供依据。为实现上述目标，需构建作战实体的行为决策模型。与对抗性弱和边界明确的工业应用环境不同，军事作战场景具有强对抗性与高度不确定性，边界条件不清晰，采用传统的规则式建模方法无法覆盖所有可能情况，因此需采用智能化方法构建具备自主决策能力的行为模型，从而在规则无法覆盖时，通过基于态势的自主研判与自主决策，逼真模拟实战中的作战决策。

智能博弈技术以强化学习为主要技术途径，通过构建虚拟对抗环境以及博弈智能体模型，进而在对抗环境中通过智能体产生的反馈信息来进行模型的自主决策能力的学习优化。近年来，智能博弈技术发展迅猛，在星级争霸2和Dota 2等实时策略对抗游戏中战胜人类职业选手，并且在军事领域的单机空战虚拟对抗中战胜了人类飞行员。因此，利用智能博弈技术解决军事自主决策问题是可行的。

智能博弈技术以强化学习为主要技术途径，先构建虚拟对抗环境，再对博弈智能体模型进行构建，进而在对抗环境中通过智能体产生的环境反馈信息来进行模型的学习优化。

本文聚焦数字孪生战场中的实体行为智能决策模型构建问题，提出了面向强化学习的智能体建模框架。首先，介绍了数字孪生战场的概念及其发展现状；然后，分析了基于智能博弈的行为决策技术的发展及其在数字孪生战场中应用面临的问题；接着，提出了智能体建模框架；最后，对智能博弈技术在数字孪生战场中的应用前景进行了展望。

1 数字孪生战场

数字孪生战场（digital twin battlefield）是数字化战场的高级阶段，是融合了感知控制技术、人工智能（AI）技术、建模仿真技术和数据融合技术于一体的智能化战场目标愿景，其本质是一个战场建设数据闭环赋能体系。

数字孪生战场是在数字孪生、平行仿真和AI等新技术推动下产生的新事物，是一个与真实战场指挥信息系统平行运行的逼真的虚拟环境或仿真镜像系统。数字孪生战场通过与战场指挥信息系统的互连和信息交互，持续获取最新的战场情报信息，建立战场实体仿真模型，并基于持续更新的战场情报信息，不断演化修正战场实体模型以及不断优化数字孪生战场的逼真性；通过数字孪生战场中战场实体模型的超实时仿真运行，不断对敌方目标可能的作战意图和行为做出判断，生成下一时刻的战场态势演化走向并反馈给真实战场指挥信息系统，循环往复，辅助指挥员通过透视未来、料敌先机及防患未然来提前做好应变准备，为态势预测和决策方案评估等指挥信息系统作战应用提供支撑。

随着高超武器、太空武器和无人集群等新质作战力量的不断发展，无人战、精确战和网络战等作战样式不断涌现，使得战场变化越来越快、作战行动越来越精准以及时空切换越来越频繁。上述发展趋势下，数字孪生战场的意义主要包括以下3点：

1）更逼真的实战模拟，以准取胜。实时引接真实战场数据，建立随态势数据逐步逼真的全维立体的虚拟战场。通过对战场环境模型与实体模型的精细化建模与动态演化，逼真模拟实战中战场态势由模糊到精确的动态演变过程；数字孪生战场中的实体行为模型具有智能决策能力，可根据不同环境自主选择最优决策行为，逼真模拟实战中敌方的智能决策能力。通过对环境、装备和作战行为的逼真模拟，支撑对态势和作战计划的精准判断。

2）更全面预知优选，以奇取胜。通过超实时推演，预测战场未来情形，更全面支撑战场走向分析和作战方案评估。基于超实时多分支仿真推演，对各类可能情形进行超实时并行推演，提前预测方案执行效果以及敌方所有可能采取的行为，既可支撑指挥员对最坏战场走向的预知并及时扭转战局，又可在指挥员选定作战方案时对所有敌方应对进行推演，分析挖掘可带来优势的奇招。

3）更高效推演预测，以快取胜。充分发挥机器的计算优势，为作战指挥控制能力带来颠覆性的速度提升。基于高性能的计算资源，对全要素的战场进行高倍速的博弈对抗推演和超实时的态势演化预测，在极短时间内完成对海量预测分支的推演与数据分析，支撑实时态势研判与指挥决策，在未来以决策为中心的作战场景中获取速度优势。

2 基于智能博弈的行为建模

2.1智能博弈技术需求分析

数字孪生战场构建的核心问题之一是数字实体模拟的逼真度问题。对数字孪生战场实体模拟主要分为2个部分：

1）实体的物理特性和逻辑关系等客观因素；

2）实体的行为策略。本文重点讨论实体的行为策略问题。

在数字孪生战场实体行为模拟方面，国内目前采用规则建模+实时数据动态驱动的方式，根据实时输入的真实对抗态势，动态修正虚拟对抗环境中的实体状态与行为。但目前蓝方模型大多基于规则驱动，缺乏自主决策能力，导致在红蓝对抗过程中，必须预先设置固定的剧本来驱动蓝方模型决策，才能完成整个对抗过程。这种剧本预设的对抗方式只能覆盖有限的对抗情形，无法逼真模拟复杂强对抗战场环境中的各种敌方应对行为及突发情况。

例如，对于红方进攻计划，蓝方模型仅能各自划定防御区域进行防守；对于红方防守计划，蓝方模型仅能基于计划预设的来袭位置、来袭航路和攻击方式等进行攻击。上述数字孪生实体行为模拟方法无法准确模拟复杂对抗条件下的对手决策与行动，由于存在时间上滞后性问题，只能对真实作战过程进行回放，故无法支撑指挥员快速、准确和全面预估方案效果。

随着第3次人工智能技术革命浪潮的到来，以机器学习为助推器的AI技术呈现出向人的思维和学习模式接近的趋势，新兴智能化技术在解决数字孪生战场实体行为问题上初现端倪。随着智能决策模型先后在星际争霸2和空战格斗等战术级对抗中战胜人类选手，宣告计算机解决实时策略博弈，特别是强对抗博弈决策的问题取得突破性进展。目前，智能博弈技术已进入一个高速增长期，成为一项公认的最优可能改变未来时间的技术，为数字孪生战场实体智能建模问题的突破带来曙光。

2.2典型实时决策

智能体建模技术分析

实时策略类游戏（RTS）作为一种典型的电子游戏，本质上是对军事对抗的简化模拟，具有以下与军事对抗相似的特征：对抗中存在战争迷雾，仅能获取不完全信息；多兵种的大规模协同对抗而非单兵种对抗；长时对抗，需通过长期规划不断积累优势。因此，RTS通常作为作战对抗算法的试验台。

目前，RTS主要包括星际争霸2、Dota2、英雄联盟和王者荣耀等游戏。2019年1月25日，AlphaStar首次公开亮相，5∶0的战绩击败了职业星际争霸2选手。AlphaStar采用深度强化学习技术，通过游戏自博弈训练，突破了实时决策和战争迷雾等AI即时决策难题。2019年4月，OpenAI公司的AI程序在Dota2游戏中击败人类顶级玩家，成为第1个在多人对抗电子竞技游戏中击败世界冠军的AI系统；与英雄配置固定的OpenAI相比，王者荣耀中的绝悟AI则更近一步，成为第1个不限制英雄配置的AI系统，并于2019年8月首次击败人类职业选手。典型RTS博弈问题解决方案框架如图1所示。

图1 典型RTS博弈问题的解决方案框架

1）星际争霸2：AlphaStar

AlphaStar将星际分解为顶层策略推理、中层战术管理和底层动作控制3级决策任务。其中，顶层策略推理采用长短期记忆（LSTM）网络模拟人类记忆过去局势变化进而预测战场的能力，决定建造/升级哪些建筑、出动哪些兵种以及何时做哪些事情；中层战术管理决定战斗单位如何编组以及如何部署等问题；底层动作控制用于处理战斗相关的微观操作。AlphaStar使用注意力（information）机制，基于当前观测状态和对手策略，推测迷雾下对手的可能状态，从而构建较完整的敌我态势信息，并在此条件下开展决策，从而使得智能体具备利用有限信息做出战略决策的能力，实时有效地应对不可预见情况，成为一个解决非完美信息下的博弈对抗游戏虚拟指挥官。AlphaStar决策思路如图2所示。

图2 AlphaStar决策思路

2）王者荣耀：绝悟AI

绝悟AI基本结构包含模型输入、模型和模型输出3个部分，其输入和输出均采用分层决策架构。模型输入考虑空间、单元体状态、游戏内统计数据以及未知敌人信息4类要素，这4类要素分别输入4个小网络中进行单独处理并输出。模型输出采用层次化动作标签进行动作执行，分为以下2类动作标签：第1层意图标签包括移动、攻击和技能等行动意图；第2层动作标签则将第1层意图细化为行动位置与行动目标来进行动作执行。绝悟AI神经网络架构如图3所示。

图3 绝悟AI神经网络架构

分析可知，当前游戏领域实时决策智能体采用的共性技术包括以下2类：1）采用分层决策方法，先将决策问题分为不同层级，再针对不同层级的问题进行针对性建模，从而降低整体决策复杂度；2）采用模型输入、模型处理和模型输出3级网络架构进行模型构建，并针对不同的输出及其输出信息特征，选择合适的网络模型，从而提高决策质量。

2.3应用难点分析

与边界条件清晰和目标明确的策略对抗游戏相比，军事对抗场景的不确定性更强，因此智能博弈技术解决军事决策问题时主要面临以下挑战：

1）战役级对抗具有的庞大决策空间导致算法求解困难。星际争霸2的兵力上限仅为200 vs 200的规模，虽然算法复杂度达1016，但也远小于战役级对抗的复杂度。在对抗时间长达数十小时的战役级博弈决策场景中，指挥员需面对未知的敌方策略，对数百个实体进行指挥控制。该场景中，直接构建单个指挥员级的神经网络进行指挥控制是不可能完成的任务。因此，需采用分段优化和分层决策架构等技术，实现具备长程决策与临机应变能力战役级博弈决策智能体。其中，分段优化技术对战役级场景进行阶段性划分，分段定义优化目标，指导智能体进行多阶段优化计算；分层决策架构技术对智能体的决策链路进行层次化分解，从而降低每层决策空间的复杂度。

2）缺乏适应智能博弈算法训练需求的边界条件可模糊的虚拟对抗环境。现有虚拟对抗环境大多是针对特定领域的推演评估和模拟训练等任务，无法动态调整场景边界和仿真模型粒度，而阶梯式逐层构建由简到繁的仿真环境，可满足智能体能力从零开始、由简到繁的课程学习式训练模式。

此外，智能博弈技术在数字孪生战场应用中还面临对抗样本缺乏、决策反馈函数难以界定以及决策合理性难以解释等挑战。

3 智能体模型框架设计

面向数字孪生战场的智能体模型框架如图4所示。数字孪生战场构建包含实体特性建模与行为模型建模，本文重点讨论行为模型建模中的智能体模型构建与训练。

图4 面向数字孪生战场的智能体模型框架

3.1任务级博弈智能体指令分解架构

指挥员在数字孪生战场中对抗推演的动作空间较大，AI每次决策有成百上千种可能的操作，若将动作空间展平成一个单一的维度，将有数百万甚至数十亿个可能的动作，但由于作战指挥中的动作是高度相关的，其中大多数的可能动作均是无效的。因此，采用扁平的离散动作空间表示是不合适的。可参照AlphaStar，创建丰富的操作函数，基于C样式的函数调用，接受特定类型的一些参数来提供动作空间的可组合性。在框架接口中定义完整的操作函数集和参数有效类型，在每次观测中指定某类可用函数在当前操作中有效。

与战役战术层的作战决策相比，AlphaStar是面向交战的或简单的战术行动，单个智能体控制的单位数量不超过200个，其应用场景与作战最大的区别是决策复杂度量级不同。考虑到作战决策可根据不同指挥关系分为不同层级的决策模型，因此在每个层级采用与AlphaStar相似的决策序列预建模方法来降低智能体的决策复杂度的方法是可行的。作战决策模型层级划分如图5所示。

图5 作战决策模型层级划分

战役战术级博弈对抗AI算法在较高层次以任务级指令对战场作战实体进行指挥控制，因此要求仿真引擎能够将AI任务指令分解为作战实体仿真模型能够执行的指令，并分发给相应的仿真模型进行计算。对于战役决策与计划，一般采用基于案例的规划、分层规划（行为树）、目标自主驱动、状态空间规划、进化算法、演绎推理和概率推理等方法；对于战术决策，可采用恢复性学习、贝叶斯模型、基于案例的推理和神经网络等方法。以基于行为树的建模方式实现为例，AI控制任务指令用行为树的根节点表示，仿真模型控制指令用行为树的子节点表示。行为树模型表示的AI控制任务指令分解示意图如图6所示。

图6 行为树模型表示的AI控制任务指令分解示意图

图6中，行为树模型的运行从根节点开始，对海侦察探测、锁定目标和对舰打击为顺序节点，表明执行完成后会沿箭头方向继续执行序列中的其他子节点；武器选择为选择节点，表明从该节点的子节点选择一个执行，而子节点执行成功则表明选择节点执行成功；“直到：目标被摧毁”为修饰节点，用于增加子节点的复杂性和能力，表明执行对舰打击指令直到目标被摧毁。此外，行为树还包括用于表明所有子节点同时运行的并行节点、无下级子节以及表示完成具体操作的行为节点等。

行为树可提供大量的流程控制方法，使得AI控制任务指令分解更直观。与有限状态机方法相比，树形结构设计易于指令分解的查看与编辑，因此更适合于描述AI控制任务指令到仿真模型控制指令的分解过程。AI控制任务指令分解执行流程如图7所示。

图7 AI控制任务指令分解执行流程

3.2智能决策模型建模框架

面向数字孪生战场的智能决策模型主要包含联合任务级、对抗行动级以及单体武器平台行动级3级智能决策模型。其中，联合任务级包括联合对抗中的侦察预警和火力支援等智能决策；对抗行动级涉及实体编队的编队侦察、编队突击和编队防空等智能决策行为；武器平台级对飞机、舰艇和装甲车辆等武器装备进行航路规划和目标选择等决策。

智能决策模型建模框架可为数字孪生战场智能决策模型研发人员提供标准化的智能体开发与设计接口，基于智能体建模框架，研发人员可使用标准的算法接口自定义强化学习算法组件，根据标准的接口设计战场态势表征、决策动作空间、模型网络结构和反馈评估函数等关键组件，并对各组件进行装配，从而完成智能博弈模型的构建。本文对面向数字孪生战场的决策模型输入层与输出层进行了构建。

1）面向数字孪生战场的决策模型输入层

针对数字孪生战场面临的态势情况，拟构建由单位特征、空间特征和通用特征组成的神经网络输入层。其中，单位特征通过深度自注意力网络（Transformer）提取单位与单位之间的关系；空间特征通过残差网络（ResNet）提取空间关系；通用特征采用神经网络进行标量特征（Scalar）提取。将上述3类特征合并后通过LSTM网络对历史信息进行提取，从而构建面向数字孪生战场的决策模型输入层。面向数字孪生战场的决策模型输入层结构如图8所示。

图8 面向数字孪生战场的决策模型输入层结构

（1）数字孪生战场态势单位特征：包含红蓝双方坐标、军别、作战实体类型（歼击机、轰炸机和预警机等）、速度、航向、损毁情况、剩余弹药、是否被锁定以及当前执行任务等要素。

（2）数字孪生战场态势空间特征：基于当前作战场景的单位信息特点，提取和抽象相关信息，构建敌方对空威胁矩阵、敌方对海威胁矩阵、敌方对地威胁矩阵、敌方单位位置矩阵和我方单位位置矩阵等，从而对信息推断进行再处理。

（3）数字孪生战场态势通用特征：包含对仿真推演时间以及各兵种剩余数量等要素。

2）面向数字孪生战场的决策模型输出层

数字孪生战场决策场景具有力量多样的特点，想定场景非常复杂，敌我双方各需调度数十个单位，其中每个单位有不同任务指令。若将神经网络的决策输出精确到每个单位的任务指令，则决策空间会变得非常大，从而导致数字孪生战场决策模型训练速度越来越缓慢。为支持不同单位执行各种类型任务，考虑到数字孪生战场决策任务的核心不是对单个作战实体的操作，而是指挥员对作战兵力调度的考验，拟将数字孪生战场决策智能体输出构造为指挥员可理解的三元组<谓语，主语，宾语>结构。其中，谓语为各种专家战术策略任务；主语为包括歼击机、轰炸机、预警机和干扰机在内的不同类型单位；宾语为任务的主要参数。面向数字孪生战场的决策模型输出层中，采用注意力机制进行谓语和宾语选择，采用指针网络进行主语选择。表1给出了智能体决策模型网络输出示例。

表1 智能体决策模型网络输出示例

3.3仿真数据模糊化

由于虚拟仿真环境和真实作战环境不完全一致（包括真实数据少、数据特征缺失以及仿真参数不完备等情况），在仿真环境中构建和优化的数字孪生战场决策模型在实际战场中存在模型表现降级的问题。因此，需研究一种具备由仿真环境向实际环境迁移能力的决策模型构建与优化技术，缩小虚实两域的系统性动态差距，实现数字孪生战场决策模型在虚实两域的策略泛化。

针对如何设置模糊边界条件，形成满足配智能体训练需求的不同粒度环境的问题，本文研究了仿真数据模糊化处理方法。首先，建立一套支持随机化仿真的模型，采用对仿真环境数据域随机化方法，扩大仿真环境数据分布，使扩大后的仿真环境数据分布尽可能覆盖真实对抗环境数据分布，并模拟实战环境中的边界条件模糊的情况；然后，利用由仿真数据模糊化模型生成的大数据对数字孪生战场决策模型进行预训练；最后，通过真实作战环境中少量数据对决策模型进行针对性提高，从而实现决策模型虚实迁移能力。仿真数据模糊化数据概率分布空间如图9所示。

图9 仿真数据模糊化数据概率分布空间

由于孪生战场环境与真实对抗环境存在差异化特性，本文从以下4个域进行随机化处理：

1）态势特征随机化：指在态势特征的各个维度加入随机扰动，增加仿真环境中可观测态势特征的多样性，从而降低仿真环境生成的数据和真实作战数据的差异度。

2）识别效能随机化：指对可观测的态势信息进行模糊化处理，对不稳定态势信息（如双方电子对抗产生的信息）进行模拟，从而提高决策模型在识别性能不稳定情况下决策的鲁棒性。

3）模型参数随机化：指对决策模型的神经网络参数中加入随机化参数。例如，在高并发的仿真数据采样过程中，在决策模型的参数中加入扰动，以提高决策模型在对抗推演中数据的多样性。

4）指令生成随机化：指在决策模型的决策指令采样阶段调整决策指令的采样分布，以实现对决策模型探索率的调整。通过提升探索率，在训练过程中尝试一些次优的决策指令，从而探索多样性决策序列下非常规的对抗推演结果。

将上述4种类域随机化进行组合，可在一定程度上模拟真实环境的边界不确定性，从而提高智能决策模型对动态变化的边界约束的适应性。基于仿真数据模糊化的智能体训练学习过程中，若域随机化数据分布变化过大，则会导致智能体收敛优化困难；若域随机化数据分布变化过小，则不利于智能体对环境变化的适应性的维持。因此，需采用自主域随机化方法，即在产生域随机化数据过程中，基于策略模型在真实作战环境数据上表现性能的好坏，对域随机化数据的分布进行自动调整，并基于该分布采样数据对处置策略模型参数进行更新。

基于仿真数据模糊化的智能体训练学习中，通过自主域随机化对策略进行更新训练，可使迁移得到的策略具有更好的泛化性能。

将4种不同形式的域随机化，会导致智能体更新学习效率降低。因此，需采用基于课程学习的方法，实施由1种域随机化到多种域随机化的渐进式学习方案。为提升虚拟孪生战场环境训练的智能体对多边实战环境的适应能力，本文提出了基于课程学习的自主域随机化学习方法，其示意图如图10所示。该方法具体内容为：在域随机化更新策略的初始阶段，只对态势数据进行域随机化处理，在态势域随机化情形中待处置策略更新收敛后再对态势数据和识别效能进行域随机化，以此类推，直至智能体可在同时采用4种域随机化的环境中更新收敛。

图10 基于课程学习的自主域随机化学习方法示意图

4 结束语

当前马赛克战、有人/无人协同作战和蜂群作战等新型作战概念与作战样式不断涌现，无人和秒杀等智能化战争的作战特征正加速形成，对抗态势充满迷雾、作战进程显著加快且作战力量多元一体，急需构建数字孪生战场，以智能化的技术和手段辅助作战人员透析未来战场各种可能，在有限的时间窗口内精准研判与谋划。本文分析了数字孪生战场对智能博弈技术的需求，设计了智能体建模框架，分析了智能博弈技术军事场景应用面临的问题及其技术方法。目前，智能博弈技术仍处于初级智能的发展阶段，尚不具备逻辑推理能力，无法对输出行为决策做出合理解释，后续需对智能博弈技术的实战化应用进行深入研究。

本文发表于《指挥信息系统与技术》2022年第4期