灾后如何最优化恢复？新论文：基于多智能体强化学习的韧性社区灾后恢复决策支持模型

11月前浏览2997

DOI : https://doi.org/10.1016/j.ress.2023.109754

太长不看版

自然灾害发生后，决策者应该在资源有限的情况下对于修复顺序制定合理的决策，以确保社区的韧性恢复，然而社区的基础设施系统是相互依赖的，维修恢复的随机调度是一个具有巨大决策空间的复杂控制问题。本研究提出了一种新的决策支持模型来确定最优的恢复策略，以提高抗灾韧性。

首先开发了一个模拟环境，包括灾害强度评估、部件损坏评估、系统恢复模拟和韧性量化。该框架利用图论来表示不同系统之间的相互依赖关系，并将异质图神经网络集成到该框架中来提取整个社区的拓扑结构和相互依赖信息。考虑到修复过程的不确定性，采用多智能体深度强化学习算法训练神经网络逼近最优的修复策略。以清华大学校园为例，在考虑不同决策目标的情况下，验证了该方法的优越性和有效性。最后使用迁移学习降低计算开销，以实现快速决策。

01研究背景

在社区中，关键基础设施系统（如供水系统、供电系统和交通系统）协同运行，为建筑群落的居民提供生活保障。一个基础设施系统的正常运行可能依赖于其他基础设施系统的组件，因此如果地震发生，这些相互依赖关系可能引起级联失效，增加了组合系统的整体脆弱性。

近年来，抗灾韧性受到大量研究者的关注，韧性的概念可以被描述为系统抵抗和吸收灾害的影响并迅速恢复到一定功能的能力，相关研究提出了从定性到定量的各种方法来量化城市韧性，这些方法的核心是计算系统的初始破坏状态和恢复轨迹，之前课题组提出了城市弹塑性时程分析模型可用于评估地震后的初始破坏状态，但是灾后如何更好的进行维修恢复工作还缺乏探索。因此本文的中心点在于灾后恢复问题。

图1 韧性曲线

02方法框架

图2 方法框架

2.1 模拟环境的构建

强化学习无需事先准备训练数据，它主要通过智能体（agent）与模拟环境交互，在试错中学习，从而实现特定的目标。

因此本文首先搭建了社区受灾恢复的模拟环境，该环境使用地面运动预测方程模拟地震场景，得到地震的峰值速度和加速度。然后通过易损性曲线分析各类组件的破坏情况。根据破坏情况，计算各类构件恢复所需时间，考虑恢复时间的不确定性，将其建模为截断对数正态分布。根据维修单位的派遣情况，模拟社区的恢复轨迹，进而计算得出社区整体韧性指标。

图3 模拟环境

2.2 相互依赖关系的表征

因为各类基础设施的相互关联依赖，需要手段可以有效提取相关信息供后续使用。本文采用异质图神经网络来提取相关特征，图结构中每个节点包含目前该构件的破坏状态，功能状态和维修状态等信息，图结构中的每条边表示两个节点之间的关联关系。

图4 供水和供电系统的循环依赖关系

2.3 基于多智能体深度强化学习的最优决策

我们将最优决策问题建模为多智能体协作的马尔可夫决策过程：在t时刻，每个智能体根据环境的观测状态做出自身的维修决策，将该决策输入到模拟环境中，环境根据决策进行社区恢复的模拟计算，进入t+1时刻，并给出该时刻的观测状态，此时模拟环境会给每一个智能体一个奖励，奖励越大说明该时间步下的决策越优。一段时间后，所有智能体更新自身的策略网络参数，以实现奖励的最大化，奖励根据实际决策目标进行定义。每个智能体的策略均使用一个神经网络进行近似，该网络输入一个观测状态，输出所有可能决策结果的概率分布，再通过随机采样得到该时刻的决策结果。