首页/文章/ 详情

灾后如何最优化恢复?新论文:基于多智能体强化学习的韧性社区灾后恢复决策支持模型

1年前浏览3253

DOI : https://doi.org/10.1016/j.ress.2023.109754

太长不看版



自然灾害发生后,决策者应该在资源有限的情况下对于修复顺序制定合理的决策,以确保社区的韧性恢复,然而社区的基础设施系统是相互依赖的,维修恢复的随机调度是一个具有巨大决策空间的复杂控制问题。本研究提出了一种新的决策支持模型来确定最优的恢复策略,以提高抗灾韧性。

首先开发了一个模拟环境,包括灾害强度评估、部件损坏评估、系统恢复模拟和韧性量化。该框架利用图论来表示不同系统之间的相互依赖关系,并将异质图神经网络集成到该框架中来提取整个社区的拓扑结构和相互依赖信息。考虑到修复过程的不确定性,采用多智能体深度强化学习算法训练神经网络逼近最优的修复策略。以清华大学校园为例,在考虑不同决策目标的情况下,验证了该方法的优越性和有效性。最后使用迁移学习降低计算开销,以实现快速决策。

01研究背景


       在社区中,关键基础设施系统(如供水系统、供电系统和交通系统)协同运行,为建筑群落的居民提供生活保障。一个基础设施系统的正常运行可能依赖于其他基础设施系统的组件,因此如果地震发生,这些相互依赖关系可能引起级联失效,增加了组合系统的整体脆弱性。

       近年来,抗灾韧性受到大量研究者的关注,韧性的概念可以被描述为系统抵抗和吸收灾害的影响并迅速恢复到一定功能的能力,相关研究提出了从定性到定量的各种方法来量化城市韧性,这些方法的核心是计算系统的初始破坏状态和恢复轨迹,之前课题组提出了城市弹塑性时程分析模型可用于评估地震后的初始破坏状态,但是灾后如何更好的进行维修恢复工作还缺乏探索。因此本文的中心点在于灾后恢复问题。

图1 韧性曲线

02方法框架


图2 方法框架


2.1 模拟环境的构建

       强化学习无需事先准备训练数据,它主要通过智能体(agent)与模拟环境交互,在试错中学习,从而实现特定的目标。

       因此本文首先搭建了社区受灾恢复的模拟环境,该环境使用地面运动预测方程模拟地震场景,得到地震的峰值速度和加速度。然后通过易损性曲线分析各类组件的破坏情况。根据破坏情况,计算各类构件恢复所需时间,考虑恢复时间的不确定性,将其建模为截断对数正态分布。根据维修单位的派遣情况,模拟社区的恢复轨迹,进而计算得出社区整体韧性指标。

图3 模拟环境


2.2 相互依赖关系的表征

       因为各类基础设施的相互关联依赖,需要手段可以有效提取相关信息供后续使用。本文采用异质图神经网络来提取相关特征,图结构中每个节点包含目前该构件的破坏状态,功能状态和维修状态等信息,图结构中的每条边表示两个节点之间的关联关系。

图4 供水和供电系统的循环依赖关系


2.3 基于多智能体深度强化学习的最优决策

       我们将最优决策问题建模为多智能体协作的马尔可夫决策过程:在t时刻,每个智能体根据环境的观测状态做出自身的维修决策,将该决策输入到模拟环境中,环境根据决策进行社区恢复的模拟计算,进入t+1时刻,并给出该时刻的观测状态,此时模拟环境会给每一个智能体一个奖励,奖励越大说明该时间步下的决策越优。一段时间后,所有智能体更新自身的策略网络参数,以实现奖励的最大化,奖励根据实际决策目标进行定义。每个智能体的策略均使用一个神经网络进行近似,该网络输入一个观测状态,输出所有可能决策结果的概率分布,再通过随机采样得到该时刻的决策结果。

图5 决策神经网络

03案例分析


       我们选取熟悉的清华园为例进行模拟分析,假设发生八级地震,震中距离清华园约4.3km,园子内的各类基础设施发生不同程度的破坏,如下图所示。

图6 初始破坏状态
(以清华园为基础模板,相关设施分布已做调整,用于验证研究)


       通过我们提出的决策算法计算得到的恢复曲线与其他传统决策方法的对比如下,可以看出我们的算法决策实现了最高的恢复韧性和较短的计算时间。

图7 恢复曲线


表1 韧性指标和计算时间对比


不同算法得到的社区恢复动态过程对比如下图所示:

图8 不同决策算法的动态恢复过程


       最后我们基于迁移学习进一缩短计算时间,利用先验的学习权重进行训练可在10分种内完成训练,有助于实现灾后的快速辅助决策。我们计算了50个不同随机采样下的恢复曲线和韧性指标,结果表明整合迁移学习的决策框架相比其他算法实现了最优的决策表现,并兼顾了计算效率。

图9 不同随机采样的韧性指标

图10 不同随机采样的恢复曲线

04小结


       本论文提出了一种基于多智能体强化学习的灾后恢复辅助决策模型,相比其他决策算法,该方法实现了更优秀的决策表现,有助于社区灾后的韧性恢复,同时基于迁移学习技术,该方法可以实现灾后的快速决策。在此,我们诚挚地邀请各位专家和读者对我们的研究进行批评和指正。


END

来源:陆新征课题组
振动非线性化学建筑BIMOpensees材料科普数字孪生控制试验人工智能
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2023-12-02
最近编辑:1年前
地震那些事
博士 抗震防灾数值模拟仿真
获赞 52粉丝 56文章 563课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈