新发明专利：一种将规范文本自动转为可计算逻辑规则的方法及系统

2年前浏览1393

转载自公众号《智能土木ABC》

0 太长不看版

让计算机读懂设计规范是智能审图、智能设计等工作的基础。本发明提出了一种将规范条文自动翻译为计算机代码的方法，对简单句能达到99.6%的解析准确率，对复杂句能达到90.2%的解析准确率。

1 专利概述

本发明属于建筑业与信息技术交叉领域，为一种基于自然语言处理（NLP）的自动规则转换方法，能够将文本形式的规则（如工程标准、法规、规范条款）自动转化为计算机可自动计算、推理的逻辑代码，可以用于智能审图、智能设计、法规智能等场景。

本发明针对现有规则转换方法自动化程度低、通用性与扩展性低等不足，首先提出了一种树形结构和语义标签，用于表示模型与规范要求中概念的层次结构与关系。接着，引入了深度学习模型，通过为句子中的每一个词语分配语义标签来识别句子中的语义元素。最后，定义了一组上下文无关文法（Context-free grammar，CFG），将带有语义标签的句子解析为树结构，从而可以生成用于逻辑推理的代码。

2 背景与现有技术

建筑环境的整个生命周期受各种规范，要求和标准支配。手工进行合规性/规则审查的流程既耗时，成本高昂又易于出错。作为手工检查的替代方案，自动规则审查能极大地促进建筑，工程和施工行业的设计过程。在规则审查过程中，最重要且最复杂的阶段是规则解译，即将文本形式的规则转化为计算机可处理的格式。因此，许多研究提出了自动化或半自动化的方法进行规则转换以支持自动规则审查。

然而，这些研究中所提出的方法仍然存在局限性：它们无法同时实现理想程度的自动化和可扩展性。半自动方法易于理解，适用范围广，但仍需要大量的人工来编写查询语言、伪代码，或标记规范文档等；因此其自动化程度较为低下。对于（全）自动化方法，其大量依赖基于正则表达式的匹配模式，这也是一种对映射规则进行硬编码的方式。实际上，正则表达式的表达能力较低（如无法表达递归）很容易导致其使用数量的增加（如需要使用大量的正则表达式才能表示一个简单的规则），并变得难以维护。因此，当前的自动化方法通用性与可扩展性较低，即适用范围难以拓展。

3 专利发明内容

3.1 整体框架

本发明所提出的自动规则转换方法，通过以下四个步骤将规范文本转换为计算机可处理的格式，其框架如图1所示。

预处理。此步骤从规则文本中选择出可以转换的句子，并对其进行预处理，例如句子分割。
语义标注。此步骤给句子中的词或短语加上标签以表达语义信息，其中的语标签能够表示与BIM及规则相关的概念。标注方法为使用神经网络模型通过 BIO格式进行序列标记。语义标注结果可通过计算句子中每个标签的F1分数来验证。
解析。此步骤主要使用上下文无关文法（CFG）将带有标签的句子转换为可以表示元素层次与关系的树结构，该树结构是语言无关的，并且可以生成出可计算的检查规则代码。解析结果可通过计算标记的句子解析为树的准确性来验证。
规则生成。此步骤将树表示形式转换成特定格式的语言以便于规则执行，例如if-then语句，horn逻辑子句，编程语言等。

其中，语义标注和解析为本发明所提出的算法的核心步骤。图2展示了语义标注与解析的流程示例。

图1 自动规则转换框架

图2 语义标注与解析的流程示例

3.2 规则检查树和语义标签的定义

BIM模型可以用具有许多属性的对象来描述，这种层次结构可以用树结构表示。因此，规则检查可以看作首先定位BIM模型树结构中的元素，然后检查相应元素是否满足要求的过程。更进一步，这种树结构可以被简化为多个树结构来表示，其中每棵树最多能有一个节点具有多个子节点。这种简化将降低复杂性，并且可以通过诸如句子拆分之类的预处理来实现。

据此，本发明提出了表示规则检查的树结构，规则检查树（RCTree）：一种表示对象层次结构的树结构，其中只有一个树节点可以具有多个子节点，且每个叶节点都与一个要求条件相连接。相应地，本发明定义了8个语义标签来表示RCTree中元素的角色，如表1所示。图4给出了RCTree的结构介绍。在表1的定义中，obj，sobj和prop标签用于表示BIM模型中要检查的元素。cmp表示选中的属性prop和Rprop/aRprop之间的关系。Rprop是直接应用于prop的要求。在大多数情况下，单个标签Rprop足以表示要求，例如一个数字（例如，A应大于10）。但在某些情况下，Rprop可能是对元素的引用，此时Robj即是被引用的元素（例如，A应大于B的10倍）。aRprop类似于Rprop，但前缀a表示前提（即适用性，applicability）；即，仅当prop和aRprop之间的比较结果为真时，才会执行规则检查。aRobj也类似于Robj，但由aRprop引用。

事实上，规则要求可以形式化为if-then格式的语句，而本发明提出的具有8个语义标签的RCTree即是以类似if-then的形式表示规则要求内容。其中，BIM模型中的元素由RCTree的sobj，obj和prop表示，且规则通过aRprop和aRobj表示前提条件（即if）及Rprop和Robj表示要求条件（即then）。在提出的RCTree中，所有要求之间的默认逻辑关系为“与”（即，如果满足所有前提条件，则检查所有要求是否被满足）。“或”关系通过元素合并和句子拆分等方式间接表示。

表1 提出的8个语义标签

图4 规则检查树（RCTree）的结构

3.3 语义标注

语义标注是为句子中的单词/短语分配语义标签的过程，其中标记的单词或短语称为语义元素。本发明使用深度神经网络（DNN）模型与迁移学习技术进行语义标注。标注方式采用BIO（Begin-inside-outside）格式，如图5所示。使用DNN模型（如RNN或Transformer）的标注过程为：首先，将输入语句的所有字符通过词嵌入转化为向量；然后，使用DNN模型将输入的向量编码为带有上下文信息的向量表示；最后，这一向量将通过softmax进行分类，并转换为BIO格式以进行输出。

图5 BIO标注格式

3.4 解析

解析是通过分析带有标签的句子的结构并将其解析为RCTree的过程。本发明使用上下文无关文法（Context-free grammar，CFG）作为解析的语法。CFG相比正则表达式等模式匹配方法具有更高的表达能力（例如可以表示递归）。同时CFG也是编程语言编译器的组成方法。解析步骤共分为三个过程：句子标准化，基于CFG的解析，RCTree生成；如图6所示。

图6 解析过程

4 实施案例与结果

4.1 数据准备

本发明选择中国建筑消防规范进行验证。首先，将建筑法规中的文本根据分号、句号、换行符分割为单个句子。接着，对句子进行过滤以选择含有定量要求的句子（例如，“不少于”，“大于”）；同时，这些句子将被人工审核以确保其适用于BIM中的规则检查，不适用的句子将被删除。然后，人工开发所选语句的语义标注，形成黄金标准。最终，建立的数据集包含614个句子，4360个语义标签。

4.2 语义标注

语义标注基于Python语言及Pytorch深度学习库实现，并且使用了中文BERT模型作为预训练的DNN模型。数据集根据0.8：0.2的比例随机分为训练和验证集，其中训练集用于训练和更新DNN模型，验证数据集用于测试性能。为了验证结果，将模型预测输出与黄金标准进行比较，并为每个语义标签计算精确度（Precision），召回率（Recall）和F1分数（F1-score）。

经实验，模型在验证集上的测试结果如表2所示。可以看出，模型取得了84.8%，86.4%，和85.5%的综合精确度、召回率和F1分数。这一结果表明，所提出的基于深度学习的语义标注方法能够适用于大规模的长句和复杂句的语义标注，且能获得较准确的结果。

表2 语义标注实验结果

4.3 解析

解析的测试基于Python语言实现，并使用了ANTLR4作为CFG规则的解析引擎。为了进一步验证所提出方法的效果，将数据集按简单句和复杂句分为两组，其定义分别如下：

简单句：标准化后，句子对于prop、cmp、和Rprop标签均最多具有一个元素实例。
复杂句：标准化后，句子对于prop、cmp、或Rprop中至少一个标签具有两个或以上的元素实例（即非简单句）。

现有的规则转换方法大多使用简单句进行验证和测试；例如，使用的句子对于其所提出的各类元素均最多只含一个。在本发明中，简单句和复杂句一个显著的区别是：在生成的RCTree中，简单句在obj下仅含有一棵子树，而复杂句有多颗子树。

在测试中，解析步骤使用数据集中已打好标签的614条语句作为输入，输出相应的RCTree，并根据输出的所有RCTree中处在正确位置的元素的比例计算最终的准确率。表3展示了本方法与现有规则转换方法的解析准确率对比。其中，Regex-E是一种规则转换方法，基于正则表达式的模式匹配，并使用六个基本语义信息标签，Regex-ES是通过使用更多辅助信息标签对Regex-E进行的增强方法，为现有的性能最优的方法。Regex-E和Regex-ES的实验基于62个简单句。值得说明的是，Regex-ES使用了两倍于Regex-E的元素来描述句子中的模式并匹配，这种做法在增加准确率的同时可能会降低可扩展性。表3中的CFG为本发明所提出的方法。

表3解析准确率对比

表3的结果表明，本发明中提出的方法优于最新方法，原因如下：1）对于简单句，所提出的方法达到了99.57％的解析准确率，优于当前性能最高的方法Regex-ES；更为重要的是，2）对于复杂句，当前的方法基于正则表达式而不适用，而所提出的方法可以达到94.03%的解析准确率。该结果表明所提出的方法在实现了高自动化、准确率的同时，保持了高可扩展性。

5 总结

本发明提出了一种将规范文本自动转为可计算逻辑规则的方法，具备高度自动化、高通用与可扩展性等特点。既有规则转换算法只能处理简单句，而本算法对简单句能达到99.6%的解析准确率，且对复杂句（传统算法无法处理的句子）能达到90.2%的解析准确率。本发明适用于多种文本规则转换场景，可用于将各种文本形式的规范文档转换为计算机可处理的规则。

点击文末的阅读原文，可查看与本专利相关的论文预印本，了解更多算法技术方面的细节。

[2] 陆新征, 廖文杰, 徐永嘉, 基于卷积神经网络振动识别的线性二次型控制改进方法，发明专利，专利号：ZL 202010169860.3

[3] 陆新征，徐永嘉，程庆乐，基于循环神经网络的地震破坏力预测装置及方法，发明专利，专利号：ZL 201911154874.1

[4] 陆新征，许镇，曾翔，杨哲飚，一种城市建筑地震次生火灾模拟方法，发明专利，授权号：ZL 201810255576.0

[5] 陆新征，曾翔，许镇，田源，一种基于震后航拍影像的近实时震损评估方法，发明专利，授权号：ZL 2018 1 0119671.8

[6] 陆新征，许镇，城市建筑群地震反应非线性历程分析方法及装置，发明专利，授权号：ZL 2018 1 0112837.3

---End---

相关研究

相关文章，在仿真秀官网搜索

专著

英文版《工程地震灾变模拟：从高层建筑到城市区域(第2版)》出版

人工智能与机器学习

揭秘人工智能设计剪力墙结构的科学原理 | 新论文：基于生成对抗网络的剪力墙结构设计方法
用人工智能进行结构方案设计| 发明专利：基于对抗生成网络的剪力墙结构布置方法
5分钟！从设计结构方案到完成计算书 | 人工智能设计剪力墙结构案例演示
新论文 | 倾斜摄影点云+深度学习=城市风环境自动化模拟
新论文 | 卷积神经网络 + 小波时频图：基于地震动时频域特征的震害评估新方法
他山之石可以攻玉 | 新论文：基于深度迁移学习的结构地震响应识别
新论文：为提升AI振动识别效果，小波、HHT、MFCC、CNN、LSTM我们都试一试
如何将地震破坏力评估加速1500倍？| 新论文：基于LSTM的地震破坏力实时评估
新论文：基于机器学习方法的多元地震动强度指标比选与实时震害预测
新论文：给振动信号拍个照，可以提升振动控制效果！
这栋楼是什么结构的，元芳，你怎么看？——大人，时代变了！|新论文：使用机器学习方法预测城市建筑结构类型
新论文：基于无人机与深度学习的建筑震害评估方法
新论文：无人机+机器学习+城市弹塑性分析=震后近实时损失预测

城市灾害模拟与韧性城市

新论文：城市尺度树木风灾破坏近实时评估：方法框架及清华园案例应用
新论文：基于实测地震动的近实时地震滑坡预测方法(并附源程序)
新论文：基于实测地震记录的区域地震动场模拟方法
新论文：“场地－城市”效应对区域震害评估的定量影响分析
新论文：基于城市信息模型、并同时适用于城市建筑群和单体重要建筑的多灾害模拟框架
新论文：台风风灾对港口运营的经济影响：以中国港口为例
新论文：基于BIM与虚拟现实的建筑震后火灾救援场景模拟
新论文：社区地震安全韧性评估系统及社区应用示范
新论文：武汉火神山医院病房有害气体的高空排放设计和分析
新论文：主余震作用下区域建筑震害预测方法
新论文：城市抗震弹塑性分析的开源框架
新论文：考虑劳动力资源约束的城市尺度建筑抗震韧性模拟和震后维修规划
新论文：结合BIM和FEMA P-58的建筑地震损失预测方法
新论文：扔砖头、跳盒子，这也是做科学试验哦！| 地震次生坠物情境中的人员疏散模拟
综述：城市抗震弹塑性分析及其工程应用
新论文：适用于多LOD BIM的建筑地震损失评估
新论文：城市建筑群多LOD震害模拟及北京CBD算例
美国NSF SimCenter+清华城市弹塑性分析=旧金山184万建筑地震模拟
新论文：BIM+新一代性能化设计=喷淋系统破坏后的地震次生火灾模拟
新论文：村镇建筑群火灾蔓延模拟与案例
新论文：建设地震韧性城市所面临的挑战
新论文：烈焰焚城 | 地震次生火灾的精细化和高真实感模拟
新论文：城市韧性——基于“三度空间下系统的系统”的思考
新论文：城市抗震弹塑性分析中如何确定高层建筑的损伤程度？

高性能结构与防倒塌

新论文：有限元携手物理引擎，倒塌模拟新思路
新论文：美国佛罗里达公寓大楼倒塌的初步分析和讨论
综述论文：建筑结构抗震“体系能力设计法”综述
新论文：不同钢筋构造对RC板柱节点冲剪破坏后性能的加强作用
新论文：地震－连续倒塌综合韧性防御超高层体系
新论文：基于数字孪生的强震下大跨斜拉桥倒塌易损性评估
新论文丨不同冲剪方向下板柱节点抗倒塌性能研究
新论文：大跨斜拉桥的非线性模型更新及倒塌预测
新论文：新一代地震-连续倒塌综合防御组合框架——综合韧性防御组合框架
新论文：中柱失效后混凝土板柱结构承载性能影响因素研究
新论文：不同冲剪方向下板柱节点抗倒塌性能研究
新论文：次边缘柱失效后钢筋混凝土平面框架连续倒塌承载力的试验分析和计算评估
新论文：基于集群计算的大跨斜拉桥精细有限元模型更新
新论文：钢筋混凝土板柱节点冲切及冲切破坏后行为的数值模拟
新论文：边柱以及边中柱失效后平板结构连续倒塌行为试验研究
新论文：抗震&防连续倒塌：一种新型构造措施
新论文：混凝土梁柱子结构连续倒塌动力效应的试验研究
层间位移角判别准则不适用于剪力墙，怎么办？|新论文：基于曲率的剪力墙损伤评估方法
新论文：地震-连续倒塌综合防御组合框架结构体系研究
新论文：改变框架-核心筒结构剪力调整策略对其抗震性能影响的研究
新论文：新型地震和连续倒塌综合防御韧性PC框架承载力计算方法
新论文：角柱失效后平板结构连续倒塌行为实验研究
新论文：受折纸启发的可更换承载-耗能双功能耗能器
新综述论文：21世纪建筑结构连续倒塌和鲁棒性的研究和实践
新论文：中柱失效后板柱结构连续倒塌传力机理研究
新论文：一根钢筋混凝土梁，承载力你能算对么？| 梁的压拱效应计算方法
新论文：这个混凝土框架能抗震，能防连续倒塌，还功能可恢复，您不进来看看么？
新论文：一个好汉三个帮|带端部阻尼器伸臂桁架的抗震性能试验研究
新论文：防屈曲支撑伸臂桁架？几个“狗骨头”可少不了！
新论文：考虑楼板影响的钢筋混凝土框架边柱连续倒塌试验
新论文：提高地震荷载分项系数，抗震安全性提高了多少？
新论文：采用减振子结构来控制超高层建筑的地震楼面加速度
新论文：500m级超高层建筑简化模型及其在结构体系对比中的应用
606m 超高层建筑OpenSees模型

来源：陆新征课题组

振动非线性通用建筑消防 BIM 数字孪生控制试验人工智能无人机

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-03-17