新论文：面向建筑领域自然语言处理的领域语料库及预训练模型

1年前浏览1513

DOI：https://doi.org/10.1016/j.compind.2022.103733

太长不看版

大家很重视AI在建筑领域的应用。建筑行业中存在大量文本信息（例如工程规范，合同及施组文档），该类文本具有丰富的领域概念及语义特征，蕴含复杂的领域知识。例如，每个工程师都可以轻松理解“甲、乙类厂房和甲、乙、丙类仓库内的防火墙，其耐火极限不应低于4.00h。”这句话，但是计算机是否可以自动理解呢？自然语言处理技术有望在这方面取得突破，实现自动化的文本信息处理与知识共享，降低人工投入，实现行业转型升级。

但是，建筑领域现有基于深度学习的自然语言处理模型仍然依赖大量人工数据标注（俗话说：有多少智能，就有多少人工）。因此，本文探索了在不增加额外人工标注的情况下，利用领域文本先验知识提升模型性能的方法。具体工作包括：（1）建立并公开了建筑领域语料库，（2）系统探索了不同类型的语料与预训练方法对于模型的提升效果，（3）提出了建筑领域预训练模型ARCBERT，可从无标注语料里自动学习领域知识，并大幅提升领域多种自然语言处理任务的效果。

摘要

作为建筑行业的重要任务，基于自然语言处理（Natural language processing, NLP）的非结构化文本数据的信息处理和获取正受到越来越多的关注。随着深度学习（Deep learning，DL）技术和用于模型预训练的开放数据集的发展，许多NLP方法也得到了进一步的发展和改进。但是，目前在AEC领域中很少研究特定领域预训练语言模型（Domain-specific pretrained language model）及其优势。主要原因是（1）缺乏统一公开供模型评价的数据集，（2）很少有公开的领域语料可供进一步研究。

在AEC领域，基于深度学习的方法仍然需要非常昂贵的人工标注来准备大量的训练数据集。因此，需要探索领域无标签语料库如何影响基于深度学习的AEC领域NLP任务的性能，从而进一步提升模型的性能。

针对上述问题，本研究的技术路线图如图1所示。具体而言，本研究首先开发了建筑领域语料库（已开源，访问链接：https://github.com/SkydustZ/AEC-domain-corpora/tree/main/domain%20corpus）。然后，基于两类领域语料库（域内，in-domain 和近域，close-domain）及两种预训练方法（静态词向量，static word embedding 和动态词向量，contextual word embedding）训练了多种预训练语言模型。在此基础上，本文将自动规则检查（Automated Rule Checking，ARC）中的两种下游任务（即文本分类（TC）和命名实体识别（NER））作为典型案例，系统研究了预训练语料与方法对于深度学习模型的性能影响。值得一提的是，基于本文所开发域语料库进一步预训练得到了ARCBERT模型，该模型在ARC的典型下游NLP任务上获得了最优结果，超过了其他所有模型。这意味着无需额外人工标注，即可通过领域语料先验知识自动学习大幅提升多种NLP任务的性能表表现。

图1 领域语料与预训练方法增强深度学习模型的技术路线

领域语料库开发

首先，这项工作收集了大量的领域语料，随后分别构建了域内语料库（in-domain，此类语料由土木工程法规文本组成，也是ARC任务处理的目标语料，因此称为in-domain）和近域语料库（close-domain，此类语料由土木工程语料组成包括土木工程百科词条等，与ARC语料接近，因此称为close-domain）。

语料库建立方法：爬虫爬取相关文本，数据清理（无关内容过滤，长文本拆分）。所构建的领域语料如表1所示。

表1 领域语料库的统计数据

预训练模型

预训练词向量模型分可为静态词向量模型（static word embedding model）和动态词向量模型（或称为上下文相关词向量模型，contextual word embedding model）。静态词向量模型假设任何单词的语义不会随上下文发生变化。动态词向量假设单词的语义会随上下文发生变化。

对于静态‎‎词向量模型训练，技术路线图如图2所示。采用维基百科中文语料与领域语料基于skip-gram model，训练四个词嵌入模型：（1）通用模型，使用维基百科中文语料库（简称Wiki语料库）进行训练；（2）域内模型，使用‎‎Wiki‎‎和域内语料库进行训练；（3）近域模型，使用Wiki和近域语料库进行训练；（4）混合域模型，使用Wiki、域内和近域语料库进行训练。

图2 建筑领域特定静态词向量模型增强深度学习模型的方法

对于动态‎‎词向量模型训练，技术路线图如图3所示。首先选择了两个基准模型（1）bert-base-chinese[1]和（2）ERNIE[2]。然后，对所构建的领域语料进行了组合与划分，以探索领域语料类型、数量的影响。具体‎包括：（1）域内语料库；（2）近域语料库；（3）混合领域语料库（混合域内和近域）；（4）1/3的域内语料库；（5）1/5的域内语料库，共五种衍生语料库。

在此基础上，使用masked language model模型与上述五种领域语料库进行进一步预训练，训练了10个预训练模型，如表2所示。

图3 建筑领域特定动态词向量模型增强深度学习模型的方法

表2 领域语料库的统计数据

深度学习模型提升效果评估

为了评价上述预训练模型对于深度学习模型的提升效果，本节开展了系列实验，以下是实验的配置。

（1）数据集选择：在两个数据集上评估本研究中的方法和领域语料库，包括法规TC数据集[3]和NER数据集[4]。

（2）指标选择：对于TC模型，选择加权F₁（weighted F₁）。对于 NER 模型，选择宏平均 F₁（macro F₁）进行结果的衡量。‎首先，计算每个语义标签的精度（P）、召回率（R）和F₁分数（F₁）：

式中N {correct， labeled，true} 分别表示每个标签中{判断为标签正确的元素数，打标签的元素总数，实际标签正确的元素数}。

然后计算加权F₁、宏平均F₁：

式中n_i表示第 i 个语义标签的元素数；m‎表示语义标签类型的数量。

（3）数据集划分：将这两个数据集以 Train: Validation: Test = 0.8: 0.1: 0.1 的比例随机拆分。

（4）模型训练与微调：进行了四类实验，包括：1）静态词向量模型用于TC；2）静态词向量模型用于NER；3）进一步预训练动态词向量模型用于TC；4）进一步预训练动态词向量模型用于NER。

（5）实验结论：实验结果汇总图如图4、5所示。实验结果表明对于ARC的TC和NER任务，域内（in-domain）语料库可用于训练领域特定词向量模型或进一步预训练 BERT 和 ERNIE 模型以提高模型性能，无需额外的人工标注。

图4 各种模型在TC任务上的性能

图5 各种模型在NER任务上的性能

结论

在这项研究中，系统地研究了领域语料库如何影响基于深度学习的方法在建筑领域中NLP任务的性能。首先，开发并公开了领域语料库，然后，基于四个实验，说明了开发的领域语料库和基于动态词向量模型的深度学习模型（例如BERT）的优势：

（1）对于TC和NER任务，领域语料库可以优化基于静态词向量的深度学习模型和基于动态词向量模型的深度学习模型。对于TC任务，两类模型加权 F₁ 分数分别提高了 11.4% 和 6.4%，对于NER任务，两类模型宏平均 F₁ 分别提高了 8.7% 和 5.4%。

（2）在领域语料库上预训练的BERT模型（ARCBERT）性能优于基于静态词向量的深度学习模型，TC的加权F₁分数分别提高了8.1%，NER任务的宏平均F₁分数分别提高了3.8%。基于动态词向量的深度学习模型（例如BERT和ERNIE）在NER和TC任务中的性能优于其他模型。

最后，本研究提出了一个在TC任务中的加权F₁分数为94.4%的预训练模型，称为ARCBERT _Large。同时提出了在NER任务中的宏平均F₁为81.8%的预训练模型ARCBERT _Small。这两个模型在TC和NER任务上取得了全局最优的效果。本研究开发的领域语料库和建筑领域预训练模型在各种NLP中显示出了良好的结果，可能为建筑领域的各种未来NLP相关的研究和应用提供启发。

[1] Hugging Face, 2019. Bert-base-chinese.https://huggingface.co/bert-base-chinese/tree/main

[2] Sun, Y., Wang, S., Li, Y., Feng, S., Chen, X., Zhang, H., Tian, X., Zhu, D., Tian, H., Wu, H., 2019. Ernie: Enhanced representation through knowledge integration. arXiv preprint arXiv:1904.09223.

[3] Zheng, Z., Zhou, Y.C., Chen, K.Y., Lu, X.Z., Lin, J.R., She, Z.T.,2022.Text classification-based approach for automatically evaluating building codes’ interpretability. (in preparation).

[4] Zhou, Y.C., Zheng, Z., Lin J.R., Lu X.Z., 2020. Deep natural language processing-based rule transformation for automated regulatory compliance checking. Preprint. https://doi.org/10.13140/RG.2.2.22993.45921.

---End---

相关研究

相关文章，在仿真秀官网搜索：

特刊征稿

Earthquake Engineering Structural Dynamics特刊征稿《地震工程中的AI与数据驱动方法》

专著

英文版《工程地震灾变模拟：从高层建筑到城市区域(第2版)》出版
专著《城市抗震弹塑性分析》出版

人工智能与机器学习

报告视频：《结构生成式智能设计》
新论文 | 基于深度学习的滞回模型如何拥有“误差自纠偏”能力？(附数据集和程序)
用“图”和“图”来生成“图”？中文快不够用了 | 发明专利：多模态输入深度神经网络、框架结构梁柱设计方法及装置
AI想做结构设计？它得先学结构力学！| 新论文及发明专利：物理增强的剪力墙结构智能化设计方法
AI+PKPM | 给个建筑户型图，结构设计全自动
糟糕！结构高度从50m改为100m了。AI：5秒完成新结构方案 | 发明专利：融合文本和图像数据的建筑结构AI设计方法
揭秘人工智能设计剪力墙结构的科学原理 | 新论文：基于生成对抗网络的剪力墙结构设计方法
用人工智能进行结构方案设计| 发明专利：基于对抗生成网络的剪力墙结构布置方法
5分钟！从设计结构方案到完成计算书 | 人工智能设计剪力墙结构案例演示
新发明专利：一种将规范文本自动转为可计算逻辑规则的方法及系统
新论文 | 倾斜摄影点云+深度学习=城市风环境自动化模拟
新论文 | 卷积神经网络 + 小波时频图：基于地震动时频域特征的震害评估新方法
他山之石可以攻玉 | 新论文：基于深度迁移学习的结构地震响应识别
新论文：为提升AI振动识别效果，小波、HHT、MFCC、CNN、LSTM我们都试一试
如何将地震破坏力评估加速1500倍？| 新论文：基于LSTM的地震破坏力实时评估
新论文：基于机器学习方法的多元地震动强度指标比选与实时震害预测
新论文：给振动信号拍个照，可以提升振动控制效果！
这栋楼是什么结构的，元芳，你怎么看？——大人，时代变了！|新论文：使用机器学习方法预测城市建筑结构类型
新论文：基于无人机与深度学习的建筑震害评估方法
新论文：无人机+机器学习+城市弹塑性分析=震后近实时损失预测

城市灾害模拟与韧性城市

视频：城市抗震弹塑性分析及其在情景构建与地震应急中的应用
新论文 | 基于倾斜摄影、深度学习和CFD的城市尺度窗户风损评估
新论文 | 强震台网密度对震害评估的影响
新论文：城市尺度树木风灾破坏近实时评估：方法框架及清华园案例应用
新论文：基于实测地震动的近实时地震滑坡预测方法(并附源程序)
新论文：基于实测地震记录的区域地震动场模拟方法
新论文：“场地－城市”效应对区域震害评估的定量影响分析
新论文：基于城市信息模型、并同时适用于城市建筑群和单体重要建筑的多灾害模拟框架
新论文：台风风灾对港口运营的经济影响：以中国港口为例
新论文：基于BIM与虚拟现实的建筑震后火灾救援场景模拟
新论文：社区地震安全韧性评估系统及社区应用示范
新论文：武汉火神山医院病房有害气体的高空排放设计和分析
新论文：主余震作用下区域建筑震害预测方法
新论文：城市抗震弹塑性分析的开源框架
新论文：考虑劳动力资源约束的城市尺度建筑抗震韧性模拟和震后维修规划
新论文：结合BIM和FEMA P-58的建筑地震损失预测方法
新论文：扔砖头、跳盒子，这也是做科学试验哦！| 地震次生坠物情境中的人员疏散模拟
综述：城市抗震弹塑性分析及其工程应用
新论文：适用于多LOD BIM的建筑地震损失评估
新论文：城市建筑群多LOD震害模拟及北京CBD算例
美国NSF SimCenter+清华城市弹塑性分析=旧金山184万建筑地震模拟
新论文：BIM+新一代性能化设计=喷淋系统破坏后的地震次生火灾模拟
新论文：村镇建筑群火灾蔓延模拟与案例
新论文：建设地震韧性城市所面临的挑战
新论文：烈焰焚城 | 地震次生火灾的精细化和高真实感模拟
新论文：城市韧性——基于“三度空间下系统的系统”的思考
新论文：城市抗震弹塑性分析中如何确定高层建筑的损伤程度？

高性能结构与防倒塌

新阻尼模型论文 | 频域分布任性变，开源程序免费领
新论文：中柱节点向上和向下冲剪破坏引起的板柱子结构连续倒塌研究
新论文：有限元携手物理引擎，倒塌模拟新思路
新论文：美国佛罗里达公寓大楼倒塌的初步分析和讨论
综述论文：建筑结构抗震“体系能力设计法”综述
新论文：不同钢筋构造对RC板柱节点冲剪破坏后性能的加强作用
新论文：地震－连续倒塌综合韧性防御超高层体系
新论文：基于数字孪生的强震下大跨斜拉桥倒塌易损性评估
新论文丨不同冲剪方向下板柱节点抗倒塌性能研究
新论文：大跨斜拉桥的非线性模型更新及倒塌预测
新论文：新一代地震-连续倒塌综合防御组合框架——综合韧性防御组合框架
新论文：中柱失效后混凝土板柱结构承载性能影响因素研究
新论文：不同冲剪方向下板柱节点抗倒塌性能研究
新论文：次边缘柱失效后钢筋混凝土平面框架连续倒塌承载力的试验分析和计算评估
新论文：基于集群计算的大跨斜拉桥精细有限元模型更新
新论文：钢筋混凝土板柱节点冲切及冲切破坏后行为的数值模拟
新论文：边柱以及边中柱失效后平板结构连续倒塌行为试验研究
新论文：抗震&防连续倒塌：一种新型构造措施
新论文：混凝土梁柱子结构连续倒塌动力效应的试验研究
层间位移角判别准则不适用于剪力墙，怎么办？|新论文：基于曲率的剪力墙损伤评估方法
新论文：地震-连续倒塌综合防御组合框架结构体系研究
新论文：改变框架-核心筒结构剪力调整策略对其抗震性能影响的研究
新论文：新型地震和连续倒塌综合防御韧性PC框架承载力计算方法
新论文：角柱失效后平板结构连续倒塌行为实验研究
新论文：受折纸启发的可更换承载-耗能双功能耗能器
新综述论文：21世纪建筑结构连续倒塌和鲁棒性的研究和实践
新论文：中柱失效后板柱结构连续倒塌传力机理研究
新论文：一根钢筋混凝土梁，承载力你能算对么？| 梁的压拱效应计算方法
新论文：这个混凝土框架能抗震，能防连续倒塌，还功能可恢复，您不进来看看么？
新论文：一个好汉三个帮|带端部阻尼器伸臂桁架的抗震性能试验研究
新论文：防屈曲支撑伸臂桁架？几个“狗骨头”可少不了！
新论文：考虑楼板影响的钢筋混凝土框架边柱连续倒塌试验
新论文：提高地震荷载分项系数，抗震安全性提高了多少？
新论文：采用减振子结构来控制超高层建筑的地震楼面加速度
新论文：500m级超高层建筑简化模型及其在结构体系对比中的应用
606m 超高层建筑OpenSees模型

来源：陆新征课题组

振动非线性通用建筑 BIM 数字孪生控制试验人工智能无人机

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-03-18