1 引言
马上就要开学了,需要投入新的任务,因此岩石边坡大数据处理工作暂时告一段落,为此作一个阶段性总结。这项研究的核心内容是运用先进的自然语言处理技术来处理岩石边坡工程文献,其最终目的主要有两个:一个是从大数据挖掘中产生新的概念,主题以及论文的自动生成;另一个是改进和辅助双语教学。这个研究报告由两大部分组成,第一部分描述了数据集的建立,第二部分讨论了数据处理使用的工具和技术。
2 数据集建立
整个数据集按照岩石边坡工程的核心主题划分为如下子集:
(1) 岩石强度和变形;
(2) 离散断裂网络和岩桥;
(3) 工程岩体分类;
(4) 边坡稳定性分析;
(5) 岩石锚杆;
(6) 地表沉降;
(7) Itasca软件模拟;
(8) 其它软件模拟;(Plaxis, Rocscience,Abaqus)
(9) 场地安全地震评价;
(10) 边坡工程实例;
(11) 大型露天矿,包括Chuquicamata, Bingham Canyon, Palabora, Diavik
3 数据处理
这一部分主要是通过一系列代码处理上述发展的数据集。
3.1 运行环境
由于在本项目中使用了多种库,因此针对不同的库设置了不同的虚拟环境,主要包括: (1) base(root); (2) Spacy; (3) Bertopic; (4) Tensorflow; (5) Flair; (6) Transformers
3.2 主题模拟和相似性查询
使用联合的方法进行主题模拟和相似性查询,主要包括:
(1) geotech-flashtext-passages.py 根据不同的短语组合,聚合出相应的段落;geotech-flashtext-words-combination.py是一个变体,把整个文档划分为单句进行聚合,使用了C(n,3)的组合算法;
(2) geotech-PyTextRank-keywords-summarization.py 自动提取文档中的关键短语并进行排序,同时进行文档总结;
(3) geotech-doc2vec-documents-similarity.py 从文档中产生相似性段落,提取语义相关的短语, 使用LDA算法进行主题聚合;
(4) geotech-markovify-text-generation.py 使用马尔可夫链算法生成新的句子;
(5) geotech-bertopic-topic-modeling.py 使用Transformers算法聚合主题;
(6) geotech-top2vec-sentences.py 使用Transformers算法聚合主题;
(7) geotech-sklearn-similarity-query.py 使用sklearn算法进行句子的相似性查询;
(8) geotech-st-similarity.py 使用SentenceTransformers进行相似性查询;
(9) geotech-st-lexrank-summarization.py 使用SentenceTransformers抽取摘要;
(10) geotech-tensorflow-use.py 用来进行相似性查询;
3.3 先进的自然语言处理
主要包括回答问题,机器翻译,生成抽象式摘要,完形填空,文章产生,零点文本分类等。这部分内容偏多,讨论的都是些自然语言处理中最前沿的问题以及在本项目中的应用,待以后补充。
3.4 训练自己的模型
这是本项研究最激动人心的部分,基于GPT-2的预训练集,我们已经产生出一个微调的GeotechSet数据集,能够应用在岩土工程领域特别是岩石边坡工程领域中。
4 结束语
这个笔记简要描述了岩石边坡工程大数据处理目前所作的工作,这也是阶段研究报告的基本框架。目前正在修改与完善之中,最终稿争取控制在150页以内。