岩石边坡工程大数据处理---阶段性总结(R2)

1年前浏览1431

1 引言

《岩石边坡工程大数据处理---阶段性总结(R1)》简要讨论了数据集的建立和数据处理方法，在此基础上已经形成了一个阶段性的报告框架，这个笔记描述了研究报告形成的背景以及报告的格式。

2 研究背景

最初相识Python的时候大约是在7年前，那时我正使用Abaqus做土和结构相互作用的数值模拟。作为一个old school毕业的学生，以前使用的编程语言主要是Fortran和Visual Basic, 当看到Abaqus 6.13版提供的Python接口后感到很亲切，主要原因是觉得Python语言的编程风格和Itasca软件中的FISH语言极为相似，但功能比FISH要强很多，盼望着岩土工程领域工业标准的软件也能有象Abaqus那样的Python接口。现在就像大家看到的，PLAXIS和Itasca软件已经嵌入了Python语言。也就是从那时开始自学Python语言，入门之后才知道Python语言是当下最火的人工智能编程语言，主要用在机器学习上来处理大数据，当时我也在作GMAT(商学院研究生入学考试)的研究工作，经常与文字打交道，于是不自觉地进入到自然语言处理NLP领域。

3 划分子集的意义

任何工作都需要进行分门别类地整理文档，GeotechSet数据集包括了岩土工程领域各种各样的书，杂志论文和会议论文以及一些岩土工程软件用户手册。最初这些数据放在一个叫Discuz!的论坛程序上，按照不同的版块名称分类储存数据。后来由于工作不断聚类出新的主题，这个论坛程序不能再满足日益发展的需要。

而在目前的研究中，划分子集最显著的用途是为了进行迁移学习。当把所有的数据作为整体进行训练时，一方面机器的能力承受不了这么大的数据量，另一方面由于内容庞杂，生成文本的质量不高，迁移学习的目的正好吻合了我们数据处理的需要。因此，GeotechSet数据集划分成若干子集。

4 报告框架

研究报告分为两大部分：第一部分描述了岩石边坡工程大数据集的建立，这个数据集基本上覆盖了岩石边坡工程最主要的研究内容；第二部分讨论了处理大数据使用的工具，理论基础及其试验结果。经过不断的精简，目前这个报告仅剩下7万字。

第一章绪论

1.1 选题依据和研究意义

1.2 数据挖掘

1.3 运行环境

第二章岩石边坡数据集建立

2.1 引言

2.2 岩石边坡工程

2.3 离散断裂网络

2.4 岩体强度和变形

2.5 Itasca软件

2.6 岩石锚杆

2.7 综合岩土工程

2.8 地震数据集

第三章数据集聚合算法

3.1 引言

3.2 Flashtext算法

3.3 段落聚合和句子聚合

第四章普通数据处理

4.1 引言

4.2 Doc2Vec语义相似和LDA主题模拟

4.3 PyTextRank关键词提取和摘要生成

4.4 markovify马尔可夫链文本生成

4.5 LexRank抽取式文本总结

第五章 Transformers数据处理

5.1 引言

5.2 主题模拟

5.2.1 BERTopic主题模拟

5.2.2 Top2Vec主题模拟

5.3 完形填空(Fill-Mask)

5.4 问题对答(Question Answering)

5.5 生成摘要(Summarization)

5.6 多任务处理(Text2TextGeneration)

5.7 机器翻译(Machine Translation)

5.8 零点分类(Zero Shot)

5.9 文本生成(Text Generation)

5.10 SBert语义相似

第六章 Transformers高级数据处理

6.1 引言

6.2 Longformer模型

6.3 XLNet模型

6.4 GPT Neo/GPT-3模型

6.5 USE(Universal Sentence Encoder)模型

6.5 GPT2微调过程

第七章结论

参考文献

附录

来源：计算岩土力学

Abaqus 断裂岩土理论试验人工智能 PLAXIS

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-11-20