岩石边坡工程的数据挖掘(Data Mining)

1年前浏览514

1 引言

在过去一年里，断续地做了一些岩石边坡工程数据挖掘方面的工作，部分内容零散地分布在本公众号内。本笔记首先描述了这个工作的整体框架和思路，其次对这些内容进行了分类。

2 整体框架

整个工作是基于GeotechSet数据集完成的。简言之，GeotechSet是一个不断进化的岩土工程文献数据库，包括岩石力学和土力学两部分，其中大部分内容与我自己的工作相关，包括论文，研究报告，课程讲稿及软件等。不过，目前所作的这个数据挖掘侧重于岩石边坡工程。一个继承的概念性结构如下图所示。

主要处理离散断裂网络DFN, 合成岩体SRM和岩桥Rock Bridge这三个核心关键词。数据挖掘的主要内容包括：相似性查询；摘要和关键字取出；主题聚合；产生新的句子四部分。

3 相似性查询

相似性查询是数据挖掘的主要组成部分，主要使用的算法有：Doc2Vec, LSI, Flashtext和Transformer:

4 摘要和关键字

摘要和关键字抽出主要使用了两个算法：sumy和pyTextRank.

5 主题聚合

主题聚合使用了两个算法：LDA和Transformer

6 生成新的句子

生成新的句子主要使用了马尔可夫链

7 应用

目前，这个数据挖掘工作主要的应用领域包括双语教学，产生新的论文主题以及生成论文内容等。

来源：计算岩土力学

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-11-19