1 引言
在过去一年里,断续地做了一些岩石边坡工程数据挖掘方面的工作,部分内容零散地分布在本公 众 号内。本笔记首先描述了这个工作的整体框架和思路,其次对这些内容进行了分类。
2 整体框架
整个工作是基于GeotechSet数据集完成的。简言之,GeotechSet是一个不断进化的岩土工程文献数据库,包括岩石力学和土力学两部分,其中大部分内容与我自己的工作相关,包括论文,研究报告,课程讲稿及软件等。不过,目前所作的这个数据挖掘侧重于岩石边坡工程。一个继承的概念性结构如下图所示。
主要处理离散断裂网络DFN, 合成岩体SRM和岩桥Rock Bridge这三个核心关键词。数据挖掘的主要内容包括:相似性查询;摘要和关键字取出;主题聚合;产生新的句子四部分。
3 相似性查询
相似性查询是数据挖掘的主要组成部分,主要使用的算法有:Doc2Vec, LSI, Flashtext和Transformer:
4 摘要和关键字
摘要和关键字抽出主要使用了两个算法:sumy和pyTextRank.
PyTextRank---文本关键字(keywords)的自动取出
5 主题聚合
主题聚合使用了两个算法:LDA和Transformer
6 生成新的句子
生成新的句子主要使用了马尔可夫链
7 应用
目前,这个数据挖掘工作主要的应用领域包括双语教学,产生新的论文主题以及生成论文内容等。
非结构化的文献快速聚合: Synthetic Rock Mass
公 众 号文章的自我聚合: 岩桥(Rock Bridge/Step-Path)