首页/文章/ 详情

岩石边坡工程的数据挖掘(Data Mining)

1年前浏览514

1 引言

在过去一年里,断续地做了一些岩石边坡工程数据挖掘方面的工作,部分内容零散地分布在本公 众 号内。本笔记首先描述了这个工作的整体框架和思路,其次对这些内容进行了分类。


2 整体框架

整个工作是基于GeotechSet数据集完成的。简言之,GeotechSet是一个不断进化的岩土工程文献数据库,包括岩石力学和土力学两部分,其中大部分内容与我自己的工作相关,包括论文,研究报告,课程讲稿及软件等。不过,目前所作的这个数据挖掘侧重于岩石边坡工程。一个继承的概念性结构如下图所示。

主要处理离散断裂网络DFN, 合成岩体SRM和岩桥Rock Bridge这三个核心关键词。数据挖掘的主要内容包括:相似性查询;摘要和关键字取出;主题聚合;产生新的句子四部分。


3 相似性查询

相似性查询是数据挖掘的主要组成部分,主要使用的算法有:Doc2Vec, LSI, Flashtext和Transformer:

Doc2Vec Model---段落相似性查询

语义相似模型(Doc2Vec)在双语教学中的应用

使用WMD Similarity确定句子之间的相似度

使用Transformers确定句子之间的相似度

SentenceTransformers库更新V2.0.0

联合6种Transformers预训练模型

一个快速的句子和段落相似查询方法

通过Euclidean距离计算向量值来对句子相似度排序

基于文档名称的相似度查询


4 摘要和关键字

摘要和关键字抽出主要使用了两个算法:sumy和pyTextRank.

文本摘要生成的确定过程和随机过程

PyTextRank---文本关键字(keywords)的自动取出

使用Trigram获取文档的中心思想


5 主题聚合

主题聚合使用了两个算法:LDA和Transformer

LDA Topic Modeling(主题建模)

使用Transformers确定句子之间的相似度


6 生成新的句子

生成新的句子主要使用了马尔可夫链

马尔可夫链(Markov chain)随机产生新的文档

利用文本相似度聚类产生能够再学习的新文档


7 应用

目前,这个数据挖掘工作主要的应用领域包括双语教学,产生新的论文主题以及生成论文内容等。

非结构化的文献快速聚合: Synthetic Rock Mass

公 众 号文章的自我聚合: 岩桥(Rock Bridge/Step-Path)

毕业论文查重就是一个坑

岩石边坡工程大数据系统设计

Data Mining---岩土工程的数据挖掘


来源:计算岩土力学
断裂岩土
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2022-11-19
最近编辑:1年前
计算岩土力学
传播岩土工程教育理念、工程分析...
获赞 144粉丝 1050文章 1776课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习 福利任务 兑换礼品
下载APP
联系我们
帮助与反馈