首页/文章/ 详情

利用主题聚类(Cluster)产生新的数据集--模型和代码改进

2年前浏览424

1 引言

产生新的数据集有三种方法:(1) 根据关键词手工聚合;(2) 使用geotech-flashtext-passages.py自动聚合(一种快速在GeotechSet数据集内查询相似段落的方法);(3) 使用geotech-st-cluster.py主题聚合。其中(3)既快速又准确,是目前努力发展的一种数据集产生方法。这个笔记简要描述了这种方法最新改进的经历。


2 代码改进

geotech-st-cluster.py代码使用了《LDA Topic Modeling(主题建模): 以Rocscience 2021用户会议为例》引入的KMeans聚类方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次试验中,21M的数据文件聚类30个主题共用了大约30分钟。另一方面已经注意到,下面三个模型由于生的句子嵌入量低已经被废弃:

(1) roberta-large-nli-stsb-mean-tokens

(2) bert-base-nli-mean-tokens

(3) distilbert-base-nli-stsb-mean-tokens

在今后的工作中将不再使用这三个模型。现在改用paraphrase-mpnet-base-v2模型,效果确实比前者要好。这个模型将句子和段落映射到768维的密集向量空间,可用于聚类或语义搜索等任务。最新的改进使用了下面的Top 3模型:

(1) paraphrase-xlm-r-multilingual-v1

(2) paraphrase-mpnet-base-v2

(3) paraphrase-TinyBERT-L6-v2

其它模型的比较如下所示:

geotech-st-cluster.py的另一个变化是结果由原来的屏幕输出改到文件保存,方便查看和编辑。


3 新产生的数据集

使用上述改进代码,新产生和改进的数据集如下:

Colorado Rockfall Simulation Program (岩石崩落分析(Analysis of Rockfall)方法简述)

Types of Slope Failure (岩土边坡的破坏类型(C3)(Failure types of slope))

rockfall simulation (岩崩运动规律(Typical Rockfall Process))

surface subsidence prediction (崩落采矿诱发地表沉降预测的经验方法(Caving Angle))

Particle Flow Code (生成复杂颗粒形状的三种方法)

synthetic rock mass (合成岩体模拟[Synthetic Rock Mass (SRM) modeling])

en-echelon (岩石破坏路径的搜索算法)

Effects of sample size (代表性元素体积REV (Representative Elemental Volume))

来源:计算岩土力学
岩土试验
著作权归作者所有,欢迎分享,未经许可,不得转载
首次发布时间:2022-11-20
最近编辑:2年前
计算岩土力学
传播岩土工程教育理念、工程分析...
获赞 153粉丝 1129文章 1783课程 0
点赞
收藏
未登录
还没有评论
课程
培训
服务
行家
VIP会员 学习计划 福利任务
下载APP
联系我们
帮助与反馈