1 引言
产生新的数据集有三种方法:(1) 根据关键词手工聚合;(2) 使用geotech-flashtext-passages.py自动聚合(一种快速在GeotechSet数据集内查询相似段落的方法);(3) 使用geotech-st-cluster.py主题聚合。其中(3)既快速又准确,是目前努力发展的一种数据集产生方法。这个笔记简要描述了这种方法最新改进的经历。
2 代码改进
geotech-st-cluster.py代码使用了《LDA Topic Modeling(主题建模): 以Rocscience 2021用户会议为例》引入的KMeans聚类方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次试验中,21M的数据文件聚类30个主题共用了大约30分钟。另一方面已经注意到,下面三个模型由于产生的句子嵌入质量低已经被废弃:
(1) roberta-large-nli-stsb-mean-tokens
(2) bert-base-nli-mean-tokens
(3) distilbert-base-nli-stsb-mean-tokens
在今后的工作中将不再使用这三个模型。现在改用paraphrase-mpnet-base-v2模型,效果确实比前者要好。这个模型将句子和段落映射到768维的密集向量空间,可用于聚类或语义搜索等任务。最新的改进使用了下面的Top 3模型:
(1) paraphrase-xlm-r-multilingual-v1
(2) paraphrase-mpnet-base-v2
(3) paraphrase-TinyBERT-L6-v2
其它模型的比较如下所示:
geotech-st-cluster.py的另一个变化是结果由原来的屏幕输出改到文件保存,方便查看和编辑。
3 新产生的数据集
使用上述改进代码,新产生和改进的数据集如下:
Colorado Rockfall Simulation Program (岩石崩落分析(Analysis of Rockfall)方法简述)
Types of Slope Failure (岩土边坡的破坏类型(C3)(Failure types of slope))
rockfall simulation (岩崩运动规律(Typical Rockfall Process))
surface subsidence prediction (崩落采矿诱发地表沉降预测的经验方法(Caving Angle))
Particle Flow Code (生成复杂颗粒形状的三种方法)
synthetic rock mass (合成岩体模拟[Synthetic Rock Mass (SRM) modeling])
en-echelon (岩石破坏路径的搜索算法)
Effects of sample size (代表性元素体积REV (Representative Elemental Volume))