利用主题聚类(Cluster)产生新的数据集--模型和代码改进

2年前浏览458

1 引言

产生新的数据集有三种方法：(1) 根据关键词手工聚合；(2) 使用geotech-flashtext-passages.py自动聚合(一种快速在GeotechSet数据集内查询相似段落的方法)；(3) 使用geotech-st-cluster.py主题聚合。其中(3)既快速又准确，是目前努力发展的一种数据集产生方法。这个笔记简要描述了这种方法最新改进的经历。

2 代码改进

geotech-st-cluster.py代码使用了《LDA Topic Modeling(主题建模): 以Rocscience 2021用户会议为例》引入的KMeans聚类方法，最初使用的模型是roberta-large-nli-stsb-mean-tokens，在最新的一次试验中，21M的数据文件聚类30个主题共用了大约30分钟。另一方面已经注意到，下面三个模型由于产生的句子嵌入质量低已经被废弃:

(1) roberta-large-nli-stsb-mean-tokens

(2) bert-base-nli-mean-tokens

(3) distilbert-base-nli-stsb-mean-tokens

在今后的工作中将不再使用这三个模型。现在改用paraphrase-mpnet-base-v2模型，效果确实比前者要好。这个模型将句子和段落映射到768维的密集向量空间，可用于聚类或语义搜索等任务。最新的改进使用了下面的Top 3模型：

(1) paraphrase-xlm-r-multilingual-v1

(2) paraphrase-mpnet-base-v2

(3) paraphrase-TinyBERT-L6-v2

其它模型的比较如下所示: