首页/文章/ 详情

语义相似词汇代码的改进---增加fasttext算法[1000天打卡纪念]

1年前浏览253

1 引言

尽管目前基于doc2vec语义相似词汇的代码已经非常完美[Doc2Vec获得语义相似词汇的算法改进(更新4个矿山数据集)],但为了扩展和挖掘更有意义的词汇, 在此基础上增加了一种新的算法fasttext,这个笔记简要描述了这个试验过程。

2 fasttext算法

在这个改进中, 使用了两种形式增加fasttext算法,第一种形式是通过调用gensim(4.1.0, 8/30/2021)来实现,gensim在初始fasttext的基础之上作了少许改进,在gensim下可以直接调用。

    from gensim.models import FastText

    第二种方法是通过安装原始的fasttext(0.9.2,4/28/2020)来实现:

      import fasttext

      fasttext的无监督算法与doc2vec一样,也使用了skipgram和cbow模型。skipgram通过句子中间的词来预测其周围的词, 而cbow通过周围的词来预测中间的词.

      3 结果比较

      下面显示了这三种方法得出的结果, 以'shear'作为输入:

      (1) doc2vec

      cohesion and tensile strength

      normal stress

      shear cracks

      pre-existent fractures

      shear failure

      stiffness model

      intact rock bridges between

      (2) fasttext-gensim

      tensile

      stress

      peak

      cracks

      extensile

      bolt

      ks

      Length

      (3) fasttext-original无监督

      tensile

      normal/shear

      strength

      persistency

      Direct

      persistency

      Reinforcement

      tensile–shear

      (4) fasttext-original监督

      west-dipping

      Board

      classification

      finite/discrete

      ornamentation

      two-factor

      minimised

      上述结果显示, 的数据状态,doc2vec得出的结果最好, fasttext-gensimfasttext-original无监督出的结果差不多,fasttext-original监督出的结果最差, 因此决定去掉这种算法.

      4 改进数据集

      在这个试验中,同时更新了以下数据集:

      (1) orientation bias [断裂产状(Fracture Orientation)的概率密度函数---Fisher分布]

      (2) joint trace length [岩体不连续贯通度(discontinuity persistence)的窗口取样方法]

      5 1000天打卡

      时间过得真快, 不知不觉已经过了1000天, 下面这段代码用来计算两个日期之间的天数.  

      来源:计算岩土力学
      断裂试验
      著作权归作者所有,欢迎分享,未经许可,不得转载
      首次发布时间:2022-11-20
      最近编辑:1年前
      计算岩土力学
      传播岩土工程教育理念、工程分析...
      获赞 120粉丝 877文章 1732课程 0
      点赞
      收藏
      未登录
      还没有评论

      课程
      培训
      服务
      行家

      VIP会员 学习 福利任务 兑换礼品
      下载APP
      联系我们
      帮助与反馈