1 引言
Doc2Vec Model---基于段落相似性查询是岩石边坡工程大数据项目的其中一部分内容,计划单列一章讨论这个主题。Doc2Vec Model的算法基于Word2Vec Model, 主要进行段落的语义相似比较。这个笔记简要描述了Doc2Vec的工作机理和测试结果,详细的理论背景,用法和结果将在研究报告中描述。
2 Doc2Vec Model
Doc2Vec用矢量来表示每个文档。传统的Bag-of-words(词袋)模型对应的是单词,不能表达单词的顺序,例如“FLAC3D models slope stability”和“3DEC models slope stability” 对应着相同的矢量,这个缺陷可以使用n-grams方法来表示一个固定长度的矢量(使用Trigram获取文档的中心思想)。此外,词袋模型不能学习出语义相似的词汇,矢量之间的距离不能反映出词汇意义上的不同。Word2Vec算法解决了这个问题。
Word2Vec使用浅层神经网络将单词嵌入到低维的矢量空间中,基于上下文具有相似的含义以及彼此的距离把意义相近的一组词聚集在一起。 例如Step-path和rock bridge虽然字面上不一样,但具有相近的含义。利用Word2Vec,可以计算一个文档中每个单词的矢量,如果要计算整个文档的矢量,可以平均文档中每个单词的矢量。虽然这种方法有点粗糙,但也很有用。
然而,有一个更好的方法是引入段落矢量(Paragraph Vector)Doc2Vec. 该算法通常优于Word2Vec矢量的简单 平均值。两种算法可以实现段落矢量: (1) Distributed Memory (PV-DM); (2) Distributed Bag of Words (PV-DBOW)。 尽管Doc2Vec的原始作者建议使用第一种PV-DM算法,但我目前测试使用的是第二种算法,即dbow_words=1。
3 测试结果
在这个试验中,使用了岩桥破坏的数据集进行测试,这个数据集大约100M左右。查询语句为"step-path failure modeling". 结果分析如下:
(1) dfnWorks- A discrete fracture network framework for modeling.pdf (dfnWorks.txt)
(2) Elmo D. and D Stead (2018) Definition and characterisation of intact rock bridges: implications for 2D and 3D slope stability problems. Symposium in Slope Stability in Open Pit Mining and Civil Engineering. Seville, Spain, April 11-13, 2018. (Definition of rock bridges.txt)
(3) Assumptions made in typical 2D rock bridge and step-path failure approaches (Challenges in the characterisation of intact rock bridges in rock slopes.txt)
(4) STEP-PATH DISCONTINUITIES AND ROCK SLOPE FAILURE---Step-path fractures and failure surfaces are prevalent in numerous rock slopes. (Step-path characterisation in rock slopes.txt)
(5) simulation of step-path brittle failure in rock slopes.txt
(6) A fundamental step towards a more realistic rock slope analysis is the quantitative characterisation of 2-D intact rock bridges as a function of fracture intensity parameters. (The Importance of Intact Rock Bridges in the Stability of High Rock.txt)
(7) Karimi L. et al. (2016) Simulation of rock bridge failure at the laboratory scale using a combined FDEM modeling and discrete crack network approach. 50th U.S. Rock Mechanics Symposium. Houston, Texas, June 2016. Paper 588.
(8) Scholtès, L., and Donzé, F. V. (2015). “A DEM analysis of step-path failure in jointed rock slopes.”Comptes Rendus Mécanique, Mechanics of granular and polycrystalline solids, 343(2), 155–165.
(9) Mendoza-Torres, F., et al. (2017). "Bernstein copula modeling for 2D discrete fracture network simulations." Journal of Petroleum Science and Engineering 156: 710-720.
(10) Abdullah, R. A., et al. (2010). "Selecting shear strength models for joints - experience with modeling of complex rock slope failure in UDEC." Rock Mechanics in Civil and Environmental Engineering: 543-546.
4 相关文章
过去一年里,为了完成这个mini项目,对Doc2Vec模型作了一些初步研究,这些初步的想法包括在下面的公 众 号文章中,在最后阶段将对这些过程和结果作进一步的改进和补充。
相关文章,在仿真秀官网搜索:
Data Mining---岩土工程的数据挖掘
毕设训练(4): 岩石边坡工程大数据系统设计
一个快速的句子和段落相似查询方法
使用WMD Similarity确定句子之间的相似度
毕业论文查重就是一个坑
使用Transformers确定句子之间的相似度