1 引言
基于最近的工作:《从Semantic Scholar批量获得最新岩土工程文献》和《参数化检测Semantic Scholar岩土工程文献数量》,一个新的岩土工程数据集SSGeotech正式建立起来了。与先前发展的GeotechSet数据集不同,SSGeotech的全部数据来自于Semantic Scholar, 通俗点儿来说,SSGeotech自动采集Semantic Scholar的岩土工程数据。SSGeotech的特点如下:
(1) 全英文论文,去掉了所有非英文字符;
(2) 每篇论文只包含论文题目和摘要,不包含其它信息;
(3) 每天在不断扩充。
2 数据格式
由于发展这个数据集的目的是为了进行机器学习,因此数据格式没有使用Json,而是使用普通的文本格式txt, 具体地,每篇论文由一行组成:论文题目---摘要,论文与摘要之间用---连接。如果一篇论文没有摘要,那么只显示论文题目,这个在代码中能够自动处理。例如:
Measurement of local stress and estimation of regional stress associated with stability assessment of an open-pit rock slope---This paper discusses the concept of a new methodology for rock slope stability assessment. Then, results on rock stress measurement using the compact conical-ended borehole overcoring (CCBO) technique at Torigata limestone mine in Japan are presented. A procedure for back analysis of the regional strain and stress field with the 3-D finite element method, using the measured local stress, is suggested and demonstrated successfully in relation to Torigata limestone mine. Finally, to estimate the state of stress at the mine excavation level, 3-D finite element analyses were performed using boundary conditions from the analyzed regional strain and stress field. It is shown that the horizontal stress at the present excavation level is not reduced, and that the horizontal stress component cannot be disregarded in estimating the stability of rock slopes at this location, even though the mine is located near the top of a mountain. 【与露天岩坡稳定性评估有关的局部应力测量和区域应力估算--本文讨论了岩坡稳定性评估新方法的概念。然后,介绍了在日本Torigata石灰石矿使用紧凑型锥端钻孔过孔(CCBO)技术测量岩石应力的结果。提出了利用测量的局部应力,用三维有限元方法对区域应变和应力场进行反分析的程序,并在Torigata石灰岩矿成功地进行了演示。最后,为了估计矿井挖掘层的应力状态,利用分析的区域应变和应力场的边界条件进行了3-D有限元分析。结果表明,目前挖掘层的水平应力并没有减少,在估计这个地方的岩坡稳定性时,不能不考虑水平应力部分,尽管该矿位于山顶附近。】
3 问题处理
Semantic Scholar使用了语义相似对查询结果进行了排列,排名越靠后的结果与我们的查询目的距离越远,这将导致数据集中会出现一些与岩土工程毫不相关的论文,举例来说,rock wedge stability查得共有37753篇论文,实际上不可能有这么多篇这样的论文。因为其它学科也可能组合出这样的关键字。"joint fracture"在岩体力学里指的是节理断裂,但这个词在医学领域指的是关节断裂,因此如果用这个短语来聚合,将会出现大量的医学论文。在这种情况下,我们必须手动清理数据集的内容。考虑到这种偏差,目前只自动收集前300篇论文。通过设计下面这样一个循环来自动取出有意义的论文。
3 SSGeotech的发展
通过一个大约40行的代码,自动采集Semantic Scholar与岩土工程相关的论文题目与摘要,目前的数据是大约27600篇论文。这个数据集将在短期内迅速扩大并于SS同步。SSGeotech数据集传递到代码geotech-flashtext-passages.py中进行二次处理,从而得出更精确的解答。