太爽啦---从Semantic Scholar批量获得最新岩土工程文献

1年前浏览921

1 引言

在所有可得到的与岩土工程相关的文献库中, 我个人认为Semantic Scholar(SS)做的是最好的. 一方面它的文献数量足够大, 另一方面免费, 此外, 它提供了多种形式的文献获得方式. 这个笔记简要描述了如何使用SS的数据来增强我们的GeotechSet数据集.

2 获取方法

Semantic Scholar(SS)是一个用AI技术建立起来的学术文献数据库, 不像一些专用的医学和生物学数据库, SS也有一些工程文献, 包括非常丰富的岩土工程文献. 它提供了两种用户接入方式, 一种方式是直接下载它已经打包的数据集, 另一种方式是使用它提供的API. 由于API方式获得的数据与它的网站内容同步, 因此这种方式更符合我们的需要. 另一方面,因为我们的目的是扩展GeotechSet数据集, 所以对每一篇论文只想要其题目和摘要. 通过API返回的数据集是Json文件, 在这种情况下数据集只返回三项内容: "paperId": "title": 和 "abstract".

把获取的结果保存成Json文件后, 读取这个文件, 然后把title和abstract作为一项保存成list, 这样以后增加的新论文, 只需判断新论文是否在列表内, 如果在列表内就忽略, 否则加入到列表. 这种方法能快速地把SS的最新文献文献加入到GeotechSet中. 使用了大约40行代码完成了这个过程.

3 SS文献数量

下面使用部分关键词简单检查SS数据库中到底有多少篇岩土工程相关的文献:

(1) slope stability: 3,122,707

(2) rock bridge: 1,376,789

(3) bench failure: 2,476,834

(4) wedge bench failure: 12,801

(5) 3DEC modelling: 17,665,741

(6) FLAC3D modelling: 17,669,090

(7) synthetic rock mass: 97,144

4 结束语

太爽啦, 借助SS之力, 一方面省去了人工输入步骤, 另一方面GeotechSet数据集迅速增大.

来源：计算岩土力学

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2022-11-20