1 引言
在所有可得到的与岩土工程相关的文献库中, 我个人认为Semantic Scholar(SS)做的是最好的. 一方面它的文献数量足够大, 另一方面免费, 此外, 它提供了多种形式的文献获得方式. 这个笔记简要描述了如何使用SS的数据来增强我们的GeotechSet数据集.
2 获取方法
Semantic Scholar(SS)是一个用AI技术建立起来的学术文献数据库, 不像一些专用的医学和生物学数据库, SS也有一些工程文献, 包括非常丰富的岩土工程文献. 它提供了两种用户接入方式, 一种方式是直接下载它已经打包的数据集, 另一种方式是使用它提供的API. 由于API方式获得的数据与它的网站内容同步, 因此这种方式更符合我们的需要. 另一方面,因为我们的目的是扩展GeotechSet数据集, 所以对每一篇论文只想要其题目和摘要. 通过API返回的数据集是Json文件, 在这种情况下数据集只返回三项内容: "paperId": "title": 和 "abstract".
把获取的结果保存成Json文件后, 读取这个文件, 然后把title和abstract作为一项保存成list, 这样以后增加的新论文, 只需判断新论文是否在列表内, 如果在列表内就忽略, 否则加入到列表. 这种方法能快速地把SS的最新文献文献加入到GeotechSet中. 使用了大约40行代码完成了这个过程.
3 SS文献数量
下面使用部分关键词简单检查SS数据库中到底有多少篇岩土工程相关的文献:
(1) slope stability: 3,122,707
(2) rock bridge: 1,376,789
(3) bench failure: 2,476,834
(4) wedge bench failure: 12,801
(5) 3DEC modelling: 17,665,741
(6) FLAC3D modelling: 17,669,090
(7) synthetic rock mass: 97,144
4 结束语
太爽啦, 借助SS之力, 一方面省去了人工输入步骤, 另一方面GeotechSet数据集迅速增大.