1 引言
ChatGPT回答的文本(诗歌和代码除外)以经过自然语言处理的日常对话风格呈现给用户,尽管回答内容可能是学术性的,但它没有象学术写作那样,有明确引用(citation)的参考文献, 通过进一步提问,ChatGPT可以给出参考的文献。必须注意的是,因为ChatGPT是一个统计模型,给出的参考文献不一定是真实存在的论文。微软推出的新版Bing【ChatGPT能实时学习用户输入的数据吗?】集成了ChatGPT,它能在产生的对话下面给出参考文献,比原始的ChatGPT前进了一步,但这些参考文献仍然是概率生成的,不是真实的文献引用。
2 文献校准
ChatGPT的训练数据集截至到2021年9月底,这意味着系统不可能准确地回答这个时间节点之后新出现的任何数据。本文的目的是通过一篇2022年的论文题目,借助ChatGPT产生10篇与之相似的论文,然后手工交叉检验这10篇论文的真实性。使用的检验工具包括:
(1) Google Scholar:Google学术,最强的学术研究工具
(2) Semanticscholar:基于BERT模型开发的语义相似搜索引擎
选用了的论文题目为(2022) "Application of Discrete Fracture Networks (DFN) to the design of benches in an open pit mine"[离散断裂网络(DFN)在露天矿台阶设计中的应用],然后让ChatGPT产生10篇与之相似的最新论文,ChatGPT果真产生出10篇2018年~2021年期间的论文。然而这10篇论文没有一篇是真实存在的,都是ChatGPT生成的虚拟论文,但它提供了使用数据库查找文献的关键词。
下面使用这10篇虚拟论文反向从数据库中搜索与之最相似的10篇论文,分别取Google Scholar和Semanticscholar的Top 5,因此共产生出100篇相关论文。
3 反向搜索