1 引言
让GPT-4写一个能够在本地运行的全文搜索程序:“wrote a Streamlit app that allows users to search for local files using full-text search.” GPT回答说:”要创建一个Streamlit应用程序,让用户使用全文搜索来搜索本地文件,你可以使用以下代码作为起点。这段代码使用`os`和`glob`库来搜索文件,使用`whoosh`库来为全文搜索创建一个索引。"
pip install streamlit whoosh
4 代码改进
对代码作了少许改进,增加了搜索结果的属性score,这个属性对搜索结果按照相似性进行了排序,类似于早期使用其它方法作的一些排序:
相关文章,在仿真秀官网搜索:
通过Euclidean距离计算向量值来对句子相似度排序
基于文档名称的相似度查询---以电影数据库为例
利用文本相似度聚类产生能够再学习的新文档
使用WMD Similarity确定句子之间的相似度
LaxRank抽取式文本总结(Text Summarization)
Data Mining---岩土工程的数据挖掘
目前的文件格式仅支持txt文件,就像GPT-4建议的那样,如果要同时检索pdf文件,需要安装PyPDF2 或者 pdfminer。
5 结束语
GPT-4写代码的能力确实很棒,在上述试验中,代码的错误率小于1%,而出现的错误又可以通过GPT-4来纠正。