1. 引言
ChatGPT的诞生促使许多自然语言处理公司开发基于本地的大语言模型产品【GPT4all---本地部署的微型大语言模型】,其中最有影响力的是Meta公司的 LLaMA (Large Language Model Meta AI),Meta声称LLaMA模型的规模仅为竞争对手 ChatGPT 的十分之一,但性能却优于GPT-3模型。因此理论上任何人可以在自己的计算机上使用接口【LangChain---大型语言模型(LLM)的标准接口】构建与ChatGPT相似的聊天系统,但硬件要求限制了大多数普通用户实现这一想法。
最近,NVIDIA公司在其网页上发布了LLaMA 2模型,供所有人免费测试LLaMA 2。本文简要讨论了使用这个大语言模型的参数设置,使用Aznalcollar尾矿坝测试了这个产品,并使用Bing Chat和WebChatGPT进行了验证。
2. LLaMA 2简介
Llama 2是一个能够根据提示生成文本和代码的大型语言AI模型。这是对ChatGPT, Bard, Claude等大语言模型的回应,任何人都可以免费将其用于研究和商业目的。有些人戏称,由于Meta干不过Google和OpenAI,因此干脆免费让大家用,以应对与其它公司的竞争。Llama 2模型使用的仍然是Transformer技术【BERT模型的应用回顾(阶段性总结)】,目前提供了3个不同规模的模型,具有 70 亿个参数的 7B、具有 130 亿个参数的 13B 和具有 700 亿个参数的 70B。不言而喻,7B模型在较低规格的硬件上运行速度最快,显著的缺点是生成文本的准确性很差。
即便如此,在普通的计算机上仍然运行不了7B模型,GPU至少要有12G~16G,我的计算机GPU仅有6G,这也是为什么早在两年前就放弃了GPT-2的训练【不得已而为之---CPU下使用gpt2-large模型进行微调训练;GeotechSet数据集在GPT2上的训练过程】。
Llama 2在各种基准测试(多任务语言理解和TriviaQA阅读理解数据集)上与其他开源和闭源模型进行了比较,包括GPT-3.5,GPT-4,PaLM和PaLM 2等。测试结果显示,70B模型优于其他开源的LLM,在大多数基准测试上通常与 GPT-3.5 和 PaLM 一样好,但性能不如 GPT-4 或 PaLM 2。自从6个月前LLaMA发布以来,其核心开发者超过半数已经离职,Meta将重组开发团队,继续开发LLaMA 2。
Anyway, NVIDIA公司发布的Llama 2模型使得我们有机会体验这个可望而不可及的大语言模型。
Top-P是一个抽样方法,它是在Top-K取样技术的基础上发展起来的。在Top-P抽样中,不是只从最有可能的K个词中抽样,而是从累积概率超过概率P的尽可能小的词集中选择,然后在这个小的词集中重新分配概率,单词集的数量可以根据下一个单词的概率分布动态地增加和减少。在实践中Top-P一般取0.95以上。在早期GPT2的试验中,曾经讨论过这个参数,参看如下的链接:
作为显示,在这个NVIDIA Llama 2版本中,输出长度(Max output tokens)的最大值只有512个token,这意味着生成的本文非常短。另一方面,ChatGPT的默认值为2048个token,在GPT-4中用户能够设置的最大值为4096个token。在某些可以定制的GPT-4中,可以设置的最大值为8191个token,理论上可以完成万字长文,但实际上可能达不到这个数值,这取决于提示语的广度和深度。显然,设置大的token值意味着花更多的钱。