开源大语言模型Llama 2测试 (Aznalcollar 尾矿坝)

1年前浏览1517

1. 引言

ChatGPT的诞生促使许多自然语言处理公司开发基于本地的大语言模型产品【GPT4all---本地部署的微型大语言模型】，其中最有影响力的是Meta公司的 LLaMA (Large Language Model Meta AI)，Meta声称LLaMA模型的规模仅为竞争对手 ChatGPT 的十分之一，但性能却优于GPT-3模型。因此理论上任何人可以在自己的计算机上使用接口【LangChain---大型语言模型(LLM)的标准接口】构建与ChatGPT相似的聊天系统，但硬件要求限制了大多数普通用户实现这一想法。

最近，NVIDIA公司在其网页上发布了LLaMA 2模型，供所有人免费测试LLaMA 2。本文简要讨论了使用这个大语言模型的参数设置，使用Aznalcollar尾矿坝测试了这个产品，并使用Bing Chat和WebChatGPT进行了验证。

2. LLaMA 2简介

Llama 2是一个能够根据提示生成文本和代码的大型语言AI模型。这是对ChatGPT, Bard, Claude等大语言模型的回应，任何人都可以免费将其用于研究和商业目的。有些人戏称，由于Meta干不过Google和OpenAI，因此干脆免费让大家用，以应对与其它公司的竞争。Llama 2模型使用的仍然是Transformer技术【BERT模型的应用回顾(阶段性总结)】，目前提供了3个不同规模的模型，具有 70 亿个参数的 7B、具有 130 亿个参数的 13B 和具有 700 亿个参数的 70B。不言而喻，7B模型在较低规格的硬件上运行速度最快，显著的缺点是生成文本的准确性很差。

即便如此，在普通的计算机上仍然运行不了7B模型，GPU至少要有12G~16G，我的计算机GPU仅有6G，这也是为什么早在两年前就放弃了GPT-2的训练【不得已而为之---CPU下使用gpt2-large模型进行微调训练；GeotechSet数据集在GPT2上的训练过程】。

Llama 2在各种基准测试(多任务语言理解和TriviaQA阅读理解数据集)上与其他开源和闭源模型进行了比较，包括GPT-3.5，GPT-4，PaLM和PaLM 2等。测试结果显示，70B模型优于其他开源的LLM，在大多数基准测试上通常与 GPT-3.5 和 PaLM 一样好，但性能不如 GPT-4 或 PaLM 2。自从6个月前LLaMA发布以来，其核心开发者超过半数已经离职，Meta将重组开发团队，继续开发LLaMA 2。

Anyway, NVIDIA公司发布的Llama 2模型使得我们有机会体验这个可望而不可及的大语言模型。

3. Llama 2的参数设置

所有的大语言模型背后均为概率计算，输入参数控制着输出文本的质量和长度，只不过标准的ChatGPT内置了这些参数值，用户不可以自行调节。

3.1 Temperature

温度(Temperature)参数的取值范围为0~1, 低的数值表示较小的随机度，意味着结果越精确【新探索---EleutherAI的GPT Neo/GPT-3模型】，不会出现一本正经的胡说八道，即所谓的人工智能幻觉(AI hallucinations)。例如，在Bing Chat中，你会发现在开始对话前有三个选项：Create, Balance, Precise，表示的就是温度值，对于自然科学和工程领域，我们优先选择Precise。

3.2 Top-P

Top-P是一个抽样方法，它是在Top-K取样技术的基础上发展起来的。在Top-P抽样中，不是只从最有可能的K个词中抽样，而是从累积概率超过概率P的尽可能小的词集中选择，然后在这个小的词集中重新分配概率，单词集的数量可以根据下一个单词的概率分布动态地增加和减少。在实践中Top-P一般取0.95以上。在早期GPT2的试验中，曾经讨论过这个参数，参看如下的链接：

3.3 输出长度

作为显示，在这个NVIDIA Llama 2版本中，输出长度(Max output tokens)的最大值只有512个token，这意味着生成的本文非常短。另一方面，ChatGPT的默认值为2048个token，在GPT-4中用户能够设置的最大值为4096个token。在某些可以定制的GPT-4中，可以设置的最大值为8191个token，理论上可以完成万字长文，但实际上可能达不到这个数值，这取决于提示语的广度和深度。显然，设置大的token值意味着花更多的钱。

4. Llama 2测试

使用"Explain Aznalcòllar Tailings Dam Failure"作为提示语，完成了如下回答，由于受Token的限制，Llama 2仅产生了如下文本：

来源：计算岩土力学

通用理论控制试验人工智能数控

著作权归作者所有，欢迎分享，未经许可，不得转载

首次发布时间：2023-09-18