【GPT-4】从官网的信息来总结GPT-4

1年前浏览457

今天凌晨OpenAI发布了GPT-4，再一次刷新了人工智能界对于“智能”这一概念上限的认知，也在我的朋友圈（无论是不是计算机专业的）里掀起了不小的波澜，大家都对这一技术的诞生表达着不同的看法。由于很多人都已经对ChatGPT有了使用的经历，甚至研究过其内部的技术，所以当知道GPT-4性能更优的时候都多多少少感到惊讶、喜悦或者害怕。那么GPT-4到底有什么不一样呢？

一、什么是GPT以及GPT的发展

首先需要知道什么是GPT，GPT的全称是Generative Pre-trained Transformer，即生成式预训练Transformer，是一系列参数量以及预训练数据量巨大的语言模型，能够在NLP领域的许多任务上达到出色的效果。除去今天的GPT-4，在这之前分别有GPT-1、GPT-2、GPT-3和GPT-3.5这四个里程碑模型，参数量不断变大，数据量也不断变多。

GPT-1的训练分为无监督的Pre-training和有监督的Fine-tuning，图1的左图所示的是其论文中的架构图。GPT-1中使用的是一个被称作单向Transformer的结构，它的Encoder使用的是一般的Self-Attention，而Decoder则采用Masked Self-Attention，即解码器只对当前词语以及前面的词语进行Attention，具体的结构如图1的后一张图（OpenAI GPT）所示。在训练时，将句子的n个词的嵌入向量加上位置编码，然后输入到这样的Transformer中，n个输出分别预测当前位置的下一个词语，而Masked Self-Attetion的存在使得每次预测时是无法看到后面的词的，保证了不会提前透露出答案。图1的右边是针对不同问题下如何做微调的，根据不同的任务输入也需要进行相应的调整。

GPT-2并没有在结构上进行过多的创新设计，只是考虑到GPT-1的泛化性能不是很强，于是就采用了更多的网络参数与更大的数据集。同时GPT-2舍弃了原本的训练模式，取消了Fine-tuning，采用更大更强的网络去训练，不再细化多任务的情况，让这个复杂庞大的模型自己去覆盖所有的监督任务，因此，它验证了一点：只要模型能不断扩大，那么其性能就有可观的上升空间。

GPT-3则沿袭了GPT-2的观点，进一步饲养了模型，使其达到了1750亿的参数量，训练数据也有45TB之大。该模型的评估主要就是在小样本、单样本甚至零样本等问题上进行测试。当然，GPT-3也有一个很重要的概念称作In-Context Learning（上下文学习，ICL），ICL的概念如下图所示，大概就是说需要一些例子来做演示，然后当真正需要进行测试的时候，这些相关的例子和需要查询的问题一起输入到模型中预测。另一方面，提示词Prompt的存在也极大程度上模拟了人类语言的交互方式。

GPT-3.5，也就是我们最熟悉的ChatGPT的底子，它先是有监督地微调了一个初始模型，然后通过人工的对话，基于人类的反馈进行强化学习（RLHF），包括了人类提问机器答、机器提问人类回答，并且不断迭代，让模型逐渐有了对生成答案的评判能力。当然你直接问它的话，得到的结果可能是这样的，可信度的话，就不清楚了：

二、GPT-4的一些改进

相较于前几个版本的GPT模型，GPT-4最吸引人的地方就在于多模态，它可以同时对图像和文本进行处理并作出反馈，从而在使用上可以完成更多更丰富的任务。并且OpenAI还对其性能进行了进一步的优化，无论是速度还是准确性还是风格多样性上都有了不小的突破。这一节，我将从其官网https://openai.com/product/gpt-4的内容进行分析与介绍。

（一）GPT-4可以以更准确的结果来解决更复杂的问题，这得益于其更宽泛的通用知识与问题解决能力：

官网分三个tab来展示GPT-4的功能，首先是Creativity（创造力），GPT-4能够根据用户的需要，生成、编辑以及迭代出更具有创造性和合作性的技术性写作任务，比如写歌、写剧本或者模仿一个人的书写风格。如下图所示，样例需要GPT-4用一句话描述灰姑娘的情节，这对于一般的大语言模型都能做到，但是有一条额外限制：“这句话的每个单词开头必须是从A-Z的字母表的字母，并且不能有重复的开头字母”，这句话的存在极大地限制了模型的处理，并且模型需要先理解这个任务再生成出符合条件的结果，而事实上，样例给出的输出结果完全满足了这个要求。

第二个是对图像输入的处理。GPT-4能够同时有效地处理图像和文本，并且完成标题生成、分类、图像内容分析等任务，如下图中样例的图像和提问：“我能用这些材料做个啥”，GPT-4的回答则是根据图像中的对象、以及提问的目标综合考虑给出的，同时我们也能注意到它最后的那句“这里只是一些例子，而可能性是无穷的”，不仅很好地做了结尾，也让我们感受到“AI的人性化”。

第三个是长文本处理，GPT-4能够处理25000词以上的文本，允许用户进行文本生成、对话、文档搜索、文本分析，比如下面图中需要GPT-4从维基百科的资料中总结描述Rihanna在超级碗上的表现，并且评价是什么使得这很特别，模型也做到了。

（二）GPT-4在ChatGPT引以为傲的推理能力上展现出更优的效果：

下图的样例中，输入都是对一个场景的描述：“Andrew在上午11点到下午3点间有空，Joanne从中午到下午2点以及下午3点半到下午5点有空，Hannah在中午有半个小时的休闲时间，然后就是下午4点到6点。所以如果要给这3个人开个30分钟的会议，啥时候开始比较好？”ChatGPT给出的结果是下午4点，而这个时间段Andrew是没空的，相比之下，GPT-4给出的12点则是正确的结果。