【GPT-4】从官网的信息来总结GPT-4
今天凌晨OpenAI发布了GPT-4,再一次刷新了人工智能界对于“智能”这一概念上限的认知,也在我的朋友圈(无论是不是计算机专业的)里掀起了不小的波澜,大家都对这一技术的诞生表达着不同的看法。由于很多人都已经对ChatGPT有了使用的经历,甚至研究过其内部的技术,所以当知道GPT-4性能更优的时候都多多少少感到惊讶、喜悦或者害怕。那么GPT-4到底有什么不一样呢?
首先需要知道什么是GPT,GPT的全称是Generative Pre-trained Transformer,即生成式预训练Transformer,是一系列参数量以及预训练数据量巨大的语言模型,能够在NLP领域的许多任务上达到出色的效果。除去今天的GPT-4,在这之前分别有GPT-1、GPT-2、GPT-3和GPT-3.5这四个里程碑模型,参数量不断变大,数据量也不断变多。 GPT-1的训练分为无监督的Pre-training和有监督的Fine-tuning,图1的左图所示的是其论文中的架构图。GPT-1中使用的是一个被称作单向Transformer的结构,它的Encoder使用的是一般的Self-Attention,而Decoder则采用Masked Self-Attention,即解码器只对当前词语以及前面的词语进行Attention,具体的结构如图1的后一张图(OpenAI GPT)所示。在训练时,将句子的n个词的嵌入向量加上位置编码,然后输入到这样的Transformer中,n个输出分别预测当前位置的下一个词语,而Masked Self-Attetion的存在使得每次预测时是无法看到后面的词的,保证了不会提前透露出答案。图1的右边是针对不同问题下如何做微调的,根据不同的任务输入也需要进行相应的调整。 GPT-2并没有在结构上进行过多的创新设计,只是考虑到GPT-1的泛化性能不是很强,于是就采用了更多的网络参数与更大的数据集。同时GPT-2舍弃了原本的训练模式,取消了Fine-tuning,采用更大更强的网络去训练,不再细化多任务的情况,让这个复杂庞大的模型自己去覆盖所有的监督任务,因此,它验证了一点:只要模型能不断扩大,那么其性能就有可观的上升空间。 GPT-3则沿袭了GPT-2的观点,进一步饲养了模型,使其达到了1750亿的参数量,训练数据也有45TB之大。该模型的评估主要就是在小样本、单样本甚至零样本等问题上进行测试。当然,GPT-3也有一个很重要的概念称作In-Context Learning(上下文学习,ICL),ICL的概念如下图所示,大概就是说需要一些例子来做演示,然后当真正需要进行测试的时候,这些相关的例子和需要查询的问题一起输入到模型中预测。另一方面,提示词Prompt的存在也极大程度上模拟了人类语言的交互方式。 GPT-3.5,也就是我们最熟悉的ChatGPT的底子,它先是有监督地微调了一个初始模型,然后通过人工的对话,基于人类的反馈进行强化学习(RLHF),包括了人类提问机器答、机器提问人类回答,并且不断迭代,让模型逐渐有了对生成答案的评判能力。当然你直接问它的话,得到的结果可能是这样的,可信度的话,就不清楚了: 相较于前几个版本的GPT模型,GPT-4最吸引人的地方就在于多模态,它可以同时对图像和文本进行处理并作出反馈,从而在使用上可以完成更多更丰富的任务。并且OpenAI还对其性能进行了进一步的优化,无论是速度还是准确性还是风格多样性上都有了不小的突破。这一节,我将从其官网https://openai.com/product/gpt-4的内容进行分析与介绍。(一)GPT-4可以以更准确的结果来解决更复杂的问题,这得益于其更宽泛的通用知识与问题解决能力: 官网分三个tab来展示GPT-4的功能,首先是Creativity(创造力),GPT-4能够根据用户的需要,生成、编辑以及迭代出更具有创造性和合作性的技术性写作任务,比如写歌、写剧本或者模仿一个人的书写风格。如下图所示,样例需要GPT-4用一句话描述灰姑娘的情节,这对于一般的大语言模型都能做到,但是有一条额外限制:“这句话的每个单词开头必须是从A-Z的字母表的字母,并且不能有重复的开头字母”,这句话的存在极大地限制了模型的处理,并且模型需要先理解这个任务再生成出符合条件的结果,而事实上,样例给出的输出结果完全满足了这个要求。 第二个是对图像输入的处理。GPT-4能够同时有效地处理图像和文本,并且完成标题生成、分类、图像内容分析等任务,如下图中样例的图像和提问:“我能用这些材料做个啥”,GPT-4的回答则是根据图像中的对象、以及提问的目标综合考虑给出的,同时我们也能注意到它最后的那句“这里只是一些例子,而可能性是无穷的”,不仅很好地做了结尾,也让我们感受到“AI的人性化”。 第三个是长文本处理,GPT-4能够处理25000词以上的文本,允许用户进行文本生成、对话、文档搜索、文本分析,比如下面图中需要GPT-4从维 基 百 科的资料中总结描述Rihanna在超级碗上的表现,并且评价是什么使得这很特别,模型也做到了。(二)GPT-4在ChatGPT引以为傲的推理能力上展现出更优的效果: 下图的样例中,输入都是对一个场景的描述:“Andrew在上午11点到下午3点间有空,Joanne从中午到下午2点以及下午3点半到下午5点有空,Hannah在中午有半个小时的休闲时间,然后就是下午4点到6点。所以如果要给这3个人开个30分钟的会议,啥时候开始比较好?”ChatGPT给出的结果是下午4点,而这个时间段Andrew是没空的,相比之下,GPT-4给出的12点则是正确的结果。(三)GPT-4 考试比ChatGPT得分更高排名更好: 在统一律师考试(UBE)和生物奥林匹克竞赛(BBO)上都完爆ChatGPT。(四)紧跟GPT-1~GPT-3的研究,OpenAI采用更多的数据和更多的算力来提升模型的性能,创建更复杂和更强大的大语言模型。 (五)OpenAI花了6个月的时间使GPT-4更安全、更一致。在内部评估中,GPT-4响应不允许内容的可能性降低了82%,产生事实回复的可能性高出40%。 GPT-4是在人工反馈上训练的,他们归纳了更多的人工反馈(包括ChatGPT用户提交的反馈)以改善GPT-4的行为,同时,还引入了50多位专家,在人工智能安全领域进行了早期的反馈输入。 GPT-4将以前模型的实际使用经验应用到其安全研究和监测系统中,与ChatGPT一样,随着越来越多的人使用,它也会越来越好。 GPT-4的高级推理和指令遵循的能力加速了安全方面的研究工作,研究团队使用GPT-4来帮助创建用于模型微调的训练数据,并在训练、评估和监测中对分类器进行迭代。2. 创意性写作(例子中是要写一篇关于寂静山林的俳句)