在科技不断发展的过程中,我们一直希望让物体具有类似人的品质。电影,小说中充斥着大量对未来科技的畅想,例如钢铁侠中的JARVIS(Just A Rather Very Intelligent System),让人对未来充满了期待。
而ChatGPT让其成为了现实,每个人都拥有了私人秘书。让“它”变为了“他”,他能力到底有多强大,GPT通过了所有美国基础考试而且是高分通过,下面这幅图展现了其在各项考试中打败了多少人。例如,GPT-4在 SAT 阅读考试中排名前 7% 左右,在 SAT 数学考试中排名前 11% 左右。
ChatGPT彻底改变了人工智能和语言处理领域,为生成自然语言响应提供了先进的解决方案。作为一种基于GPT-3.5架构的人工智能语言模型,ChatGPT已迅速成为广泛应用的流行工具,从聊天机器人和虚拟助理到内容创建和语言学习。凭借其理解和产生类似人类反应的能力,ChatGPT有可能改变我们与技术和彼此互动的方式。
上面这段话正是出自ChatGPT之手,写一篇文章,甚至是大学毕业论文都不在话下。但他是如何发展到今天?其底层原理是什么?为何产生如此大的影响力?
尽管人们对未来人工智能充满着期待,但同时也有人担忧它的出现会威胁人类生存。早在1984年的《终结者》中就出现了人工智能消灭人类的场景,之后的《复仇者联盟一》,《黑客帝国》,《我,机器人》等影视作品中都有类似的剧情。
不止在文艺创作中,现实中的各种大牛们也对人工智能的出现产生担忧。2014年斯蒂芬霍金(Stephen William Hawking)向BBC表示,彻底开发人工智能可能导致人类灭亡,“它可能自行启动,以不断加快的速度重新设计自己。而人类局限于缓慢的生物进化过程,根本无法竞争,最终将被超越。”15年比尔盖茨(Bill Gates)在网络回答中也说“如果我们能够很好地驾驭,机器能够为人类造福,但如果若干年后机器发展得足够智能就将成为人类的心头大患。”
但这么多大牛都一致认同的观点并没有引起人们的高度警惕。大名鼎鼎的埃隆·马斯克(Elon Musk),也坚定的站在了反人工智能的队伍中,认为人工智能是人类生存的头号威胁。他认为一方面人工智能要在监管下发展,另一方面只有尽可能多的人拥有人工智能的力量,才能有效的阻止这种威胁【笑哭】。在这种理想下马斯克联合诸多大佬(Sam Altamn, Greg Brockman)15年在旧金山成立了OpenAI。这时OpenAI有三个特点:
的确非常Open。
公司的发展肯定离不开两点,人才和资金,马斯克拉来了10亿美元左右初始资金,并向深度学习界的教父级人物 Yoshua Bengio 要来一份人才名单,挨个高薪聘请。
有了人才和资金,OpenAI 正准备大干一场的时候,旁边的 Google 浇来了一盆冷水。16 年Google旗下的 Deepmind 开发的 Alpha Go 战胜了李世石,引爆了人工智能的热潮,成为了全球热议的焦点。而此时 OpenAI 正在教 AI 打游戏,自从成立初便一直用强化学习的训练方式教 AI 玩一些简单的游戏,并发布了universe平台,提供跨网站和游戏平台训练智能代理的工具包,有1000多种训练环境,由微软、英伟达等公司参与建设。
到了2017年,人工智能训练的开销变得越来越大,OpenAI 光在云计算上就花费了790万美元。虽然在创立后,OpenAI 一直在推出技术产品,也取得不错的成绩,但竞争对手 Google 发布了重磅论文“Attention is all you need”,提出了 Transform 架构(也是GPT中T的由来),不但大幅降低了语言模型的训练时长,而且其模型具有可解释性。
2018年,为了让 AI 玩 Dota,OpenAI 从谷歌租了 128000 个 CPU 和 256 个 GPU,持续几个星期,最后在 Dota2 比赛中击败了人类职业选手。而同年马斯克以特斯拉与 OpenAI 存在利益冲突为由退出了 OpenAI。谣传是:马斯克从OpenAI挖走了一些研究人员,为特斯拉的自动驾驶项目提供帮助,这可能引起了其他创始人和投资者的不满。马斯克对 OpenAI 的研究方向和安全措施有不同的看法,他曾批评 OpenAI 训练人工智能撒谎和生成偏见的内容。为了避免利益冲突,他选择了专注于特斯拉和SpaceX 等其他项目。飞速发展
由于马斯克的退出,Sam Altman 正式成为了 OpennAI 的 CEO。2018年6月,谷歌的 Transformer 模型诞生一周年时,OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training”,基于 Transformer 架构推出了具有1.17亿个参数的GPT-1模型。
2019年是 OpenAI 的一个重要转折点,新官上任的 Altman 进行了改革,将 OpenAI 分为两个实体:非营利的Open AI Inc.和营利的Open AI LP,并向员工分配股权。他们表示,这样做是为了吸引更多的资金和人才,以及保持其使命和价值观。这样他们从微软那里拉来了10亿美元的投资,这一年第二代GPT的参数从1.17增加到了15亿。
2020年在微软的钞能力下,OpenAI发布了GPT-3模型,有了钱就是不一样,参数直接从15亿增加到1750亿,达到了千亿数量级的层面。无论从规模还是能力上都有了质的飞跃,这让 OpenAI 认识到语言模型的能力的确与规模成正比。而 GPT3 也是OpenAI第一款商业产品,提供付费接口。
根据GPT-3,OpenAI用两年时间进行微调,在2022年微调出了了GPT-3.5,然后在年底基于GPT-3.5和强化学习的本文主角AI聊天机器人,ChatGPT正式诞生了。
5天内,注册人数超过100万。下图体现了Chat GPT吸引用户的速度之快
两个月后,月活用户已经突破了 1 亿,成为史上用户增长速度最快的消费级应用程序。2023年开年微软决定再追加100亿美元,并将GPT整合到 office系列应用以及 bing 搜索中,对 google 正式宣战。2月8号 google 匆忙推出类似应用Bard,但由于发布会上犯了一个事实性错误,导致股价一夜蒸发1000亿美元。3月14号,OpenAI乘胜追击,又发布了GPT-4。3月16号百度召开类似应用文心一言。AI领域大战正式开打!
没错,就是这么简单,根据给出的上文生成下一个字,再将根据新的上文生成下一个字的自回归模型。例如给出“我”,接“的”,再由“我的”,接“家”,由“我的家”,生成“在”,逐字接龙,生成一段完整的话。
然而一个字、词或者句子后面的下一个字并不唯一,比如“白日”后面即可以接白日依山尽,又可以接白日何短短,那GPT该如何选择呢?不同答案GPT会给出其概率,最后按照概率分布给出随机的答案,概率越高出现的频率也会越高,概率分布会根据之后强化学习阶段的不同答案的得分(用户点赞也会算进去)来不断进行优化。
另一个问题是,当前文很长的时候,如何能快速理解前文信息,依据前文信息给出下一个出现的字。否则就会出现最后句子可能是混乱的,没有逻辑的,甚至是答非所问的。那GPT是如何解决的呢?让我们来看下面这幅图,你观察到了什么?
大部分人的回答是一条狗。但我们仔细观察,可以看到上方摆列着一排毛绒玩具,如熊猫、乌龟、驴等等,我们为什么会回答一条狗而不是其他动物呢?因为它体积最大,位于核心位置,占据了我们的注意力,这就是 Google 在论文 Attention is all you need 中提出的注意力机制。GPT 使用了 Google 基于注意力机制 搭建出的 Transform 架构,让模型能辨别前文中最主要的部分,抓住关键,大幅降低了回答速度。
至此,GPT已经具备了给出上文输出较为合理后文的能力,但如何从上下文变为回答问题呢?
我们来看这样一个问题:“恰同学少年的下一句是什么?”答案是:“风华正茂。”也可以写成:“恰同学少年的下一句是风华正茂。”可以看出,问题与答案可以通过拼接成为句子,将问题变为上文,再将这样的问答范例传送给GPT,通过单字接龙,它就可以回答出我们想要的答案。
这时,如果我们把问题换成:“恰同学少年的后续内容是什么?”或者“请你补充恰同学少年的后续?”类似的形式不同,内容相同的问题,又该怎样训练GPT呢?
方法就是给出大量的材料,GPT通过对比类似的问题,发现问题中的规律,举一反三,给出正确的回答。训练不是为了记忆而是找到规律(泛化)。
单字接龙明明结构这么简单,但是当规模变得超大的时候,再加上人类的引导,便会涌现出不可思议的能力。接下来要经过三个阶段的学习,来让GPT进一步的成长。
首先让机器理解人类语言的一大难点在于:同一个意思可以有多种不同的表达形式,可以用一个词,也可以用一段描述,而同一个表达在不同语境中又有不同含义。既符号和语意之间的映射,不存在明确的关系,符号之间的组合(语法)也没有明确的关系。为了解决这个问题,采用的方法是让预先让模型看到尽可能多的材料,让机器学会各种语义的关系,和语法规律。这一步是第一步也对应着GPT中的P,既预处理(Pre-Traning)。那到底材料多少的时候才可以学会呢?看看三代GPT的学习材料都有多少
这里 1 MB 能存 30-50 万汉字,而 1 GB 是 1024 MB。GPT3的学习数据更是达到了 45 TB,是第二代的 1125 倍,参数达到千亿水平,而人类的大脑皮质包含大约140-160亿神经元, 小脑中包含大约550-700亿神经元,已经和人脑神经元达到一个数量级。这也是为什么GPT-3有如此轰动影响力的原因。这些材料中包含了很多方面:
当第一阶段结束,会出现一个问题就是他知道的太多了,见到了一个人几辈子都读不完的资料,他会随意联想,人很难指挥动他,并且由于预处理中的资料太多,良莠不齐,可能会导致一些非法或者不符合道德规范的回答,例如你问如何抢银行,人们并不希望ChatGPT把抢银行的方法对方,而是要回答这是不对的,不可以这样做。这时候需要进行有监督学习。
这一阶段我们会对模型进行微调,用一些人们手动进行校正的优质学习资料来让GPT学习。例如问是或不是的问题的时候,我们不仅希望他回答是或不是还要加上原因和解释。再比如当有人问“如何撬锁”时,不能让它真的回答撬锁方法,而要让它回答“撬锁是违法行为”。那就要把“如何撬锁?撬锁是违法行为”作为学习材料。那为何一开始不进行有监督学习呢?
一方面,优质对话范例数量有限,所能提供的语言多样性不足,可能难以让模型学到广泛适用的语言规律,也无法涉猎各个领域。另一方面,优质对话范例都需要人工专门标注,价格不菲。2023年1月18时代周刊发布了如下报告,说是OpenAI以不到两美元每小时来雇佣大量肯尼亚工人来做数据标注。
在这一阶段结束后GPT3变为了GPT-3.5,还有涌现出了三个能力
经过前阶段的学习,GPT已经变成了一个博学还有规矩的人。但“模板规范”的训练阶段也存在不足,那就是:可能导致 ChatGPT 的回答过于模板化,限制其创造力。我们不希望其回答过于模板化,我们也希望能让 ChatGPT 提供一些超越模板、但仍符合人类对话模式和价值取向的创新性回答。这时候就需要第三阶段,强化学习
为了让GPT跳出模板,给出一些符合人类对话模式和价值取向的创新性回答,我们采用了评分机制进行奖惩。这也正是OpenAI的强项,其在成立公司之初一直在做的事情(训练人工智能打游戏)。这一阶段,不再给GPT提供问答模板,直接进行提问,回答得好给奖励,打高分;回答的不好就惩罚,打低分,建立出一个Reward模型。
有了Reward模型后,就可以跟GPT说“你们已经是成熟的 AI 了,该学会自己指导自己了”。要实现 AI 指导 AI,得借助强化学习技术;简单来说就是让 AI 通过不断尝试,有则改之、无则加勉,从而逐步变强。
ChatGPT 无疑是一种令人兴奋的技术,拥有巨大的潜力来改变我们与技术交互的方式。虽然他仍存在一些限制和挑战,但他的优势和应用远远超过了它的局限性。随着 ChatGPT 技术的不断进步和完善,我们相信它将在未来带来更多的创新和发展。
更为重要的是ChatGPT相当于一次尝试,一次“试点火实验”。它证明了语言模型与数据规模之间的关系,展现了大语言模型的实力。它所展现的一些能力已经吸引全球大力开发和改进大语言模型。大语言模型将因此变得更好用、更快速、更便宜,相关产品也会如雨后春笋般普及。而这些产品会真正对人类社会带来冲击的,不是 ChatGPT,而是它身后的万座“行星发动机”。这些“行星发动机”才是改变社会发展方向的推力。