名奢网 名表 名表日报 查看内容

ChatGPT的各项超才干从哪儿来?万字拆解追溯技术道路图来 ...

2023-3-24 19:51| 发布者: 夏梦飞雨| 查看: 162| 评论: 0

放大 缩小
简介:机器之心发布作者:符尧、彭昊、Tushar Khot、郭志江等 符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。他与彭昊、Tushar Khot在艾伦人工智能研讨院 (Allen Institu ...

机器之心发布


作者:符尧、彭昊、Tushar Khot、郭志江等


符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。他与彭昊、Tushar Khot在艾伦人工智能研讨院 (Allen Institute for AI) 共同完成英文原稿,与剑桥大学郭志江共同翻译为中文。
感激上海交通大学何俊贤,加州大学洛杉矶分校鲁盼,达特茅斯学院刘睿博对初稿的讨论与倡议。感激 Raj Ammanabrolu (Allen Institute for AI), Peter Liu (Google Brain), Brendan Dolan-Gavitt (New York University), Denny Zhou (Google Brain) 对终稿的讨论和倡议,他们的倡议极大水平上增加了本文的完好度。

最近,OpenAI的预锻炼模型ChatGPT给人工智能范畴的研讨人员留下了深化的印象和启示。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的才干远远超越了自然言语处置研讨者们的预期。于是我们自然就有一个问题:ChatGPT 是怎样变得这么强的?它的各种强大的才干到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现才干[1](Emergent Ability),追溯这些才干的来源,希望能够给出一个全面的技术道路图,来阐明 GPT-3.5[2] 模型系列以及相关的大型言语模型[3] 是如何一步步进化成目前的强大形态。


我们希望这篇文章能够促进大型言语模型的透明度,成为开源社区共同努力复现 GPT-3.5 的道路图。


致国内的同胞们:


  • 在国际学术界看来,ChatGPT / GPT-3.5 是一种划时期的产物,它与之前常见的言语模型 (Bert/ Bart/ T5) 的区别,简直是导弹与弓箭的区别,一定要惹起最高水平的注重。
  • 在我跟国际同行的交流中,国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研讨院(如谷歌大脑,微软研讨院)都曾经全面拥抱大模型
  • 在当前这个阶段,国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩展,假如现状持续下去,极有可能呈现技术断代
  • 此诚危殆存亡之秋

目录

ChatGPT的各项超才干从哪儿来?万字拆解追溯技术道路图来 ...


多年以后,面对行刑队,奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个悠远的下午。 —— 《百年孤独》 加西亚·马尔克斯

一、2020 版初代 GPT-3 与大范围预锻炼

初代GPT-3展示了三个重要才干:


  • 言语生成:遵照提示词(prompt),然后生成补全提示词的句子 (completion)。这也是今天人类与言语模型最普遍的交互方式。
  • 上下文学习 (in-context learning): 遵照给定任务的几个示例,然后为新的测试用例生成处置计划。很重要的一点是,GPT-3固然是个言语模型,但它的论文简直没有谈到“言语建模” (language modeling) —— 作者将他们全部的写作肉体都投入到了对上下文学习的愿景上,这才是 GPT-3的真正重点。
  • 世界学问 (world knowledge):包含事实性学问 (factual knowledge) 和常识 (commonsense)。

那么这些才干从何而来呢?


基本上,以上三种才干都来自于大范围预锻炼:在有3000亿单词的语料上预锻炼具有1750亿参数的模型( 锻炼语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。其中:


  • 言语生成的才干来自于言语建模的锻炼目的 (language modeling)。
  • 世界学问来自 3000 亿单词的锻炼语料库(不然还能是哪儿呢)。
  • 模型的 1750 亿参数是为了存储学问,Liang et al. (2022) 的文章进一步证明了这一点。他们的结论是,学问密集型任务的性能与模型大小息息相关[4] 。
  • 上下文学习的才干来源及为什么上下文学习能够泛化,依旧难以溯源。直觉上,这种才干可能来自于同一个任务的数据点在锻炼时按次第排列在同一个 batch 中。但是,很少有人研讨[5] 为什么言语模型预锻炼会促使上下文学习,以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。

令人猎奇的是,初代的GPT-3有多强。


其实比较难肯定初代 GPT-3(在 OpenAI API 中被称为davinci)到底是“强”还是“弱”。一方面,它合理地回应了某些特定的查询,并在许多数据集中抵达了还不错的性能;另一方面,它在许多任务上的表示还不如 T5 这样的小模型(参见其原始论文)。在今天(2022 年 12 月)ChatGPT 的规范下,很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型试图复现初代 GPT-3,但它的才干与当今的规范也构成了尖利的对比。许多测试过 OPT 的人也以为与往常的text-davinci-002相比,该模型的确 “不咋地”。固然如此,OPT 可能是初代 GPT-3 的一个足够好的开源的近似模型了(依据 OPT 论文和斯坦福大学的 HELM 评价)。


固然初代的 GPT-3 可能名义上看起来很弱,但后来的实考证明,初代 GPT-3 有着十分强的潜力。这些潜力后来被代码锻炼、指令微调 (instruction tuning) 和基于人类反响的强化学习 (reinforcement learning with human feedback, RLHF) 解锁,最终体展示出极为强大的突现才干。


二、从 2020 版 GPT-3 到 2022 版 ChatGPT

从最初的 GPT-3 开端,为了展示 OpenAI 是如何展开到ChatGPT的,我们看一下 GPT-3.5 的进化树:

ChatGPT的各项超才干从哪儿来?万字拆解追溯技术道路图来 ...


2020 年 7 月,OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文[6] ,从此它就开端不时进化。在 2021 年 7 月,Codex 的论文[7] 发布,其中初始的 Codex 是依据(可能是内部的)120 亿参数的 GPT-3 变体中止微调的。后来这个 120 亿参数的模型演化成 OpenAI API 中的 code-cushman-001。在 2022 年 3 月,OpenAI 发布了指令微调[8] (instruction tuning) 的论文,其监视微调[9] (supervised instruction tuning) 的部分对应了davinci-instruct-beta和text-davinci-001。在 2022 年 4 月至 7 月的,OpenAI 开端对code-davinci-002模型中止 Beta 测试,也称其为 Codex。然后code-davinci-002、text-davinci-003和ChatGPT 都是从code-davinci-002中止指令微调得到的。细致信息请参阅 OpenAI的模型索引文档[10] 。


固然 Codex 听着像是一个固然代码的模型,但code-davinci-002可能是最强大[11] 的针对自然言语的GPT-3.5 变体(优于 text-davinci-002和 -003)。code-davinci-002很可能在文本和代码上都经过锻炼,然后依据指令中止调整(将在下面解释)。然后2022 年 5-6 月发布的text-davinci-002是一个基于code-davinci-002的有监视指令微调 (supervised instruction tuned) 模型。在text-davinci-002上面中止指令微调很可能降低了模型的上下文学习才干,但是增强了模型的零样本才干(将在下面解释)。然后是text-davinci-003和 ChatGPT,它们都在 2022 年 11 月发布,是运用的基于人类反响的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了(但依旧比code-davinci-002差)一些在text-davinci-002 中丧失的部分上下文学习能力(大约是由于它在微调的时分混入了言语建模) 并进一步改进了零样本才干(得益于RLHF)。另一方面,ChatGPT 似乎牺牲了简直一切的上下文学习的才干换取建模对话历史的才干。


总的来说,在 2020 - 2021 年期间,在code-davinci-002之前,OpenAI 曾经投入了大量的肉体经过代码锻炼和指令微调来增强GPT-3。当他们完成code-davinci-002时,一切的才干都曾经存在了。很可能后续的指令微调,无论是经过有监视的版本还是强化学习的版本,都会做以下事情(稍后会细致阐明):


  • 指令微调不会为模型注入新的才干 —— 一切的才干都曾经存在了。指令微调的作用是解锁 / 激起这些才干。这主要是由于指令微调的数据量比预锻炼数据量少几个数量级(基础的才干是经过预锻炼注入的)。
  • 指令微调将 GPT-3.5 的分化到不同的技艺树。有些更擅长上下文学习,如text-davinci-003,有些更擅长对话,如ChatGPT。
  • 指令微调经过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文[12] 中称其为 “对齐税” (alignment tax)。许多论文[13] 都报道了code-davinci-002在基准测试中完成了最佳性能(但模型不一定契合人类希冀)。在code-davinci-002上中止指令微调后,模型能够生成愈加契合人类等候的反响(或者说模型与人类对齐),例如:零样本问答、生成保险和公正的对话回复、拒绝超出模型它学问范围的问题。

三、Code-Davinci-002和 Text-Davinci-002,在代码上锻炼,在指令上微调

在code-davinci-002和text-davinci-002之前,有两个中间模型,分别是 davinci-instruct-beta 和 text-davinci-001。两者在很多方面都比上述的两个-002模型差(例如,text-davinci-001 链式思想推理[14] 才干不强)。所以我们在本节中重点引见 -002 型号。


3.1 复杂推理才干的来源和泛化到新任务的才干


我们关注code-davinci-002和text-davinci-002,这两兄弟是第一版的 GPT3.5 模型,一个用于代码,另一个用于文本。它们表示出了三种重要才干与初代 GPT-3 不同的才干:


  • 响应人类指令:以前,GPT-3 的输出主要锻炼集中常见的句子。往常的模型会针对指令 / 提示词生成更合理的答案(而不是相关但无用的句子)。
  • 泛化到没有见过的任务:当用于调整模型的指令数量超越一定的范围时,模型就能够自动在从没见过的新指令上也能生成有效的回答。 这种才干关于上线部署至关重要,由于用户总会提新的问题,模型得答得出来才行。
  • 代码生成和代码了解:这个才干很显然,由于模型用代码锻炼过。
  • 应用思想链 (chain-of-thought) 中止复杂推理:初代 GPT3 的模型思想链推理的才干很弱以至没有。 code-davinci-002 和 text-davinci-002 是两个具有足够强的思想链推理才干的模型。
  • 思想链推理之所以重要,是由于思想链可能是解锁突现才干和超越缩放规律 (scaling laws) 的关键。请参阅上一篇博文[15] 。

这些才干从何而来?


与之前的模型相比,两个主要区别是指令微调代码锻炼。细致来说


  • 能够响应人类指令的才干是指令微调的直接产物。
  • 对没有见过的指令做出反响的泛化才干是在指令数量超越一定水平之后自动呈现的,T0[16] 、Flan[17] 和 FlanPaLM[18] 论文进一步证明了这一点
  • 运用思想链中止复杂推理的才干很可能是代码锻炼一个神奇的副产物。对此,我们有以下的事实作为一些支持:
  • 最初的 GPT-3 没有接受过代码锻炼,它不能做思想链
  • text-davinci-001 模型,固然经过了指令微调,但第一版思想链论文[19] 讲演说,它的它思想链推理的才干十分弱 —— 所以指令微调可能不是思想链存在的缘由,代码锻炼才是模型能做思想链推理的最可能缘由。
  • PaLM[20] 有 5% 的代码锻炼数据,能够做思想链。
  • Codex论文[21] 中的代码数据量为 159G ,大约是初代 GPT-3[22] 5700 亿锻炼数据的28%。code-davinci-002 及其后续变体能够做思想链推理。
  • 在 HELM 测试中,Liang et al. (2022)[23] 对不同模型中止了大范围评价。他们发现了针对代码锻炼的模型具有很强的言语推理才干,包含 120亿参数的code-cushman-001.。
  • 我们在 AI2 的工作[24] 也表明,当配备复杂的思想链时,code-davinci-002 在 GSM8K 等重要数学基准上是目前表示最好的模型
  • 直觉来说,面向过程的编程 (procedure-oriented programming) 跟人类逐步处置任务的过程很相似,面向对象编程 (object-oriented programming) 跟人类将复杂任务合成为多个简单任务的过程很相似。
  • 以上一切察看结果都是代码与推理才干 / 思想链 之间的相关性,但不一定是因果性。这种相关性很有趣,但往常还是一个待研讨的开放性问题。目前看来,我们没有十分确凿的证据证明代码就是思想链和复杂推理的缘由。
  • 此外, 代码锻炼另一个可能的副产品是长距离依赖,正如Peter Liu[25] 所指出:“言语中的下个词语预测通常是十分部分的,而代码通常需求更长的依赖关系来做一些事情,好比前后括号的匹配或援用远处的函数定义”。这里我想进一步弥补的是:由于面向对象编程中的类继承,代码也可能有助于模型树立编码层次结构的才干。我们将对这一假定的检验留给未来的工作。

另外还要留意一些细节差别:


  • text-davinci-002 与 code-davinci-002
  • Code-davinci-002 是基础模型,text-davinci-002 是指令微调 code-davinci-002 的产物(见 OpenAI 的文档[26] )。它在以下数据上作了微调:(一)人工标注的指令和等候的输出;(二)由人工标注者选择的模型输出。
  • 当有上下文示例 (in-context example) 的时分, Code-davinci-002 更擅长上下文学习;当没有上下文示例 / 零样本的时分, text-davinci-002 在零样本任务完成方面表示更好。从这个意义上说,text-davinci-002 更契合人类的等候(由于对一个任务写上下文示例可能会比较省事)。
  • OpenAI 不太可能故意牺牲了上下文学习的才干换取零样本才干 —— 上下文学习才干的降低更多是指令学习的一个反作用,OpenAI 管这叫对齐税。
  • 001 模型(code-cushman-001 和 text-davinci-001)v.s. 002 模型(code-davinci-002 和 text-davinci-002)
  • 001 模型主要是为了做纯代码 / 纯文本任务;002 模型则深度融合了代码锻炼和指令微调,代码和文本都行。
  • Code-davinci-002 可能是第一个深度融合了代码锻炼和指令微调的模型。证据有:code-cushman-001 能够中止推理但在纯文本上表示不佳,text-davinci-001 在纯文本上表示不错但在推理上不大行。code-davinci-002 则能够同时做到这两点。

3.2 这些才干是在预锻炼之后曾经存在还是在之后经过微调注入?


在这个阶段,我们曾经肯定了指令微调和代码锻炼的关键作用。一个重要的问题是如何进一步剖析代码锻炼和指令微调的影响?细致来说:上述三种才干能否曾经存在于初代的GPT-3中,只是经过指令和代码锻炼触发 / 解锁?或者这些才干在初代的 GPT-3 中并不存在,是经过指令和代码锻炼注入? 假如答案曾经在初代的 GPT-3 中,那么这些才干也应该在 OPT 中。因而,要复现这些才干,或答应以直接经过指令和代码调整 OPT。 但是,code-davinci-002 也可能不是基于最初的 GPT-3 davinci,而是基于比初代 GPT-3 更大的模型。假如是这种状况,可能就没措施经过调整 OPT 来复现了。研讨社区需求进一步弄分明 OpenAI 锻炼了什么样的模型作为 code-davinci-002 的基础模型。


我们有以下的假定和证据:


  • code-davinci-002的基础模型可能不是初代GPT-3 davinci 模型。以下是证据:
  • 初代的GPT-3在数据集 C4 2016 - 2019 上锻炼,而 code-davinci-002 锻炼集则在延长到2021年才终了。因而 code-davinci-002 有可能在 C4 的 2019-2021 版本上锻炼。
  • 初代的 GPT-3 有一个大小为 2048 个词的上下文窗口。code-davinci-002 的上下文窗口则为 8192。GPT 系列运用绝对位置嵌入 (absolute positional embedding),直接对绝对位置嵌入中止外推而不经过锻炼是比较难的,并且会严重损伤模型的性能(参考 Press et al., 2022[27] )。假如 code-davinci-002 是基于初代GPT-3,那OpenAI 是如何扩展上下文窗口的?
  • 另一方面,无论基础模型是初代的 GPT-3 还是后来锻炼的模型, 遵照指令和零样本泛化的才干都可能曾经存在于基础模型中,后来才经过指令微调来解锁而不是注入)
  • 这主要是由于 OpenAI 的论文[28] 讲演的指令数据量大小只需 77K,比预锻炼数据少了几个数量级。
  • 其他指令微调论文进一步证明了数据集大小对模型性能的对比,例如 Chung et al. (2022) 的工作中, Flan-PaLM 的指令微调仅为预锻炼计算的 0.4%。普通来说,指令数据会显著少于预锻炼数据。
  • 但是 ,模型的复杂推理才干可能是在预锻炼阶段经过代码数据注入
  • 代码数据集的范围与上述指令微调的状况不同。这里的代码数据量足够大,能够占领锻炼数据的重要部分(例如,PaLM 有 8% 的代码锻炼数据)
  • 如上所述,在 code-davinci-002 之前的模型 text-davinci-001 大约没有在代码数据上面微调过,所以它的推理 / 思想链才干是十分差的,正如第一版思想链论文中所讲演的那样,有时以至比参数量更小的 code-cushman-001 还差。
  • 分辨代码锻炼和指令微调效果的最好措施可能是比较 code-cushman-001、T5 和 FlanT5
  • 由于它们具有相似的模型大小(110亿 和 120亿),相似的锻炼数据集 (C4),它们最大的区别就是有没有在代码上锻炼过 / 有没有做过指令微调。
  • 目前还没有这样的比较。我们把这个留给未来的研讨。

四、text-davinci-003 和 ChatGPT,基于人类反响的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的能力

在当前阶段(2022 年 12 月), text-davinci-002、text-davinci-003 和 ChatGPT之间简直没有严厉的统计上的比较,主要是由于


  • text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。
  • ChatGPT 不能经过 OpenAI API 被调用,所以想要在规范基准上测试它很省事。

所以在这些模型之间的比较更多是基于研讨社区的集体阅历 (统计上不是很严厉)。不外,我们置信初步的描画性比较依旧能够提示模型的机制。


我们首先留意到以下 text-davinci-002,text-davinci-003 和 ChatGPT 之间的比较:


  • 一切三个模型都经过指令微调
  • text-davinci-002 是一个经过监视学习指令微调 (supervised instruction tuning) 的模型
  • text-davinci-003 和 ChatGPT基于人类反响的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。

这意味着大多数新模型的行为都是 RLHF 的产物


那么让我们看看 RLHF 触发的才干:


  • 翔实的回应: text-davinci-003 的生成通常比 text-davinci-002长[29] 。ChatGPT 的回应则愈加冗长,致使于用户必须明白请求“用一句话回答我”,才干得到愈加简约的回答。这是 RLHF 的直接产物。
  • 公正的回应:ChatGPT 通常对触及多个实体利益的事情(例如政治事情)给出十分均衡的回答。这也是RLHF的产物。
  • 拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身才干的分离,过滤器过滤掉一部分,然后模型再拒绝一部分。
  • 拒绝其学问范围之外的问题:例如,拒绝在2021 年 6 月之后发作的新事情(由于它没在这之后的数据上锻炼过)。这是 RLHF 最神奇的部分,由于它使模型能够隐式地域分哪些问题在其学问范围内,哪些问题不在其学问范围内。

有两件事情值得留意:


  • 一切的才干都是模型原本就有的, 而不是经过RLHF 注入的。RLHF 的作用是触发 / 解锁突现才干。这个论点主要来自于数据量大小的比较:由于与预锻炼的数据量相比,RLHF 占用的计算量 / 数据量要少得多。
  • 模型知道它不知道什么不是经过编写规则来完成的, 而是经过RLHF解锁的。这是一个十分令人诧异的发现,由于 RLHF 的最初目的是让模型生成复合人类希冀的回答,这更多是让模型生成保险的句子,而不是让模型知道它不知道的内容。

幕后发作的事情可能是:


  • ChatGPT: 经过牺牲上下文学习的才干换取建模对话历史的才干。这是一个基于阅历的观测结果,由于 ChatGPT 似乎不像 text-davinci-003 那样遭到上下文演示的激烈影响。
  • text-davinci-003:恢复了 text-davinci-002 所牺牲的上下文学习才干[30]进步零样本的才干[31] 。 依据instructGPT[32] 的论文,这是来自于强化学习调整阶段混入了言语建模的目的(而不是 RLHF 自身)。

五、总结当前阶段 GPT-3.5 的进化进程

到目前为止,我们曾经认真检查了沿着进化树呈现的一切才干,下表总结了演化途径:


表格中援用见[33]

ChatGPT的各项超才干从哪儿来?万字拆解追溯技术道路图来 ...


我们能够得出结论:


  • 言语生成才干 + 基础世界学问 + 上下文学习都是来自于预锻炼(davinci)
  • 存储大量学问的才干来自 1750 亿的参数量。
  • 遵照指令和泛化到新任务的才干来自于扩展指令学习中指令的数量(Davinci-instruct-beta)
  • 执行复杂推理的才干很可能来自于代码锻炼(code-davinci-002)
  • 生成中立、客观的才干、保险和翔实的答案来自与人类的对齐。细致来说:
  • 假如是监视学习版,得到的模型是text-davinci-002
  • 假如是强化学习版 (RLHF) ,得到的模型是text-davinci-003
  • 无论是有监视还是 RLHF ,模型在很多任务的性能都无法超越 code-davinci-002 ,这种由于对齐而构成性能衰退的现象叫做对齐税。
  • 对话才干也来自于 RLHF(ChatGPT),细致来说它牺牲了上下文学习的才干,来换取:
  • 建模对话历史
  • 增加对话信息量
  • 拒绝模型学问范围之外的问题

六、GPT-3.5 目前不能做什么

固然GPT-3.5是自然言语处置研讨中的重要一步,但它并没有完整包含许多研讨人员(包含 AI2)想象的一切理想属性。以下是GPT-3.5不具备的某些重要属性:


  • 实时改写模型的信心:当模型表白对某事的信心时,假如该信心是错误的,我们可能很难纠正它:
  • 我最近遇到的一个例子是:ChatGPT 坚持以为 3599 是一个质数,固然它招认 3599 = 59 * 61。另外,请参阅Reddit上关于游得最快的海洋哺乳动物[34] 的例子。
  • 但是,模型信心的强度似乎存在不同的层次。一个例子是即便我通知它达斯·维达(星球大战电影中的人物)赢得了2020年大选,模型依旧会以为美国现任总统是拜登。但是假如我将选举年份改为 2024 年,它就会以为总统是达斯·维达是 2026 年的总统。
  • 方式推理:GPT-3.5系列不能在数学或一阶逻辑等方式严厉的系统中中止推理:
  • 在自然言语处置的文献中, “推理” 一词的定义很多时分不太明白。但假如我们从含糊性的角度来看,例如一些问题 (a) 十分不置可否,没有推理;(b) 有点儿逻辑在里面,但有些中央也能够含糊;(c) 十分严谨,不能有任何歧义。那么,
  • 模型能够很好地中止 (b) 类的带含糊性的推理,例子有:
  • 生成如何做豆腐脑的措施。做豆腐脑的时分,中间很多步骤含糊一点是能够接受的,好比到底是做咸的还是做甜的。只需整体步骤大致正确,做出来的豆腐脑儿就能吃。
  • 数学定理的证明思绪。证明思绪是用言语表白的非正式的逐步解法,其中每一步的严厉推导能够不用太细致。证明思绪经常被用到数学教学:只需教员给一个大致正确的整体步骤,学生就能够大约明白。然后教员把细致的证明细节作为作业布置给学生,答案略。
  • GPT-3.5 不能中止类型 (c) 的推理(推理不能容忍歧义)。
  • 一个例子是严厉的数学证明,请求中间步骤中不能跳,不能含糊,不能错。
  • 但这种严厉推理到底是应该让言语模型做还是让符号系统做还有待讨论。一个例子是,与其努力让 GPT 做三位数加法,不如直接调 Python。
  • 从互联网中止检索:GPT-3.5 系列(暂时)不能直接搜索互联网
  • 但是有一篇 WebGPT [35] 论文发表于2021年12月,里面就让 GPT 调用了搜索引擎。所以检索的才干曾经在 OpenAI 内部中止了测试。
  • 这里需求分辨的一点是,GPT-3.5 的两个重要但不同的才干是 学问推理。普通来说,假如我们能够 将学问部分卸载到外部的检索系统,让言语模型只专注于推理,这就很不错了。 由于:
  • 模型的内部学问总是在某个时间被切断。模型一直需求最新的学问来回答最新的问题。
  • 回想一下,我们曾经讨论过 1750 亿的参数大量用于存储学问。假如我们能够将学问卸载到模型之外,那么模型参数可能会大大减少,最终它以至能够在手机上运转(猖獗的想法,但 ChatGPT 曾经足够科幻了,谁知道未来会怎样呢).

七、结论

在这篇博文中,我们认真检查了GPT-3.5系列的才干范围,并追溯了它们一切突现才干的来源。初代GPT-3模型经过预锻炼取得生成才干、世界学问和in-context learning。然后经过instruction tuning的模型分支取得了遵照指令和能泛化到没有见过的任务的才干。经过代码锻炼的分支模型则取得了代码了解的才干,作为代码锻炼的副产品,模型同时潜在地取得了复杂推理的才干。分离这两个分支,code-davinci-002似乎是具有一切强大才干的最强GPT-3.5模型。接下来经过有监视的instruction tuning和 RLHF经过牺牲模型才干换取与人类对齐,即对齐税。RLHF 使模型能够生成更翔实和公正的答案,同时拒绝其学问范围之外的问题。


我们希望这篇文章能够辅佐提供一个明晰的GPT评价图,并引发一些关于言语模型、instruction tuning和code tuning的讨论。最重要的是, 我们希望这篇文章能够作为在开源社区内复现GPT-3.5的道路图。


“由于山就在那里。”——乔治·马洛里,珠穆朗玛峰探险先驱

常见问题

  • 这篇文章中的这些说法更像是假定 (hypothesis) 还是结论 (conclusion)?
  • 复杂推理的才干来自于代码锻炼是我们倾向于置信的假定 (hypothesis)
  • 对没有见过的任务泛化才干来自大范围指令学习 是至少 4 篇论文的结论 (conclusion)
  • GPT-3.5来自于其他大型基础模型,而不是1750亿参数的GPT-3 是有依据的猜测 (educated guess)。
  • 一切这些才干都曾经存在了,经过instruction tuning,无论是有监视学习或强化学习的方式来解锁而不是注入这些才干 是一个比较强的假定 (strong assumption)。主要是由于instruction tuning数据量比预锻炼数据量少了几个数量级。
  • 结论 (conclusion) = 许多证据支持这些说法的正确性;假定 (hypothesis) = 有正面证据但不够有力;有依据的猜测 (educated guess) = 没有确凿的证据,但某些要素会指向这个方向
  • 为什么其他模型(如 OPT 和 BLOOM)没有那么强大?
  • OPT大约是由于锻炼过程太不稳定
  • BLOOM的状况则未知。假如您有更多意见,请与我联络

附录 - 中英术语对照表

ChatGPT的各项超才干从哪儿来?万字拆解追溯技术道路图来 ...


注释:


[1] 很多才干小模型没有,只需当模型大到一定的量级之后才会呈现。这样的才干称为突现才干 Emergent Abilities


[2] GPT-3 是 OpenAI 在 2020 年发布的模型,之后它经过了多次版本迭代。往常最新的版本的才干曾经远超初代的 GPT-3,被命名为 GPT-3.5


[3] 从 2022 年的规范看来,参数量超越 100B 才叫大模型,所以 BERT/ BART/ GPT-2/ T5 都是小模型


[4] https://crfm.stanford.edu/helm/v1.0/?group=knowledge


[5] Xie et. al. 2021. An Explanation of In-context Learning as Implicit Bayesian Inference


Min et. al. 2022. Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?


一个很有趣的但是还在审稿中的工作: https://arxiv.org/abs/2211.15661


[6] Brown. et. al. 2020. Language Models are Few-Shot Learners


[7] Chen et. al. 2021. Evaluating Large Language Models Trained on Code


[8] Ouyang et. al. 2022. Training language models to follow instructions with human feedback


[9] Instruction tuning 有两个版本,一个是 supervised tuning,另一个是 reinforcement learning from human feedback (RLHF). ChatGPT 就是经过 RLHF 得来的


[10] https://beta.openai.com/docs/model-index-for-researchers


[11] Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them


Chung et. al. 2022. Scaling Instruction-Finetuned Language Models


Fu et. al. 2022. Complexity-based Prompting for Multi-Step Reasoning


Madaan et. al. 2022. Language Models of Code are Few-Shot Commonsense Learners


[12] Ouyang et. al. 2022. Training language models to follow instructions with human feedback


[13] Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them


Chung et. al. 2022. Scaling Instruction-Finetuned Language Models


Fu et. al. 2022. Complexity-based Prompting for Multi-Step Reasoning


Madaan et. al. 2022. Language Models of Code are Few-Shot Commonsense Learners


[14] 参见附录中的图8 https://arxiv.org/pdf/2201.11903v1.pdf


[15] https://yaofu.notion.site/A-Closer-Look-at-Large-Language-Models-Emergent-Abilities-493876b55df5479d80686f68a1abd72f


[16] Sanh. et. al. Oct 2021. Multitask Prompted Training Enables Zero-Shot Task Generalization


[17] Wei et. al. Sep 2021. Finetuned Language Models Are Zero-Shot Learners


[18] Chung et. al. Oct 2022. Scaling Instruction-Finetuned Language Models


[19] 第一个版本(https://arxiv.org/pdf/2201.11903v1.pdf) 讲演了davinci在GSM8K上的精确率 12.4


v.s. 第五个版本 (https://arxiv.org/pdf/2201.11903v5.pdf) 讲演了 code-davinci-002 精确率为 63.1


[20] Chowdhery et. al. Apr. 2022. PaLM: Scaling Language Modeling with Pathways


[21] Chen et. al. Jul 2021. Evaluating Large Language Models Trained on Code


[22] Brown. et. al. May 2020. Language Models are Few-Shot Learners


[23] Liang et. al. Nov 2022. Holistic Evaluation of Language Models


[24] Fu et. al. Oct 2022. Complexity-based Prompting for Multi-Step Reasoning.


https://openreview.net/forum?id=yf1icZHC-l9


[25] https://twitter.com/peterjliu/status/1603098202856722432?s=46&t=Gw2wumo4l8kIRaGzXDXyRw


[26] https://beta.openai.com/docs/model-index-for-researchers


[27] Press et. al. 2022. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation


[28] Ouyang et. al. 2022. Training language models to follow instructions with human feedback


[29] https://help.openai.com/en/articles/6779149-how-do-text-davinci-002-and-text-davinci-003-differ


[30] 见https://arxiv.org/pdf/2210.11416.pdf的附录D


[31] https://help.openai.com/en/articles/6779149-how-do-text-davinci-002-and-text-davinci-003-differ


https://scale.com/blog/gpt-3-davinci-003-comparison


[32] https://arxiv.org/abs/2203.02155


[33] Brown et. al. May 2020. Language Models are Few-Shot Learners.


Zhang et. al. 2022. OPT: Open Pre-trained Transformer Language Models


Sanh. et. al. Oct 2021. Multitask Prompted Training Enables Zero-Shot Task Generalization


Ouyang et. al. Mar 2022. Training language models to follow instructions with human feedback


Wei. et. al. Sep 2021. Finetuned Language Models Are Zero-Shot Learners


Chung. et. al. Oct 2022. Scaling Instruction-Finetuned Language Models


https://github.com/salesforce/CodeGen


Chen et. al. Jul 2021. Evaluating Large Language Models Trained on Code


https://www.deepmind.com/blog/building-safer-dialogue-agents


Stiennon et. al. Sep. 2020. Learning to summarize from human feedback


https://github.com/allenai/RL4LMs


[34] https://www.reddit.com/r/ChatGPT/comments/zd7l8t/nice/


[35] https://openai.com/blog/webgpt/



路过

雷人

握手

鲜花

鸡蛋
已有 0 人参与

会员评论

文章排行

  • 阅读
  • 评论

最新文章

文章列表

 名表回收网手机版

官网微博:名表回收网服务平台

今日头条二维码 1 微信公众号二维码 1 抖音小程序二维码 1
浙江速典奢贸易有限公司 网站经营许可证 备案号:浙ICP备19051835号2012-2022
名表回收网主要专注于手表回收,二手名表回收/销售业务,可免费鉴定(手表真假),评估手表回收价格,正规手表回收公司,浙江实体店,支持全国范围上门回收手表
返回顶部