ChatGPT营销实践
上QQ阅读APP看书,第一时间看更新

1.2.4 什么是P:读书亿卷,其义自见

GPT的训练过程包括两个阶段:预训练和微调。这两个阶段的目标和作用是不同的,但它们共同构成了GPT的训练策略。

预训练阶段的目标是让模型学习语言的统计规律。在这个阶段,模型会在大量的无标签文本上进行训练。这些文本包含了丰富的语言知识,包括词汇、语法、语义等。通过预训练,模型可以学习到这些知识,从而能够理解和生成自然语言。预训练阶段的作用是让模型学习到一个好的语言模型,这个模型可以用来生成流畅且富有创意的文本。

微调阶段的目标是让模型适应特定的任务。在这个阶段,模型会在少量的标签数据上进行训练。这些数据是针对特定任务的,比如情感分析、文本分类等。通过微调,模型可以学习到如何将预训练阶段学习到的语言知识应用到特定任务上。微调阶段的作用是让模型能够完成特定的任务,比如回答问题、写文章等。

预训练和微调的结合,使得GPT既能够理解和生成自然语言,又能够完成特定的任务。这种训练策略是GPT成功的关键。

1.外语模式与母语模式

在自然语言处理领域,有两种主要的机器学习方式,一种被比喻为“外语学习模式”,另一种被比喻为“母语学习模式”。

“外语学习模式”对应的是监督学习,这种方式需要大量的标注数据。在这种模式下,模型通过学习输入和输出之间的映射关系来学习语言,就像我们在学习外语时,需要通过大量的词汇和语法练习来掌握语言。

“母语学习模式”对应的是无监督学习,这种方式不需要标注数据。在这种模式下,模型通过学习大量的无标注文本来学习语言,就像我们在学习母语时,通过大量的听和说来掌握语言。

GPT采用的是“母语学习模式”。在预训练阶段,GPT会在大量的无标注文本上进行训练,学习语言的统计规律。这种方式的优点是,模型可以学习到丰富的语言知识,而不仅仅是标注数据中的知识。此外,这种方式还可以利用大量的可用的无标注数据,大大减少对标注数据的依赖。

“母语学习模式”好在它能够让模型学习到更丰富、更深层次的语言知识。这种方式让模型能够理解和生成更自然、更流畅的文本,使得模型的表现更接近人类。

GPT的预训练数据来源主要是互联网上的大量文本数据,包括书籍、网页、文章等。这些数据被用来训练模型,使其能够理解和生成人类语言。GPT-3的训练数据主要来源于以下几个数据集:

· Common Crawl(filtered by quality):180.4亿个tokens

· WebText2:55.1亿个tokens

· Books1:22.8亿个tokens

· Books2:23.65亿个tokens

· Wikipedia:10.2亿个tokens

这些数据覆盖不同版本的GPT训练数据的规模不同。以GPT-3为例,它的训练数据包含了数十万亿个词汇,这相当于数百亿个网页的内容。覆盖的知识领域非常广泛,包括科学、艺术、历史、文化、技术等几乎所有的知识领域。这些数据包含了丰富的语言知识,包括词汇、语法、语义等。

GPT通过学习这些数据,能够理解和生成各种各样的文本,从而回答各种问题,提供各种信息。它就像一个知识宝库,无论你想知道什么,都有可能在这个宝库中找到不错的答案。

2.GPT模型的版本迭代

GPT模型经历了几个版本的持续迭代,各版本的关键信息如表1-1所示。

表1-1 GPT模型各版本关键信息一览表

(1)GPT-1:发布于2018年6月,它是OpenAI首次提出的GPT模型,包含1.17亿个参数,能够生成相当准确和连贯的文本。

(2)GPT-2:发布于2019年2月,它是GPT-1的直接后续版本,包含15亿个参数,能够生成更长、更连贯的文本。由于其生成能力强大,OpenAI最初并未公开发布其完整模型,以防止滥用。

(3)GPT-3:发布于2020年6月,它是目前最新的GPT版本,包含1750亿个参数,是迄今为止最大的语言模型。GPT-3的语言生成能力非常强大,能够在各种任务中生成高质量的文本。

(4)GPT-3.5 Turbo:发布于2022年底,它在性能上比GPT-3更强大,但成本更低。它可以用于各种任务,包括编写电子邮件或其他文本,写作辅助、编程帮助、学习新主题、翻译语言、模拟角色扮演游戏的角色等。GPT-3.5 Turbo的一个重要特性是它可以理解和生成更长的文本,这使得它在处理复杂的对话任务时更为有效。

(5)GPT-4:发布于2023年3月14日,它的能力超越了GPT-3.5 Turbo。GPT-4的一个重要特性是它的多模态能力,这意味着它可以处理和理解不同类型的数据,包括文本、图像等。然而,GPT-4也有一些挑战,如推理时间长、运行成本高等。

(6)GPT-4V:发布于2023年9月24日,它是GPT-4的扩展版本。GPT-4V的训练于2022年完成,与GPT-4共享相同的技术基础。它具有视觉能力,使得用户能够指导GPT-4分析由用户提供的图像输入。这一功能的加入,将多模态处理推向了一个新的方向,不仅仅处理文本数据,还能处理图像数据,提供视觉问题解答(Visual Question Answering,VQA)的能力。

(7)GPT-4 Turbo:发布于2023年11月,是最新的GPT模型,它在原有GPT-4的基础上做了显著的性能提升和成本优化。该模型特别适合处理长篇内容,具有更快的处理速度和最高128K的上下文长度,能够更有效地管理复杂对话和深度数据分析。GPT-4 Turbo的成本降低,加之功能的增强,如改进的函数调用和新的JSON模式,使得开发者可以构建长时间互动的应用,适用于客户服务、教育对话和内容创作等多种场景。此外,新增的Assistants API简化了AI代理和应用的构建过程,使GPT-4 Turbo成为商业和大规模应用的理想选择,同时推动AI技术朝着更智能、更可访问、更经济化的方向发展。