GPT-4的奥秘：一切数据标记化

法治日报·法治周末 2023-03-23 14:47:30

■ 如何应对GPT-4带来的挑战

(资料图片)

智道

栏目主持人：於兴中

■ 主持人说

还没等到人们从聊天机器人ChatGPT引起的兴奋里清醒过来，人工智能公司OpenAI在3月14日又发布了GPT-4。该公司表示，这是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是一个大型的多模态模型（接受图像和文本输入，输出文本）。GPT-4虽然在许多现实世界的场景中能力不如人类，但它具有在各种专业和学术基准上表现出人类水平的性能。

GPT-4包含了很大的突破，它能创造类似人类创作的文本，并从几乎任何提示中生成图像和计算机代码，这种能力实在让人们感到震惊。研究人员说，这些能力有可能改变科学。然而，人们基本上还不知道，且无法获得该技术、其基础代码或关于如何训练它的信息。这使它对研究的作用大大降低。与此同时，其他公司也发布了各自的类似产品，比如Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言，等等。

作为对GPT-4的语言能力的证明，OpenAI公司说，GPT-4通过了美国某些州的律师资格考试，而且成绩不错。相比ChatGPT，它已经有大幅度的提升。GPT-4到底能够达到什么样的水平，能够作出什么事来，对此人们的看法可能不太一样。它仅仅是一个大型多模态的语言模型，只能限于语言上的解决，还是它作为生成性人工智能的工具是一种有可能改变世界的革命性突破？

对于新技术的出现，我们应该采取一种科技现实主义的态度，认真理解我们面对的到底是一种什么样的事物，以及它给我们带来了什么样的挑战。从法律角度深入讨论如何应对GPT-4带来的挑战，包括其对现有法律制度和法律职业的冲击、是否会创造出新的法律关系、如何监管、如何在合法应用它的背景下保护知识产权和创新、如何将其用于法律研究以及它对法学教育有何影响等，是必要的明智之举。智道栏目本期发表的5篇文章分别从不同的角度对这些重要的法律与科技的问题进行了探讨。此举不是为GPT-4张目，而在于理解它的可能影响。

如何应对GPT-4带来的挑战①

GPT-4的奥秘：一切数据标记化

3月15日，OpenAI发布GPT-4，全球瞩目。除了性能提升之外，GPT-4还增添了一项新功能，识别图像。这个新功能表示GPT-4已经实现图像和文字同时处理的多模态能力，有专家预测，未来会出现文字、图像、音频和视频等所有数据统一处理的新变革。长期以来，计算机难以处理图像、音频、视频等非结构化的数据，如何挖掘这些海量数据背后的价值成为企业关注的方向，GPT-4无疑在这条探索之路上已经迈出重要的一步。

不光是性能提升和图像识别，GPT-4的整个训练和运行其实都有一项技术作为支持，这个技术就是数据标记（Token）化。

数据标记化最早是用来保护敏感信息免受未经授权的访问、盗窃或误用，从而增强数据的安全性和隐私的技术。它通过用非敏感标记替换敏感数据来实现这一点，因为非敏感标记可以保持原始数据的格式和结构，却不会透露其内容。然而，在训练基于GPT-4体系结构的语言模型时，标记化并不涉及保护敏感信息，而是将训练文本分解成更小的单元，这个更小的单元就是标记（Token）。为什么要将训练文本分解为Token呢？

ChatGPT由一个特殊的神经网络架构训练而成，该架构被称为“Transformer”，“Transformer”网络的特点是，它可以从输入的文本中学习语言的规律和模式，并用这些规律和模式来预测文本序列中的下一个单词。具体而言，ChatGPT根据先前单词的上下文预测语句序列中的下一个单词，比如，对前n个单词接入后预测第n+1个单词，之后把n+1个单词也接入，再预测第n+2个单词，最后整个语句得以形成，有人将这种语句形成的方式叫“单字接龙”。这个被预测的单词或者字符就是Token，也叫标记参数。

在训练ChatGPT的过程中，其基本的素材就是Token。Token的原理如下：用户的问题输入，无论是文字还是图像，首先会被转化为一个向量，然后以Token的形式输入到ChatGPT的神经网络中。该网络对输入进行一系列的计算和转换后，生成Token，并形成相应的输出向量，输出向量被转化成文本，用以回答用户的提问。所以，Token就是用户输入和GPT接收之间的一种介质。

Token实质上是一种矩阵，而文本是维空间中的一个向量。Token和向量之间需要转换，以便于Transfomer识别。这个转换是由驱动GPT的自注意力机制实现的。

在像GPT这样的模型中，标记化定义了模型生成文本的粒度。标记化按照模型训练所需将文本分解为不同大小的Token，如单词、子词或字母。

其一，单词标记化。在这种方法中，文本数据被分解成单独的单词（Token）。例如，“ChatGPT是一个人工智能模型”这句话将被标记化为“ChatGPT”“is”“an”“AI”“Model”。单词级标记化很简单，但可能会导致较大的词汇量，并可能难以处理罕见或词汇表外的单词。

其二，子词标记化。为了解决单词级标记化的局限，模型可以将罕见或词汇表外的词拆分成更小、更频繁的子词（Token），这些子词可以组合成单词。这提高了该模型即使在面对陌生单词时也能产生有意义的反应的能力。例如，“ChatGPT是一个人工智能模型”这句话可以标记为“chat”“G”“pt”“is”“an”“AI”“mod”“el”。子词级标记化有助于处理生词和减少词汇量。

其三，字母标记化。在这种方法中，文本数据被分解成单个字符或字母（Token）。例如，子“ChatGPT是一个人工智能模型”将被标记为“C”“h”“a”“t”“G”“P”“T”“i”“s”“a”“n”“A”“I”“m”“o”“d”“e”“l”。

虽然这种方法可以处理任何输入文本，但它可能需要更多的计算资源，并且在捕获高级语言模式方面效率较低。在ChatGPT生成语句的过程中，如果标记化是基于单词的，则模型将预测下一个单词；如果是基于字母的，则模型将预测下一个字母。

将文本分解成标记的优势在于：较小的标记使模型能够专注于单个语言元素及其它们之间的关系，从而促进更好地理解和学习。像“hi”或“the”这样的常见单词最终会成为一个标记。但如果有一个更不常见的词如“Incomplete（意为不完整）”，就需要把它分解成“In（不）”和“complete（完整）”两个字词，这样的操作会让语言模型更容易、更有效地进行理解。当然，如果要将“In”和“complete”再细分，又会让整个操作变得非常低效。

通过使用较小的标记，模型可以学习单词之间的关系，而不必一次性处理和学习整个句子或段落，从而减少了计算成本。将文本分解为更小标记使模型可以学习语言的结构和模式，如语法、句法和语义，而通过检查标记序列，模型可以理解单词和短语如何在各种上下文中构造和使用。

因为数据标记化支持GPT的语言模型，它将输入文本转换为模型可以处理的格式，从而使得模型能更有效地理解和处理数据文本。具体而言，数据标记化可以统一处理不同类型的数据，如文字、图像、音频和视频等，方法是将各种不同的数据类型转换为统一格式，该格式可以输入到模型中进行训练和处理。这种转换使得模型能够更好地理解和处理输入的数据，同时处理文字、图像、音频和视频。

了解ChatGPT模型训练如何对文字进行标记后，它又是如何对图像、音频和视频进行标记的呢？图像数据可以被分割成较小的、固定大小的块，然后将这些块线性嵌入到一个平面向量中，并作为Token处理。至于音频数据，则可以通过对其进行转换并标记化，然后将其划分为更小的段或帧。这些段或帧可以被视为Token并由模型进行处理。视频数据可以通过将其划分为更小的片段来标记化，通常基于帧或短剪辑。然后可以处理每个片段并将其表示为Token，从而使模型能够了解不同片段之间的关系。

总之，在ChatGPT的训练和语句生成过程中，数据标记化发挥了关键作用。它一方面可以简化表示、促进高效计算、支持更好的语言结构和上下文学习，并更有效地处理词汇表外的单词，另一方面可以将文字、图像、音频和视频统一转换为模型可以识别的格式，极大提高了ChatGPT模型的语言理解能力和回应功能，从这个角度而言，ChatGPT的奥秘就是“将一切数据Token化”。

（作者系西北工业大学马克思主义学院教授）

相关文章