[TOC]
随着大语言模型的火热,大语言模型正在不断地刷新我们的认知和上限. 大语言模型将向着开源,微调,指令调优方向发展. 技术特性:大数据、强算法、大算力 第一,大数据。海量的网络文本数据是 ChatGPT 的资料基础 , 是维系 ChatGPT 运行的核心要素。 ChatGPT 从互联网中获取大规模、海量的数据训练 模型,其中的文本数据因主要被作为 ChatGPT 的 学习样本进行预训练,通常被称为训练数据。 第二,强算法。ChatGPT 本质上是用于生成文 本响应的语言模型,区别于普通 AI 的预设任务型训练,ChatGPT 在预训练阶段使用海量的无标注数 据进行无监督或自监督训练,使之在大量的文本数 据集上预先训练一个深度神经网络。在此基础上, 以人工标注方式进行微调,即根据特定任务对训练 模型进行调整。 第三,大算力。与执行特定已知算法的专用 集成电路芯片不同,ChatGPT 诞生于由高精度通 用图形处理器(GPGPU)组成的通用异构计算体 系,其中,高精度 GPGPU 是该通用算力系统的 核心。
第一步,收集示范性数据并采取受监督的方式训练。想要人工智能以人的方式来回答问题,那么必须人类自己先回答问题,再将回答作为参考供人工智能学习。随机从提示词(Prompt)数据集中选择要提问的问题,然后标注人员(Labeler)对问题进行解答,形成人类偏好的标注数据供机器学习使用。数据量无需太大,只要几万条,通过提示词 的方式进行训练,使模型参数不断发生变化。在训练过程中必须采取人工监督的方式,通过人工奖励和惩罚机制,奖励符合人类逻辑的回答,惩罚不符合人类逻辑或者不合法的回答,以修正模型的输出结果。
第二步,收集可比数据并训练一个奖励模型。用一个提示词对模型进行提问,然后让模型输出多个不同的回答。标注人员对这些输出结果进行打分并排序,挑出最好的和最差的解答,并将这些数据用于训练奖励模型。在此期间,针对不合法、不合理、不理解的回答,奖励模型会对其进行惩罚,并剔除出模型回答范围。相反,对于接受度高的回答给予奖励,使回答频率更高。
第三步,使用强化学习算法优化奖励模型。通过强化学习算法,不需要人工主动干预就能自动实现对输出结果的评分和排序,并以此优化模型。人工智能通过循环式学习、优化模型、修改输出结果,实现不断迭代升级,最终达到人工智能具有人的逻辑,从而能够以人的方式进行沟通,并且做出令人满意的行为结果。