什么是 RLHF 训练

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），一种机器学习方法，它使智能系统能够从环境中学习并最大化特定目标。在RLHF中，通过对同一输入的多个生成结果进行人工排序，获得包含人类偏好反馈的标注数据，从而训练出一个奖励模型（Reward Model）。在强化学习的过程中，奖励模型将对大语言模型的多个生成结果的排序进行判定。最终，强化学习通过更新大模型的参数，使得输出结果符合奖励模型的判定要求。这种方法减轻了传统强化学习中需要大量试错的问题，也降低了完全依赖于人工对所有大模型生成结果进行排序调整反馈的成本，使得智能系统更加高效、快速地学习任务。

RLHF已成功应用于百度智能云千帆大模型平台, 能够生成类似人类的文本并执行各种语言任务。RLHF使模型能够在大量文本数据语料库上进行训练，并在复杂的语言任务(如语言理解和生成)上取得令人印象深刻的结果。

RLHF的成功取决于人类提供的反馈的质量，根据任务和环境，反馈的质量可能是主观的和可变的。因此，开发有效且可扩展的收集和处理反馈的方法非常重要。

总的来说，RLHF 比传统的机器学习和强化学习提供了更多的指导，能够捕捉到人类偏好的全部内容，从而驱使人工智能系统与人类价值观相一致。即使 RLHF 不能完全解决对内部调整的担忧，它所识别的失败以及它赋予奖励和政策模型的知识也适用于提高社会和合作环境中人工智能的安全性、可靠性和可信度。

收集人类反馈

收集人类反馈为RLHF的基础步骤，千帆平台接入多轮对话-排序类和prompt语料数据集，作为奖励模型和强化模型训练的人类反馈。这部分内容主要产生两类模型：

预训练模型：只经过语料库训练而未经过fine-tune的模型；

监督基线模型：在预训练模型基础上使用测试数据集的fine-tune模型。

在初始模型被训练之后，人类训练者提供对模型表现的反馈。他们根据质量或正确性排名不同的模型生成的输出或行为。这些反馈被用来创建强化学习的奖励信号。

奖励模型训练

奖励模型（Reward Model, RM）训练的最终目的是刻画模型的输出是否在人类看来表现不错：
输入【提示（prompt），模型生成的文本】，输出表明文本质量的标量数字。

奖励模型接收一系列文本并返回标量的奖励值，数值和人类的偏好相对应。您可以采用端对端的方式用大语言模型建模，或者用模块化的系统建模（如对输出进行排名，再将排名转换为奖励）。奖励数值将用于接入强化模型训练中。

关于千帆的更多操作步骤详细可见奖励模型训练。

强化学习训练

强化学习（Reinforcement Learning, RL）又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。至少需要以下三个基本要素：

策略（policy）：基于该语言模型，接收prompt作为输入，然后输出一系列文本（或文本的概率分布）。

动作空间（action space）：词表所有token在所有输出位置的排列组合（单个位置通常有50k左右的token候选）。

奖励函数（reward）：基于奖励模型计算得到初始reward，再叠加上一个约束项。

代理（agent）通过与环境的交互来学习策略。代理采取行动(含无动作行动)，这些行动会影响代理所处的环境，而环境进而转换到新的状态并返回奖励。奖励是使强化学习代理能够调整其行动策略的反馈信号，当代理进行训练时，它会调整自己的策略，并采取一系列行动，使其回报最大化。

关于千帆的更多操作步骤详细可见强化学习训练。

收集人类反馈#

奖励模型训练#

强化学习训练#

收集人类反馈

奖励模型训练

强化学习训练