语言处理路径
使用RLHF训练一个chatGPT在chatGPT预训练模型上,使用
RLHF (Reinforcement Learning from Human Feedback)
训练chatGPT,使它能够按照设计者要求形成某种偏好
(求帮忙给做一个)
InstructGPT/GPT3.5(ChatGPT的前身)与 GPT-3 的主要区别在于,新加入了被称为 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。