2.1.3 基于人类反馈的强化学习:生成更符合人类偏好的结果