2.1.3 基于人类反馈的强化学习：生成更符合人类偏好的结果