向小白解释监督学习(SFT)和强化(RL)学习
•
Table of Contents
假设我们要训练一个新手快递员(相当于AI模型):
监督学习(SFT)方式:
老师傅手把手教:「看到小区门牌要减速」
背熟所有街道地图
- 记住1000条配送规则
→ 需要大量人工标注的教材
强化学习(RL)方式:
不断通过反馈改进:
- 先让快递员自己跑一轮
- 统计今天送了多少件,客户评价如何
- 奖励:准时送达加工资,好评加奖金
- 惩罚:投诉扣钱
- 改进:快递员为了多赚钱,自己摸索出最佳送货路线!
→ 只需要定义好奖惩机制
大白话理解:
- 监督学习:手把手教学,事无巨细地告诉AI该怎么做(需要人类付出大量标注成本)
- 强化学习:设计奖惩机制,让AI自己不断试错,通过实践找到最优解(人类只需定义好目标)
ChatGPT背后的技术栈:先用SFT打基础,再用RL优化输出质量。