向小白解释监督学习(SFT)和强化(RL)学习

Table of Contents

    假设我们要训练一个新手快递员(相当于AI模型):

    监督学习(SFT)方式

    1. 老师傅手把手教:「看到小区门牌要减速」

    2. 背熟所有街道地图

    • 记住1000条配送规则

    → 需要大量人工标注的教材

    强化学习(RL)方式

    不断通过反馈改进:

    1. 先让快递员自己跑一轮
    2. 统计今天送了多少件,客户评价如何
    3. 奖励:准时送达加工资,好评加奖金
    4. 惩罚:投诉扣钱
    5. 改进:快递员为了多赚钱,自己摸索出最佳送货路线!

    → 只需要定义好奖惩机制

    大白话理解:

    • 监督学习:手把手教学,事无巨细地告诉AI该怎么做(需要人类付出大量标注成本)
    • 强化学习:设计奖惩机制,让AI自己不断试错,通过实践找到最优解(人类只需定义好目标)

    ChatGPT背后的技术栈:先用SFT打基础,再用RL优化输出质量。