Blog LLM Tags CSS Projects About

向小白解释监督学习(SFT)和强化(RL)学习

•

2025年2月18日星期二

假设我们要训练一个新手快递员（相当于AI模型）：

监督学习（SFT）方式：

老师傅手把手教：「看到小区门牌要减速」
背熟所有街道地图

记住1000条配送规则

→ 需要大量人工标注的教材

强化学习（RL）方式：

不断通过反馈改进：

先让快递员自己跑一轮
统计今天送了多少件，客户评价如何
奖励：准时送达加工资，好评加奖金
惩罚：投诉扣钱
改进：快递员为了多赚钱，自己摸索出最佳送货路线！

→ 只需要定义好奖惩机制

大白话理解：

监督学习：手把手教学，事无巨细地告诉AI该怎么做（需要人类付出大量标注成本）
强化学习：设计奖惩机制，让AI自己不断试错，通过实践找到最优解（人类只需定义好目标）

ChatGPT背后的技术栈：先用SFT打基础，再用RL优化输出质量。

上一篇文章

大型语言模型不知道自己不知道——这是个问题

下一篇文章

使用 natapp 进行内网穿透调试

← 返回博客列表