强化学习(Reinforcement Learning,RL)是一种机器学习方法,其核心思想来源于行为心理学中的操作性条件反射。它让智能体(agent)通过与环境(environment)的交互,在试错(trial and error)中学习一个最优策略,从而在长期中获得最大的累计奖励。
⸻
一、强化学习的基本要素
强化学习问题通常可以用一个马尔可夫决策过程(Markov Decision Process,MDP)来建模。主要包括以下几个核心组成部分:
要素 | 符号/表示 | 说明 |
---|---|---|
Agent(智能体) | - | 做出决策的学习者或控制器 |
Environment(环境) | - | 智能体交互的对象 |
State(状态) | 描述环境的一个瞬时配置 | |
Action(动作) | 智能体在某状态下可以选择的行为 | |
Reward(奖励) | 环境对智能体采取某一动作后的反馈 | |
Policy(策略) | 决定智能体在某状态下选取哪个动作的规则 | |
Value Function(价值函数) | 从状态 | |
Q-function(动作-价值函数) | 在状态 |
⸻
二、强化学习的目标
强化学习的目标是学习一个最优策略 π*,使得在长期运行中,累计奖励(return)最大化。
累计奖励通常定义为未来奖励的折现和:
其中:
是折扣因子,表示未来奖励的重要性。
⸻
三、强化学习与监督学习的区别
对比项 | 监督学习 | 强化学习 |
---|---|---|
输入 | 特征和标签 | 状态 |
输出 | 标签预测 | 动作选择 |
学习方式 | 基于正确答案(teacher) | 通过与环境交互反馈(trial and error) |
目标 | 准确分类或预测 | 最大化累计奖励 |
学习信号 | 直接的误差或损失函数 | 稀疏或延迟的奖励信号 |
⸻
四、强化学习常见算法
1. 基于值的方法(Value-Based)
- Q-learning:学习
,通过 -greedy 策略选择动作。 - SARSA:与 Q-learning 类似,但在当前策略
下更新。
2. 基于策略的方法(Policy-Based)
- REINFORCE(策略梯度法):直接优化策略
。 - Actor-Critic:结合了值函数和策略梯度的优势。
- Actor:更新策略
- Critic:评估状态价值
或动作价值
- Actor:更新策略
3. 模型基方法(Model-Based)
- 学习环境模型(状态转移函数
和奖励函数 ),可用于规划。
⸻
五、强化学习的应用领域
强化学习在实际中有许多应用,例如:
• 游戏 AI:AlphaGo、Dota2、Atari 游戏等。
• 机器人控制:导航、操作手臂、自主驾驶等。
• 推荐系统:根据用户反馈优化推荐策略。
• 金融交易:智能投顾、策略优化。
• 工业控制:制造流程自动化等。
⸻
六、强化学习的挑战
• 稀疏奖励问题:很多任务中奖励很少或延迟,学习困难。
• 探索-利用平衡:既要尝试新的动作(探索),又要选择当前最优动作(利用)。
• 高维状态空间:在图像或复杂环境中,状态空间庞大。
• 样本效率低:需要大量交互数据。
⸻