1、强化学习是针对一个拥有行动能力的agent 而言的
2、每个行动影响了agent 的未来状态
3、使用标量值回报信号来度量成功
一言以蔽之:选择行动来最大化未来回报我们最终的目标昰寻求得到可以解决所有人类层级的任务的单一的agent,这也是智能agent 的本质
agent和环境 强化学习结构:
在每个时间步t、agent:
强化学习的场景和例子 1、控制物理系统:行走、飞行、驾驶、游泳、……
4、玩游戏:棋类、扑克、围棋、Atari 游戏、……
策略policy 和估值value 函数 策略π 是给定状态下选择行動的行为函数:
估值函数Qπ(s, a)是从状态s开始在策略π 下采取行动a 的期望全回报:
估值就是评估在状态s 时采取行动a 的好坏。
强化学习的几个方姠 基于策略的强化
–直接搜索最优策略π*
–目标就是得到最大未来回报的策略
–在任何策略下可获得的最大值
–构建一个环境的迁移模型
–使用该模型进行规划(通过查找规则)