RL 学习 - 1
背景
准备从这个课程 https://walkinglabs.github.io/hands-on-modern-rl/preface/intro 入手,学习一下强化学习的底层原理,实在不知道应该怎么入手,但是这个课程看上去比较符合我的学习习惯,可以从这里开始吧。
今天的学习章节是:
RL 的直觉理解
不同于之前关于机器学习的理解(比较粗浅),强化学习,似乎是当前 agent 重要的理论基础,强调的是和环境互动情况下的如何做出最佳决策。
这只是简单的直觉理解,实际处理起来非常复杂,比如有的互动是有限的(比如游戏),有的互动是无限的(比如量化交易)。
RL 的简单形式化理解
这部分序言里面讲的其实还是比较清楚的,但是我自己感觉理解还是不够深刻,这里先不做过多的描述,等后续的章节结合具体的例子再来理解。
这里知道有两种路线来求解 策略(目前我理解,本质上策略就是一个决策函数,根据当前的 state 来决定出各种 action 的概率):
- Value-Based
- Policy-Based
Comments 0
No comments yet. Be the first!
Sign in with GitHub to leave a comment.