RL 学习 - 1

@ShiKaiWi 2026-05-07

背景

准备从这个课程 https://walkinglabs.github.io/hands-on-modern-rl/preface/intro 入手，学习一下强化学习的底层原理，实在不知道应该怎么入手，但是这个课程看上去比较符合我的学习习惯，可以从这里开始吧。

今天的学习章节是：

不同于之前关于机器学习的理解（比较粗浅），强化学习，似乎是当前 agent 重要的理论基础，强调的是和环境互动情况下的如何做出最佳决策。

这只是简单的直觉理解，实际处理起来非常复杂，比如有的互动是有限的（比如游戏），有的互动是无限的（比如量化交易）。

这部分序言里面讲的其实还是比较清楚的，但是我自己感觉理解还是不够深刻，这里先不做过多的描述，等后续的章节结合具体的例子再来理解。

这里知道有两种路线来求解策略（目前我理解，本质上策略就是一个决策函数，根据当前的 state 来决定出各种 action 的概率）：

No comments yet. Be the first!