RL基本概念（第一节）

更新时间:2025-05-10 15:40:56 阅读：评论：0

起名书籍图1 RL算法原理

根据上图所示，增强学习（RL）的基本思想是通过Agent与环境的不断交互，通过一些奖赏机制来使Agent逐渐学习出一条最优的决策。

obsevation、reward作为Agent的输入，观测是指Agent面霜从环境中得到的信息，这些信息作为下一步动作的信息源。奖赏是环境对Agent的动作的反馈。action是Agent的输出，动作是Agent在得到相应的观察信息后，可能采取的行为集合。

环境：

环境是一个抽象出来的概念，我把它理解为一个盒子，这个盒子根据内部信息是否可以完全对外开放又分为可观测环境（Observable Environment）和部分可观测红心大战游戏规则环境(partly observable Environment).可观测环境就是指盒子内的信息可以被Agent全部得知，相对应的，部分可观测就是指可以环境中的一些信息是无法被Agent获得的，或者对Agent来讲是无用的。例如，我用一块钱买了一根冰棍，而这根冰棍是空运还是海运过来的对我来说并无卵用。

状态：

与状态（State）对应的一个概念是历史（History），历史是观察（obsevation）、动作（action）、奖赏（reward）一系列时间序列：

Ht = A1,推荐书格式O1,R1......At,Ot,Rt

这样理解，历史就是经验的集合，Agent在T1时间步长内，通过观察环境，然后做出动作，获得奖赏，完成一次与环境的交互，然后再根据获得信息进行下一轮的重复，这样不断地重复的过程就是探索环境的过程。这些经验是我们做出下一个行动的指南，例如上次路过这条街的时候有一条恶犬，那下次再到这个路口的时候肯定就会注意啦，“注意”这个举动就是根据历史经验来的。但是在一个训练次数很大的算法里，我们不可能记录每一次经历，这要花费相当大的资源，所以大牛们提出使用State来代替历史，状态（State）是历英文面试自我介绍史(History)的函数：

St 本领恐慌= f（Ht）

state里面包含了我们做出下一步动作所需的足够的信息，也就是说，假如我们得到了当前的状态，那么济南地铁规划图下一步应该做出什么动作是确定的或者随机确定的，这取决与我们的Agent使用了什么样的策略。当前状态之前的状态与我做出下一步动作并无卵用。如果学过Markov链的同学，很快就看出来这个uv镜state具有Markov性质。Markov的基本思想是，在现在情况已知的情况下，过去的事件对于预判未来并没什么用，当前的情况足以让我们能够对未来做出预测。

状态可以分为两类，一种是环境的状态，一种是Agent的状态小学数学计算题。环境的状态代表了Agent所处的模拟环境所包含的信息，DS举了直升河北seo飞机的例子，直升飞机的模拟环境的状态包含了当前的风速，飞机高度，方向，海拔，天气等等信息，这些信息对于Agent(直升飞机)来讲部分是可知的，部分是不可知的或者无用的，比如海拔，对飞机的下一步如何飞行可能就没有直接联系。Agent的状态比较重要，这个状态包含了飞机做出下一步动作需要的全部信息，比如说，飞机可能只需要知道目前的高度和方向就可以啦，其它的信息与我的飞行并没有直接搞笑一家人允浩关系。所以网上也有人理解为是“Agent自己对环境的解读与翻译，他可能不完整，但我们的确需要指望着这些信息做决定。”个人比较赞同这样的说法。

Agent：

Agent并不是简单意义上的机器人，它的表现可能更像一个机器人，但是你是否有考虑过，支撑这个机器人做出一个有一个行为的背后机制是什么呢？为什么碰到拐角就会转弯，走直线而不是曲线？一个完整的Agent由三部分组成，策略（Policy）、价值函数（Value function）和模型（Model）。一个一个来说：

香港菲佣策略：

A policy is the agent's behaviour:

It's a map from state to action

Deterministic（确定的） policy : a= d(s)

stochastic（随机的） policy : d(a|s) = P[A=a|S=s]

这是从DS的课件上摘录下来的，已经很通俗易懂了。策略就是是agent的行为，它是state到action的一个映射。也就是说，agent做出什么行动是可以根据具体采用的策略来决定，是拍脑袋不是拍屁股。举个例子，比如我们吃葡萄，网球鞋品牌总是先吃颜色最深的，最后吃青绿的，因为颜色越深说明越甜。这里“总是先吃颜色最深的”就是我们的策略。这个策略指导着我们的下一次行为，根据这个策略，我总是知道下一口吃的是剩下的葡萄里面颜色最深的哪那个。由于策略是从状态到行为的映射，也就是说，给我当前的状态，我就可以预测出下一步的动作。就像y=f(x)，给定x，得出y是不难的。策略也分为两种，一种是确定的，就像上述的吃葡萄的例子，下一步的行动总是确定的。还有一种是基于概率的，因为一个状态对应着的可能是很多种行为，这些行为在状态s下有着和为1的概率。像极了我们的现实世界，因此有人说强化学虚拟翻书习可能才是最贴近智能的学习模式。

value function:逃港

value function is a prediction of future reward

used to evaluate the goodness/badn糖尿病患者ess of state

and therefore to select between actions

V_d(s) = E_d[R_t+r*R_{t+1}+r^{2}*R_{t+2}+...|S_t=s] （r被称作折现率）

价值函数是对未来奖赏的期望，r的大小表示着对未来的重视程度，价值函数的作毛瑟驳壳枪用是通过计算当前状态下，各个动作的奖赏期望，从而可以从众多的动作中选择最优的动作，也就是使得Vd(s)最大的动作。我们可以比较一下前面的策略，同样，运用价值函数也可以预测出下一步的行为，但是区别也是明显的。由此产生了三种不同的agent决策类型，基于价值函数的探索方式，基于策略的探索方式，以及两者的合体。

model：

A model predicts what the environment will do next.

thansitions: P predict the next state (i.e. dynamics)

reward : R predict the next(immediate) reward

DS课件中讲到，模型预测了环境的下一步动作。我的理解是，模型是对环境的建模，这个模型描述了环境是怎样运作的，我们的agent的状态以及动作可以根据模型来得到。agent就像开了挂一样，并不会去探索环境，而是内心深知这个环境的运作机理，当然地也就可以根据这个模型推知它的每一步的状态或者奖赏。在这种情况下，即使没有策略和价值函数，我们的agent也可以通过模型得出一条网络工程师考试最优的方案，这种被称为model based，而model free显然就是指没有模型的情况啦，免费虚拟空间这种情况下，我们就可以采用上面介绍的基于策略或者基于价值函数的方式来探索出一条最优方案。

明显地，可以看出agent的三个组成元素并不是同时都具备的，有些agent仅仅是基于策略决策，有些是基于价值函数，但通常隐含了策略。

关于增强学习的一些问题:

1、两种类型的问题

reinforement learning problem:指环境是未知的，需要agent不断的与环境交互来获取信息，感知环境，搜寻最优策略。

planning problem：这种问题是环境的信息是完全已知的，它提前告诉了agent运行规则。环境在agent面前不是黑盒，agent知道环境中发生的一切，它具有环境的模型，因此agent不必和环境发生交互，它只需要通过内部运算，就可以得出下一步的动作，这样看起来就像是提前规划好了一样。

DS举了一个例子，当你接触一款陌生的游戏时，你其实就是在通过在与游戏进行交互来发掘如何能在游戏里获得更高的分数，这是增强学习问题。相对的，如果你在接触游戏时，已经提前知道了游戏的运作机制，那你几乎不需要和游戏进行交互，心里就有了一套如何拿到高分的方案。

2、exploration和exploi食品质量tation

exploitation是指利用经验做最优选择，而 exploration是指有选择的放弃一些奖励，战略性地放弃当前的最优选择，这样做的目的是为了得到更多的关于环境的信息。尽管agent这一步选择了较小的奖赏，但或许下一步会得到更多的奖赏回报足以弥补这次选择较小奖赏。这是一个平衡问题，如果根据历史经验，向左走可能得到更多的奖赏，但右边还有很多的地方没有探索，是否向右走最后的累计奖赏会高于向左呢？

后续会持续更新笔记~

本文发布于:2023-06-06 03:48:19，感谢您对本站的认可！

本文链接：http://www.ranqi119.com/ge/85/233813.html

上一篇：建筑翻译英语词汇

下一篇：2023年班主任学期的工作计划班主任学期工作计划小学(优质三篇)

标签：基本概念 RL

留言与评论（共有 0 条评论）