从零开始强化学习(一)——基础概念

一. 强化学习概念(Reinforcement learning)

引言:Reinforcement learning (RL) is an area of machine learning inspired by behaviorist psychology, concerned with how software agents ought to take actions in an environment so as to maximize some notion of cumulative reward from——维基百科. 强化学习是机器学习领域之一,受到行为心理学的启发,主要关注智能体如何在环境中采取不同的行动,以最大限度地提高累积奖励。)

1.1 强化学习定义

强化学习主要由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,对于该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。上述过程为智能体和环境通过状态、动作、奖励进行交互的方式

智能体通过强化学习,可以知道自己在什么状态下,应该采取什么样的动作使得自身获得最大奖励。由于智能体与环境的交互方式与人类与环境的交互方式类似,可以认为强化学习是一套通用的学习框架,可用来解决通用人工智能的问题。因此强化学习也被称为通用人工智能的机器学习方法

1.2 概念术语解释

  • 下面对前文中提到的几个概念进行详细解释,当在t时刻:

    • 智能体(Agent):强化学习的本体,作为学习者或者决策者

    • 环境(Environment):强化学习智能体以外的一切,主要由状态集合组成

    • 状态(States):一个表示环境的数据,状态集则是环境中所有可能的状态s_t

    • 动作(Action):智能体可以做出的动作,动作集则是智能体可以做出的所有动作a_t

    • 奖励(Reward):智能体在执行一个动作后,获得的正/负反馈信号,奖励集则是智能体可以获得的所有反馈信息r_{(s,a)}

  • 几个延申出来的概念

    • 策略(Policy):强化学习是从环境状态到动作的映射学习,称该映射关系为策略。通俗的理解,即智能体如何选择动作的思考过程称为策略\pi

    • 轨迹(trajectory \tau)轨迹就是当前状态以及它采取的策略,即状态和动作的一个序列:\tau={s_0,a_0,s_1,a_1,...}

    • 动作空间(action space):在当前的环境中,有效动作的集合被称为动作空间。依据智能体的动作数量是否有限可以分为离散动作空间和连续动作空间:智能体的动作数量有限的动作空间称为离散动作空间,反之则被称为连续动作空间

    • 策略函数(policy function):智能体利用策略来选取下一步的动作。策略函数能够把输入的状态变成动作

      • 随机性策略(stochastic policy): 即\pi(a|s)=\mathbb{P}[A_T=a|S_T=s]。输入一个状态s,输出所有行为的概率,然后对上述概率进行采样,得到最终的行为(一般采用随机性策略)

      • 确定性策略(deterministic policy): 采取最有可能的动作,即a^*=\underset{a}{argmax}\pi (a|s)

    • 价值函数(value function):对未来奖励的预测,用于评估状态的好坏,价值函数里面有一个折扣因子\gamma

      • V函数:期望的下标是\pi函数,\pi函数的值可反映在使用策略\pi的时候,到底可以得到多少奖励。即从某个状态,按照策略走到最终状态很多很多次,最终获得奖励总和的平均值

      v_\pi(s)=E_\pi[G_t|S_t=s]=E_\pi[\sum_{k=0}^∞\gamma^kR_{t+k+1}|S_t=s],for\ all\ s \in S

      • Q函数:可以获得奖励的期望取决于当前的状态和当前的动作,与V值不同,Q值和策略并没有直接相关,而与环境的状态转移概率相关,而环境的状态转移概率是不变的

      q_\pi(s,a)=E_\pi[G_t|S_t=s,A_t=a]=E_\pi[\sum_{k=0}^∞\gamma^kR_{t+k+1}|S_t=s,A_t=a],for\ all\ s \in S

    • 根据agent学习的东西不同,我们可以把agent进行归类:

      • 基于价值的算法(value-based):学习价值函数,对于每个状态估算其价值(只能应用在不连续、离散环境中)

      • 基于策略的算法(policy-based):学习策略函数,对于每个状态计算各个动作的概率

      • 演员-评论家算法(Actor-Critic):同时学习价值函数和策略函数

    • 模型(model):模型表示了Agent对这个环境的状态进行了理解,它决定了这个世界是如何进行的,模型决定了下一个状态会是什么样的,就是说下一步的状态取决于你当前的状态以及你当前采取的行为,它由两个部分组成

      • 概率:这个转移状态之间是怎么转移的,如下式所示:\mathcal{P}^a_{ss'}=\mathbb{P}[S_{t+1}=s'|S_t=s,A_t=a]

      • 奖励函数:当你在当前状态采取了某一个行为,可以得到多大的奖励,如下式所示:\mathcal{R}_{s}^{a}=\mathbb{E}\left[R_{t+1} \mid S_{t}=s, A_{t}=a\right]

    • 另外,我们是可以通过agent到底有没有学习这个环境模型来分类:

      • model-based: Agent通过学习这个状态的转移来采取动作

      • model-free: Agent没有去直接估计这个状态的转移,也没有得到环境的具体转移变量。它通过学习价值函数和策略函数进行决策

1.3 强化学习与监督学习的连续与区别

强化学习和监督学习的区别如下:

  • 强化学习处理的大多数是序列数据,其很难像监督学习的样本一样满足独立同分布

  • 学习器并没有告诉我们每一步正确的动作应该是什么,学习器需要自己去发现哪些动作可以带来最多的奖励,只能通过不停地尝试来发现最有利的动作

  • 智能体获得自己能力的过程,其实是不断地试错探索(trial and error exploration)的过程探索(exploration)利用(exploitation)是强化学习中非常核心的问题。其中,探索指尝试一些新的动作,这些新的动作有可能会使我们得到更多的奖励,也有可能【一无所有】;利用指采取已知的可以获得最多奖励的动作,重复执行这个动作,因为我们知道这样做可以获得一定的奖励。 因此,我们需要在探索和利用之间进行权衡,这也是在监督学习中没有的情况

  • 在强化学习过程中,没有非常强的监督者(supervisor),只有奖励信号(reward signal),并且奖励信号是延迟的,即环境会在很久以后才告诉我们之前所采取的动作到底是不是有效的。因为我们没有得到即时反馈,所以智能体使用强化学习来学习就非常困难。当我们采取一个动作后,如果使用监督学习,就可以立刻获得一个指导,比如,我们现在采取了一个错误的动作,正确的动作应该是什么。而在强化学习中,环境可能会告诉我们这个动作是错误的,但是它并不会告诉我们正确的动作是什么。而且更困难的是,它可能是在一两分钟过后才告诉我们这个动作是错误的。所以这也是强化学习和监督学习不同的地方

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342