四旋翼控制论文学习分享

2020.01.13王韬
今天重新阅读了学长的论文"Control of Quadrotor Drone with Partial State Observation via Reinforcement Learning",结合之前学的强化学习和神经网络知识,又有了新的收获,明确了下一步的方向,分享如下

思路历程

Whereas, without inertial sensor, full state observation could be difficult to aquire. Thus, in this paper, we present a recurrent reinforcement learning method to utilize the recent observation to strengthen the partial state information obtained from visual sensor and map the strengthened information to control signal.

  • 文章的出发点是无人机在没有惯性原件的帮助下,我们只能观测到部分状态信息,将视觉信号进行特征提取,用强化学习的方式将之前的信息进行处理,从而达到良好的控制

The advantage of the deep reinforcement learning for the complex control problems is that a generalized neural network could be used to replace a specific predefined control model as the map from the observation to control signal, which is especially important for the quadrotor control without inertial sensor, since it is not easy to explicitly define the mapping structure from the history partial observation to full state information.

  • 这里也说明了使用深度强化学习的目的是因为在将历史状态映射到全状态信息的过程中,很难去清晰地构造映射结构,因此构造了神经网络结构,通过四层网络的学习得到对当前状态的判断

网络结构

网络结构,其中输出St为状态
  • 上图虚线左侧的循环神经网络的输入为视觉模块传入的状态信息,包括了位置信息和四个螺旋桨的角速度,激活函数是tanh;除此之外,虚线右侧为两层前向网络,用来将把提取到的全状态信息映射为动作采用的分布和状态的价值,两者分别对应了后续Actor-Critic网络。
视觉提取的观测信息Ot

角速度归一化便于数据处理,在下文的策略优化部分中,由于策略是β分布,所以需要归一化不超过边界值,并且提升在边界采样的概率。

将角速度归一化

τ是软归一化因子,有一定的限制作用

策略优化(Policy Optimization)

运用β-distribution表示策略分布,由于分布函数比较复杂,根据大数定理,当采样数量足够大的话,采样样本可以无限近似地表示原分布,所以在此之后运用蒙特卡洛采样来训练模型。

policy distribution
目标函数
PPO, 邻近策略优化

策略的优化方向

价值函数

采用合理的价值函数在强化学习中是极其重要的,这里张学长提出了创新之处,用坐标的三次方差来作为Reward的一部分

Reward
  • 四旋翼在计算奖赏时,更加偏重于误差的主要部分
  • 由于在数字较大的时候三次绝对值方差远远大于二次方,这样使四旋翼对离目标位置更远的时候更加敏感,位置较近时则与二次方相差不大
  • 这里的R0是一个正数,以保证Reward的非负性,否则动作会自我标记完成,没有在当前位置稳定便很快地停下来(奖励为负数的情况在很多以快速完成为目标的强化学习中应用有优势)
  • Bonus是一个很大的值,四旋翼到达目标状态便会获得这个Bonus,这样可以大大加快算法的收敛
Value Function
  • γ为折扣因子(discount factor), 是一个[0,1]之间的数字。γ若为1,表明对之后的动作与当前动作同样关心;若小于1,则表示更加关心当前动作带来的奖励

训练目标

价值网络的训练目标

小组下一步方向

小组接下来具体的工作还要结合ROS下的四旋翼和双旋翼飞行器模拟器中提供的四旋翼模型去修改优化。个人认为为了简化问题,利用惯性元件已知全状态(已知惯性信息的情况下),可以省略循环神经网络,直接利用状态信息构建上文的两层网络进行输出,把重点放在Actor-Critic网络的训练上,借鉴上文的三次方差奖励函数,尽快完成任务后再优化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容

  • 改进神经网络的学习方法(下) 权重初始化 创建了神经网络后,我们需要进行权重和偏差的初始化。到现在,我们一直是根据...
    nightwish夜愿阅读 1,867评论 0 0
  • 9. 循环神经网络 场景描述 循环神经网络(Recurrent Neural Network)是一种主流的深度学习...
    _龙雀阅读 2,912评论 0 3
  • 1.强化学习资源 函数库 1、RL-Glue:提供了一个能将强化学习代理、环境和实验程序连接起来的标准界面,且可进...
    机器学习小济公阅读 1,994评论 0 8
  • 投资银行:改变市场生态的新物种 1. 发行承销 1.1 投资银行的概念 国外叫投资银行,国内叫券商,都是一个概念。...
    Endilys阅读 823评论 0 1
  • 我有一个小秘密 想要说给你听 你红着脸蛋跑开 嘴里喊着:我不要听! 不要听! 以后你也不会知道了 再也不会了 我会...
    摹玄阅读 152评论 0 0