智慧2

姓名：黄睿

学号：22011110004

学院：通信工程学院

转自：https://blog.csdn.net/weixin_42137700/article/details/109667313

【嵌牛导读】本文详细介绍强化学习在十个方向的应用

【嵌牛鼻子】强化学习应用，无人驾驶

【嵌牛提问】强化学习能应用在什么地方？

【嵌牛正文】

无人驾驶中的应用

很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中，需要考虑的问题是非常多的，如：不同地方的限速不同限速，是否是可行驶区域，如何躲避障碍等问题。

有些自动驾驶的任务可以与强化学习相结合，比如轨迹优化，运动规划，动态路径，最优控制，以及高速路中的情景学习策略。

比如，自动停车策略能够完成自动停车。变道能够使用q-learning来实现，超车能应用超车学习策略来完成超车的同时躲避障碍并且此后保持一个稳定得速度。

AWS DeepRacer是一款设计用来测试强化学习算法在实际轨道中的变现的自动驾驶赛车。它能使用摄像头来可视化赛道，并且可以使用强化学习模型来控制油门和方向。

Wayve.ai已经成功应用了强化学习来训练一辆车如何在白天驾驶。他们使用了深度强化学习算法来处理车道跟随任务的问题。他们的网络结构是一个有4个卷积层和3个全连接层的深层神经网络。例子如图。中间的图像表示驾驶员视角。

强化学习在工业自动化中的应用

在工业自动化中，基于强化学习的机器人被用于执行各种任务。这些机器人不仅效率比人类更高，还可以执行危险任务。

Deepmind使用AI智能体来冷却Google数据中心是一个成功的应用案例。通过这种方式，节省了40%的能源支出。现在，这些数据中心完全由人工智能系统控制，除了很少数据中心的专家，几乎不再需要其他人工干预。该系统的工作方式如下：

每五分钟从数据中心获取数据快照，并将其输入深度神经网络

预测不同组合将如何影响未来的能源消耗

在符合安全标准的情况下，采取具有最小功耗的措施

向数据中心发送相应措施并实施操作

当然，具体的措施还是由本地控制系统操作完成。

强化学习在金融贸易中的应用

有监督的时间序列模型可用来预测未来的销售额，还可以预测股票价格。然而，这些模型并不能决定在特定股价下应采取何种行动，强化学习(RL)正是为此问题而生。通过市场基准标准对RL模型进行评估，确保RL智能体正确做出持有、购买或是出售的决定，以保证最佳收益。

通过强化学习，金融贸易不再像从前那样由分析师做出每一个决策，真正实现机器的自动决策。例如，IBM构建有一个强大的、面向金融交易的强化学习平台，该平台根据每一笔金融交易的损失或利润来调整奖励函数。

强化学习在自然语言处理NLP中的应用

RL可用于文本摘要、问答和机器翻译等NLP任务。

Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在论文中提出了一种基于RL的长文本问答方法。具体而言，首先从文档中选出几个与问题相关的句子，然后结合所选句子和问句通过RNN生成答案。

该论文结合监督学习与强化学习生成抽象文本摘要。论文作者Romain Paulus, Caiming Xiong和Richard Socher等人希望解决基于注意力的RNN编解码模型在摘要生成中面临的问题。论文提出了一种新的内注意力神经网络，通过该注意力可以关注输入并连续生成输出，监督学习和强化学习被用于模型训练。

至于机器翻译，科罗拉多大学和马里兰大学的研究人员提出了一种基于强化学习的机器翻译模型，该模型能够学习预测单词是否可信，并通过RL来决定是否需要输入更多信息来帮助翻译。

斯坦福大学、俄亥俄州立大学和微软研究所的研究人员提出Deep-RL，可用于对话生成任务。Deep-RL使用两个虚拟智能体模拟对话，并学习多轮对话中的未来奖励的建模，同时，应用策略梯度方法使高质量对话获得更高奖励，如连贯性、信息丰富度和简洁性等。

强化学习在医疗保健中的应用

医疗保健领域，RL系统为患者只能提供治疗策略。该系统能够利用以往的经验找到最优的策略，而无需生物系统的数学模型等先验信息，这使得基于RL的系统具有更广泛的适用性。

基于RL的医疗保健动态治疗方案(DTRs)包括慢性病或重症监护、自动化医疗诊断及其他一些领域。

DTRs的输入是一组对患者的临床观察和评估数据，输出则是每个阶段的治疗方案。通过RL，DTRs能够确定患者在特定时间的最佳治疗方案，实现时间依赖性决策。

在医疗保健中，RL方法还可用于根据治疗的延迟效应改善长期结果。

对于慢性病，RL方法还可用于发现和生成最佳DTRs。

通过本文，您可以深入研究RL在医疗保健中的应用。

强化学习在工程中的应用

在工程领域，Facebook提出了开源强化学习平台 —— Horizon，该平台利用强化学习来优化大规模生产系统。在Facebook内部，Horizon被用于：

个性化指南

向用户发送更有意义的通知

优化视频流质量

Horizon主要流程包括：

模拟环境

用于数据处理的分布式数据平台

模型的训练与输出

一个典型例子是，强化学习根据视频缓冲区的状态和其他机器学习系统的估计可选择的为用户提供低比特率或高比特率的视频。

Horizon还能够处理以下问题：

大规模部署

特征规范化

分布式学习

超大规模数据的处理和服务，如包含高维数据和数千特征的数据集。

强化学习在新闻推荐中的应用

在新闻推荐领域，用户的喜好不是一成不变的，仅仅基于评论和(历史)喜好向用户推荐新闻无法一劳永逸。基于强化学习的系统则可以动态跟踪读者反馈并更新推荐。

构建这样一个系统需要获取新闻特征、读者特征、上下文特征和读者阅读的新闻特征。其中，新闻特征包括但不限于内容、标题和发布者;读者特征是指读者与内容的交互方式，如点击和共享;上下文特征包括新闻的时间和新鲜度等。然后根据用户行为定义奖励函数，训练RL模型。

强化学习在游戏中的应用

RL在游戏领域中的应用备受关注，且极为成功，最典型的便是前些年人尽皆知的AlphaGoZero。通过强化学习，AlphaGoZero能够从头学习围棋游戏，并自我学习。经过40天的训练，AlphaGoZero的表现超过了世界排名第一的柯洁。该模型仅包含一个神经网络，且只将黑白棋子作为输入特征。由于网络单一，一个简单的树搜索算法被用来评估位置移动和样本移动，而无需任何蒙特卡罗展开。

实时竞价——强化学习在广告营销中的应用

该论文提出了一种基于多智能体强化学习的实时竞价策略。对大量广告商进行聚类，然后为每个聚类分配一个策略投标智能体实现竞标。同时，为了平衡广告主之间的竞争与合作，论文还提出了分布式协同多智能体竞价(DCMAB)。

在市场营销中，选择正确的目标全体才可带来高回报，因此个人精准定位至关重要的。论文以中国最大的电子商务平台淘宝网为研究对象，表明上述多智能体强化学习优于现有的单智能体强化学习方法。

强化学习在机器人控制中的应用

通过深度学习和强化学习方法训练机器人，可以使其能够抓取各种物体，甚至是训练中未出现过的物体。因此，可将其用于装配线上产品的制造。

上述想法是通过结合大规模分布式优化和QT-Opt(一种深度Q-Learning变体)实现的。其中，QT-Opt支持连续动作空间操作，这使其可以很好处理机器人问题。在实践中，先离线训练模型，然后在真实的机器人上进行部署和微调。

针对抓取任务，谷歌AI用了4个月时间，使用7个机器人运行了800机器人时。

实验表明，在700次实验中，QT-Opt方法有96%的概率成功抓取陌生的物体，而之前的方法仅有78%的成功率。

总结

强化学习是一个非常有趣且值得广泛研究的领域，RL技术的进步及其在现实各领域的应用势必将取得更大的成功。

最后编辑于：2022.03.30 01:25:32

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,576评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,515评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,017评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,626评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,625评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,255评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,825评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,729评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,271评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,363评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,498评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,183评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,867评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,338评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,458评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,906评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,507评论 2赞 359

智慧2

推荐阅读更多精彩内容