1、首先,现状摸底。
原来论文的每一个细节搞的清清楚楚(7月之前一定要完成的指标)
也就是DQN算法:
也就是原始论文中提到的算法,先搞清楚这个,再去想怎么做一些拓展和延伸。
Playing atari with deep reinforcement learning
Human-level control through deep reinforcement learning
三步吧,1、了解原始的Q-learning;2、了解Deep Q-learning;3、拓展Deep Q-learning
2、拓展
2.1 首先,算法部分的拓展:
(1)policy gradient算法:
大名鼎鼎的AlphaGo,用的是policy gradient算法。
参考论文:Mastering the game of Go with deep neural networks and tree search
(2)A3C算法:
A3C算法,当前的state-of-the-art方法。
参考论文:Asynchronous methods for deep reinforcement learning
结合上述的三类算法,再想想怎么去做拓展。
上面的policy gradient和A3C都还是17年之前的拓展了,18年、19年两年肯定还有很多新的研究思路,想一下怎么去搞。
2.2 其次,研究方向的拓展:
大师兄给的建议(就是单纯的把聊天记录粘贴过来了,之后在想怎么拓展):
(1)可以从更高一层次上,通过DQN,预测生物细胞的变化规律,并人为的加以干涉,让群体行为更合理,或者更有效。所以问你有没有仿真器。或者真实数据,通过rl的训练结果和真实数据做对比。
(2)其实可以把细胞内部的东西当作智能体,通过真实数据,分析各个部件的动作空间。为各个部件建模。然后考虑细胞内部所有部件的协作。群体利益最大化。细胞内部的可以用协作式算法去解决。
就从细胞间和细胞内部两个点,分别做工作
人为干涉的话,我是这样想的,生物细胞内部不是有各种小结构么,不同酸碱度或者浓度的某种元素(比方说钙过钾钠)下,这些结构的活动能力不同,对应的就是他们动作空间不同
人工调节的,可以通过控制这些外部环境,让细胞的活动达到一个可控的情况。
找不到数据其实可以假设一些。扩充你大论文的工作量。本身你也有一篇工作支撑了。