今天总结一下...论文的情况吧
emmm最首先就是那个on-target samples和off-target samples的问题
先来考虑一下什么是success的episode
可能对于一个机器手的动作而言,碰到什么边界啥的算是一个失败的episode
就像这张图画的那样
红色边界可能就是失败的界限,在不触碰界限完成任务就是success的
然而触碰之后,因为机械手臂是可以伸缩的----所以它是可以回退到上一个state的(或更靠前的状态)
例如它在状态s1经过动作a1触碰到边界,这样state-action pair (s1,a1)就是 off-target ,而机械手臂又回退到状态s1,再在s1上进行动作a2,a3等等,直到某个状态动作对(sk,ak)完成了任务,我们就可以回退着找回去,(sk,ak)是很棒的,那么从哪里到的sk呢?sk-1就又找到了,那么sk-1的动作ak-1,也就是让sk-1到达sk的动作ak-1就是很棒的,(sk-1,ak-1)就是我们要找到on-target samples,而那些(sk-1,a')等等就是off-target samples。
在一个成功的episode中,肯定能找到一个一条 the trajectory,所以...就这样吧 on,off target的问题解决了
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
其实上面那个问题吧...感觉跟我的论文关系也不是很大,不过搞明白总是好的
至于我之前对于平台的疑问,家恒学长和黎叔都给出了解决方案?
首先我们平台的命中率确实是和是否移动有关(和跑动还是走路没关)
命中率和距离有关,伤害现在不清楚(但其实实在不行我也可以在代码里把血再加回来...这个问题不大的)
这三点就保证了移动的必要性
多Agent没必要...别人在做的
更多的任务意味着更多的负担,这不是我想要的
episode分级很好
GNN!
/////////////////////////////////////////////////////////
大概就这样