在人工智能的强化学习算法中有三个核心因素:环境(environment),行动(action),反馈(reward)。
环境一般是常量,起码在一段时间里是不变的,然后就是经过大量的多轮行动,行动的目的是适应环境,获得最优路径,或者最大值,其实这就是模仿人类的活动方式,不论是学习一门新的知识和进行一项新的工作,一般出不了这个套路,当然学习和工作有很多现成的经验可以加以吸收,但这些也是前人在学习工作中总结出来的,也逃不出这个套路!
除去环境这个因素,人能掌控的就是行动了,不断的尝试,就像学编程就要通过写程序来适应电脑编译器这个环境,写作也得通过不断的写来适应文字这个环境,形成自己的风格!在现在这个社会,在做中学习无疑是最现实的,无论是代码还是写作,想适应环境是靠学是不会成就你自己的能力的。如人饮水,冷暖还得自己去体会!
通过行动产生的反馈,指导下一次行动,就要有良好的日志记录和有对行动价值评估能力,在学习中,通过做题考试这个行动很容易得到反馈,对的不用去理会,看错的主要看错的。
在工作中则相反,社会发展飞速,时间是第一稀缺资源,错的不用去理会,看对的也就是最有成效的方法。
在学习中纠结于错误问题的成绩基本差不了,但如果这个习惯带到工作中一般都呵呵了,工作看成效,记住正确的工作方式方法就行了,如果编程发现了一个编译器问题,你和它死磕,老板会很不满意的。这就能解释很多学霸们到了社会工作中会有一段不适应的时期。
写作应该是介乎于两者之间,把文章写出来,发布到网上,获得读者的反馈,浏览量就是最大的反馈,起码看的人多,评论就更应该重视了,好的差的都要自己再评估一下,再做优化!如同强化学习算法一样,大量的写作才有大量的反馈,能力才能提升!