推荐了transformer的文章,不愧是机器学习中的最新结构,看起来太复杂了。
但是,通过信息流的模型,可以大大简化。如此复杂的模型,本质上还是节点连线模式,因为人们常用的理论组织方式就是这样的,对于输入施行一系列复杂运算,获得输出,没什么神秘的地方。
对于模型的理解,分为几个阶段,第一个阶段就是整体流动图,反映了信息从输入到输出的拓扑连接方式,第二个阶段就是局部动力学图,对每一条连线都搞清楚,可以表述出从输入到输出的具体变化。第三个阶段就是整体功能性分析,使用模型的目的是为了实现某一功能,所以需要把功能与结构对应起来,明白模型的紧要连接处和次要连接处,这就开始了模型的优化。
经过这三个阶段,问题差不多就解决了,第一阶段和第二阶段前半一般是理论学习,第二阶段后半和第三阶段就必须结合实践了。如果各个阶段同时进行,那就估计啥也看不懂了,基础没打好,怎么可能直接贯通。
流动模型的一次应用。结合抽象和模块化的思想,可以表示得更简洁清楚。将大结构按照一定功能抽象为小结构的连接,先对各种小结构进行三阶段分析,然后再考虑大结构,学习路径就显得非常清晰了。