2018-12-17 个人网站:www.mwhitelab.com 今日所学 CS229 17节 CS224N 8 知识点 π:S→A RNN W初始化为单位矩阵。这样初始效果就是上下文向量和词向量的平均,并用RELU softmax很费力。一个技巧是,先预测词语的分类(比如按词频分),然后在分类中预测词语。 评测方法是标准的F1(因为标签样本不均衡)