albert-相对于bert的改进点

参考文献：

https://zhuanlan.zhihu.com/p/87562926

https://blog.csdn.net/weixin_37947156/article/details/101529943

bert参数太大怎么办：

1、词表大小是V，向量维度是H，假定H维度较大，而V本身又非常大，V*H就非常非常大（占了整个模型20%的参数），需要巨额的参数量，而实际上，H只是一个查表操作，H之后才是NN的学习与上下文相关的表示，所以这里可以将V*H拆成 V*E + E*H，E的大小可以远远小于H，这样的话，就是先降维再升维，类似于一种矩阵分解的感觉，可以有效解决参数量过大的问题。

2、一说到参数量大，势必会有共享参数的想法，attention层和ffn层整个多头占了80%的参数，共享参数的话，在这个过程中其实就两点，一个是self-attention层的共享，另一个是feed forward的共享，实验表明，可视化之后，发现各个层的attention layer都长的差不多，所以可以将各个层的encoder进行共享，即共享self attention和feed forward，但是这样的好处：参数量极速变小，且层数可以无限叠加，不影响参数量，但是影响infer。效果的降低主要是来源于FFN的共享，而不是attention layer，参数变少之后可以对模型变宽变深，强化效果。

3、NSP不太行了怎么办，预测的主题性大于句子的连续性。那就改成SOP，调换两个句子的顺序作为负样本，让学习难度变难，且能够学习到句子的连续性信息。

4、dropout没啥用，反而占用了1/3到1/2的临时变量，浪费参数，因为MLM这个学习任务实在是太难了，所以去掉dropout反而让模型效果提高了。其实前两个参数共享的改动一定意义上是一种正则化的意思，可以提高泛化。

albert-相对于bert的改进点

推荐阅读更多精彩内容