用更少的bit来存参数,(例如32个bit改成16个bit)
把参数分群,用更少的bit来代表参数
-
通过霍夫曼编码,把出现频率高的值用更少的bit来表示
只用正一负一两个值来表示网络。
存一组真实值的参数,还有二值化参数。
随机初始化一组参数,通过最近的二值化参数计算梯度方向,根据方向优化真实参数,再找最接近的。知道最后一次找到真实参数最近的二值化参数。
在论文中结果很好,有的数据集比真实参数错误率还低。
有点像正则化。
用更少的bit来存参数,(例如32个bit改成16个bit)
把参数分群,用更少的bit来代表参数
通过霍夫曼编码,把出现频率高的值用更少的bit来表示
只用正一负一两个值来表示网络。
存一组真实值的参数,还有二值化参数。
随机初始化一组参数,通过最近的二值化参数计算梯度方向,根据方向优化真实参数,再找最接近的。知道最后一次找到真实参数最近的二值化参数。
在论文中结果很好,有的数据集比真实参数错误率还低。
有点像正则化。