在TensorRT中使用KL散度(相对熵)度量INT8量化导致的信息损失。Kullback-Leibler Divergence,即K-L散度,是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。
信息熵
1948年,香农提出了“信息熵”的概念,解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。
通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。设函数为概率
的不确定性函数,函数
需要满足两个条件:1)、函数
是概率
的减函数;2)、两个独立符号所产生的不确定性应等于各自不确定性之和,
。对数函数恰好满足这两个条件,因此定义
。
假设某个信源由种可能的取值,且彼此互相独立,则该信源的不确定性可由下式度量(式中
的底数一般取2):
相对熵
信源的真实概率分布为,近似概率分布
(可以视为由观测数据得到的概率分布)。
(
)就反映了近似概率分布和真实概率分布之间差值的不确定性。按照信息熵的定义,对于信源的
种可能,信源近似概率分布和真实概率分布之前的距离(即:信息损失)可以由下式度量:
Python代码
import numpy as np
# 随机生成两个离散型分布
x = [np.random.uniform(1, 11) for i in range(10)]
px = x / np.sum(x)
y = [np.random.uniform(1, 11) for i in range(10)]
py = y / np.sum(y)
KL = 0.0
# 计算KL散度
for i in range(10):
KL += px[i] * np.log(px[i] / py[i])
print(KL)
在模型量化中,首先利用FP32模型得到一组概率分布数据,将其视为真实概率分布。然后,利用不同的INT8量化参数分别得到概率分布数据,通过计算KL散度,选择KL散度最小的一组量化参数完成模型量化,此时可以得到信息损失最小的量化模型。