focal-loss

概率分布

概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同,概率分布取不同的表现形式。

交叉熵

两个概率分布之间的距离度量。
对于离散变量采用以下的方式计算:
H(p,q) = \sum_i p_i log(\frac{1}{q_i})=-\sum_ip_ilog(q_i)
对于连续变量:
H(p,q) =-\int_{x} P(x)log(Q(x)) \,dx

二分类交叉熵

预测分布p_t,取正样本概率p, 取负样本1-p
真实分布y,对于正样本,取正样本概率为1,取负样本概率为0;对于负样本,取正样本概率为0,取负样本概率为1.

onehot 编码:
预测分布:(p, q)
真实分布,正样本(1, 0), 负样本(0,1)

正样本时:
CE(p_t, y) = -(1*log(p)+0*log(q))=-log(p)
负样本时:
CE(p_t, y) = -(0*log(p)+1*log(q))=-log(q)
In summary:
CE(p_t, y) = -log(p_t)
Focusing penalty:

focusing parameter \gamma
modulating factor(1-p_t)^\gamma

Weighted cross entropy loss (CE) and Focal loss (FL):
CE^{'} (p_t)-\alpha_t log(p_t)

FL(p_t) = -(1-p_t)^\gamma log(p_t) \rightarrow FL(p_t) = -\alpha_t (1-p_t)^\gamma log(p_t)
简单样本和困难样本不均衡的问题。
重点关注困难样本的loss:
easy sample: p_t \rightarrow 1, (1-p_t)^\gamma \rightarrow 0,do not take the loss into consideration
hard sampel: p_t \rightarrow 0, (1-p_t)^\gamma \rightarrow 1,original loss
\gamma=0, (1-p_t)^\gamma =1, Focal Loss -> CE

References:
https://www.cnblogs.com/king-lps/p/9497836.html
https://zhuanlan.zhihu.com/p/49981234

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容