特征选择之期望交叉熵

期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下

公式

P(t)表示特征t在文本中出现的概率

 P(ci)表示ci类文本在文本集中出现的概率

P(ci|t)表示文本包含特征t时属于类别c的概率

|c|表示类别总数。

如果特征t和类别强相关,即P(ci|t)大,并且相应的P(ci)又比较小,则说明特征t对分类的影响大,相应的期望交叉熵值也较大,特征在特征子集中的排名就会比较靠前。

期望交叉熵在文本分类的特征选择中得到了广泛的应用,并且取得了很好的效果,与信息增益相比,期望交叉熵不再考虑特征项不出现的情况,这就大大降低了一些出现次数很少的稀有特征的干扰,提高了分类的效率。期望交叉熵在特征选择上虽然已经取得了很好的效果,但是还存在一些不足,最明显的一点就是它只考虑了特征与类别之间的相关性,而忽略了特征项在类内和类间分布的均匀程度。如果考虑到特征在类内和类间分布的影响,则特征项集中的出现在某一个类中比均匀分布在很多类中含有更多的类别信息,特征项在某一个类中均匀地分布在很多文本中比只在该类中个别文本中出现含有更多的类别信息。

参考:http://blog.csdn.net/fighting_one_piece/article/details/38562183

同时发现在有的博客中公式没有前面词t的概率

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容