信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合中第
类样本所占的比例为
,则
的信息熵定义为
的值越小,则
的纯度越高。
信息增益(information gain):假设离散属性a有V个可能取值,若使用a对样本集D进行划分,则会产生V个分支结点,其中第v个分支结点包含D中所有在属性a上取值为的样本,记为
。可以计算出属性a对样本集D进行划分所获得的信息增益:
基尼指数Gini(D)表示集合D的不确定性。值越大样本集合的不确定性也越大。
源自:
周志华《机器学习》
李航《统计学习方法》中基尼系数的定义