决策树系列

决策树:

  • 特征选择准则
  1. 信息增益(ID3)
  2. 信息增益比(C4.5)
  3. GINI指数(用于CART中分类树生成)
  • 剪枝

  1. 信息增益(ID3):
    g(D,A)=H(D)-H(D|A)
    其中g(D,A)为所计算的增益值,其中参数D为整个训练样本集合,A为样本的某一特征。
    H(D)=-\displaystyle \sum^{K}_{k=1}{\frac{|C_k|}{|D|}}\log(\frac{|C_k|}{|D|})
    其中C_k表示样本集合D被分成k类之后每一类的样本集合,|C_k|则表示该集合的样本个数。|D|同理。
    H(D|A)=\displaystyle \sum^{n}_{i=1}{\frac{|D_i|}{|D|}}H(D_i)=-\displaystyle \sum^{n}_{i=1}{\frac{|D_i|}{|D|}}\displaystyle \sum^{K}_{k=1}{\frac{|D_{ik}|}{|D_i|}}\log(\frac{|D_{ik}|}{|D_i|})
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容