python实现c4.5/Id3自我练习

import numpy as np 

      class DecisionTree: 

          """决策树使用方法: 

              - 生成实例: clf = DecisionTrees(). 参数mode可选,ID3或C4.5,默认C4.5                 

              - 训练,调用fit方法: clf.fit(X,y).  X,y均为np.ndarray类型                                   

              - 预测,调用predict方法: clf.predict(X). X为np.ndarray类型                                       

              - 可视化决策树,调用showTree方法     

          """ 

          def __init__(self,mode='C4.5'): 

              self._tree = None 

               

              if mode == 'C4.5' or mode == 'ID3': 

                  self._mode = mode 

              else: 

                  raise Exception('mode should be C4.5 or ID3')     

          def _calcEntropy(self,y): 

              """ 

              函数功能:计算熵 

              参数y:数据集的标签 

              """ 

              num = y.shape[0] 

              #统计y中不同label值的个数,并用字典labelCounts存储 

              labelCounts = {} 

              for label in y: 

                  if label not in labelCounts.keys(): labelCounts[label] = 0 

                  labelCounts[label] += 1 

              #计算熵 

              entropy = 0.0 

              for key in labelCounts: 

                  prob = float(labelCounts[key])/num 

                  entropy -= prob * np.log2(prob) 

              return entropy           

          def _splitDataSet(self,X,y,index,value): 

              """ 

              函数功能:返回数据集中特征下标为index,特征值等于value的子数据集 

              """ 

              ret = [] 

              featVec = X[:,index] 

              X = X[:,[i for i in range(X.shape[1]) if i!=index]] 

              for i in range(len(featVec)): 

                  if featVec[i]==value: 

                      ret.append(i) 

              return X[ret,:],y[ret] 

                     

          def _chooseBestFeatureToSplit_ID3(self,X,y): 

              """ID3 

              函数功能:对输入的数据集,选择最佳分割特征 

              参数dataSet:数据集,最后一列为label 

              主要变量说明: 

                      numFeatures:特征个数 

                      oldEntropy:原始数据集的熵 

                      newEntropy:按某个特征分割数据集后的熵 

                      infoGain:信息增益 

                      bestInfoGain:记录最大的信息增益 

                      bestFeatureIndex:信息增益最大时,所选择的分割特征的下标 

              """ 

              numFeatures = X.shape[1] 

              oldEntropy = self._calcEntropy(y) 

              bestInfoGain = 0.0 

              bestFeatureIndex = -1   

              for i in range(numFeatures):       

                  featList = X[:,i] 

                  uniqueVals = set(featList) 

                  newEntropy = 0.0   

                  for value in uniqueVals: 

                      sub_X,sub_y = self._splitDataSet(X,y,i,value) 

                      prob = len(sub_y)/float(len(y)) 

                      newEntropy += prob * self._calcEntropy(sub_y)   

                  #计算信息增益,根据信息增益选择最佳分割特征 

                  infoGain = oldEntropy - newEntropy 

                  if (infoGain > bestInfoGain): 

                      bestInfoGain = infoGain 

                      bestFeatureIndex = i 

              return bestFeatureIndex 

               

          def _chooseBestFeatureToSplit_C45(self,X,y): 

              """C4.5 

                  ID3算法计算的是信息增益,C4.5算法计算的是信息增益比

              """ 

              numFeatures = X.shape[1] 

              oldEntropy = self._calcEntropy(y) 

              bestGainRatio = 0.0 

              bestFeatureIndex = -1 

              #对每个特征都计算一下gainRatio=infoGain/splitInformation 

              for i in range(numFeatures):       

                  featList = X[:,i] 

                  uniqueVals = set(featList) 

                  newEntropy = 0.0 

                  splitInformation = 0.0 

                  #对第i个特征的各个value,得到各个子数据集,计算各个子数据集的熵, 

                  #进一步地可以计算得到根据第i个特征分割原始数据集后的熵newEntropy 

                  for value in uniqueVals: 

                      sub_X,sub_y = self._splitDataSet(X,y,i,value) 

                      prob = len(sub_y)/float(len(y)) 

                      newEntropy += prob * self._calcEntropy(sub_y)   

                      splitInformation -= prob * np.log2(prob) 

                  #计算信息增益比,根据信息增益比选择最佳分割特征 

                  if splitInformation==0.0: 

                      pass 

                  else: 

                      infoGain = oldEntropy - newEntropy 

                      gainRatio = infoGain/splitInformation 

                      if(gainRatio > bestGainRatio): 

                          bestGainRatio = gainRatio 

                          bestFeatureIndex = i 

              return bestFeatureIndex 

          def _majorityCnt(self,labelList): 

              """ 

              函数功能:返回labelList中出现次数最多的label 

              """ 

              labelCount={} 

              for vote in labelList: 

                  if vote not in labelCount.keys(): labelCount[vote] = 0 

                  labelCount[vote] += 1 

              sortedClassCount = sorted(labelCount.iteritems(),key=lambda x:x[1], reverse=True) 

              return sortedClassCount[0][0] 

          def _createTree(self,X,y,featureIndex): 

              """建立决策树 

              featureIndex,类型是元组,它记录了X中的特征在原始数据中对应的下标。 

              """ 

              labelList = list(y) 

              #所有label都相同的话,则停止分割,返回该label 

              if labelList.count(labelList[0]) == len(labelList): 

                  return labelList[0] 

              #没有特征可分割时,停止分割,返回出现次数最多的label 

              if len(featureIndex) == 0: 

                  return self._majorityCnt(labelList) 

              #可以继续分割的话,确定最佳分割特征 

              if self._mode == 'C4.5': 

                  bestFeatIndex = self._chooseBestFeatureToSplit_C45(X,y) 

              elif self._mode == 'ID3': 

                  bestFeatIndex = self._chooseBestFeatureToSplit_ID3(X,y) 

                   

              bestFeatStr = featureIndex[bestFeatIndex] 

              featureIndex = list(featureIndex) 

              featureIndex.remove(bestFeatStr) 

              featureIndex = tuple(featureIndex) 

              #用字典存储决策树。最佳分割特征作为key,而对应的键值仍然是一棵树 

              myTree = {bestFeatStr:{}} 

              featValues = X[:,bestFeatIndex] 

              uniqueVals = set(featValues) 

              for value in uniqueVals: 

                  #对每个value递归地创建树 

                  sub_X,sub_y = self._splitDataSet(X,y, bestFeatIndex, value) 

                  myTree[bestFeatStr][value] = self._createTree(sub_X,sub_y,featureIndex)

              return myTree   

           

          def fit(self,X,y): 

              #类型检查 

              if isinstance(X,np.ndarray) and isinstance(y,np.ndarray): 

                  pass 

              else: 

                  try: 

                      X = np.array(X) 

                      y = np.array(y) 

                  except: 

                      raise TypeError("numpy.ndarray required for X,y") 

               

              featureIndex = tuple(['x'+str(i) for i in range(X.shape[1])]) 

              self._tree = self._createTree(X,y,featureIndex) 

              return self  #allow chaining: clf.fit().predict() 

 

          def predict(self,X): 

              if self._tree==None: 

                  raise NotFittedError("Estimator not fitted, call `fit` first") 

                   

              if isinstance(X,np.ndarray): 

                  pass 

              else: 

                  try: 

                      X = np.array(X) 

                  except: 

                      raise TypeError("numpy.ndarray required for X")

               

              def _classify(tree,sample): 

                  """ 

                  用训练好的决策树对输入数据分类 

                  决策树的构建是一个递归的过程,用决策树分类也是一个递归的过程 

                  _classify()一次只能对一个样本(sample)分类 

                  To Do: 多个sample的预测怎样并行化? 

                  """ 

                  featIndex = tree.keys()[0] 

                  secondDict = tree[featIndex] 

                  key = sample[int(featIndex[1:])] 

                  valueOfkey = secondDict[key]

                  if isinstance(valueOfkey, dict): 

                      label = _classify(valueOfkey,sample) 

                  else: label = valueOfkey 

                  return label 

                   

              if len(X.shape)==1: 

                  return _classify(self._tree,X) 

              else:   

                  results = [] 

                  for i in range(X.shape[0]): 

                      results.append(_classify(self._tree,X[i])) 

                  return np.array(results)                 

          def show(self): 

              if self._tree==None: 

                  raise NotFittedError("Estimator not fitted, call `fit` first")                 

              #plot the tree using matplotlib 

              import treePlotter 

              treePlotter.createPlot(self._tree) 

      class NotFittedError(Exception): 

          """ 

          Exception class to raise if estimator is used before fitting             

          """ 

          pass 

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容