机器学习信仰之决策树

###熵、信息增益、信息增益比、基尼系数

####熵 --- 度量随机变量的不确定性(纯度)

定义:假设随机变量X是一个取有限个数的离散随机变量,其概率分布为:

           其概率 P(X=xi) = pi , ( i = 1,2, ... , n)

           因此随机变量X的熵:


curDate = startDate

all_user_data = sc.parallelize([])

print"end Date:",endDate

whilecurDate <= endDate:

dateStr = curDate.strftime("%Y%m%d")

inputpath ="/user/map_rec/rec/orders_with_poiid_v3/"+ dateStr

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容