初识机器学习
从2018年一月中旬就开始计划学习机器学习,然而由于事情比较多,只是零零星星的在python for data science中学习了机器学习中的少部分内容。回家过春节的这段时间,也仅仅是在基友网上copy了吴恩达老师机器学习的教程,也无暇深入研习。现在已经三月初,在所里工作已经有一周左右,慢热的进入状态,开始了机器学习的征程。
针对于机器学习,个人觉得首先是要知道其应用方面,因此我选择了几篇SCI文章阅读,在一篇sci中了解了Weka软件,堪称机器学习届的大神。
软件下载地址:https://www.cs.waikato.ac.nz/ml/index.html。可以根据系统中是否安装JAVA选择相应的版本。
软件界面如下:
image
软件有中文版教程数据挖掘与机器学习 WEKA应用技术与实践,需要的可以自行下载。
机器学习的方法非常多,对于基本的概念要烂熟于心,这里收集一些基本概念,以备自己后期查询。
- J48这一方法源自C4.8,是决策树中的一类,区别于D43基于信息熵进行分类,J48可以更好的进行修枝,优化分类。
- 信息熵概念的由来:一个事件或一个系统,准确的说是一个随机变量,它有着一定的不确定性。例如,“除东道主俄罗斯外,哪31个国家能进军2018年俄罗斯世界杯决赛圈”,这个随机变量的不确定性很高,要消除这个不确定性,就需要引入很多的信息,这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。
链接:http://blog.csdn.net/saltriver/article/details/53056816