基本概念:
机器学习是一帮计算机科学家想让计算机像人一样思考所研发出来的计算机理论。机器学习不仅仅只有一种方法,实现它的方法多种多样,这里所说的方法在程序语言中,我们叫做算法。
有监督学习和无监督学习很容易区分和理解,直白来讲,监督的含义就是训练数据集和测试数据集有没有标签:如果数据集中包含了特征和标签的,是有监督学习,也就是最后的计算结果对不对,是有标准答案可以做参考和对比的:而数据集中只有特征没有标签的是无监督学习,也就是最后的结果对不对,是没有标准答案的。
半监督学习一般是指数据集中的数据有一部分是有标签的,另一部分是没标签的,比如说在图像识别领域,有一堆图片,手工标注出其中含有猫的图片,这样一个数据集就是一部分数据有标签一部分数据没标签,这样一个数据集就可以用用半监督学习的方法对数据集进行训练,使一个模型能够准确从一堆图片中识别出猫。
强化学习是机器学习的一个领域,它的每一步没有明确的标签标识对错,只存在一个最终的结果作为导向,比如说下棋,走的每一步都没有什么对错,毕竟看的是全局,在训练机器的时候,机器也不知道对错,但是机器知道走到最后是输还是赢,如果输了,下次就不这么走了,如果赢了,那就记下这种走法,是可行的。通过不断的"试错"来学习积累,这就是强化学习了。
安装scikit-learn:
pip install scikit-learn
scikit-learn又称sklearn,是一个开源的基于python语言的机器学习工具包,它通过numpy,scipy和matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流的机器学习算法。它使用起来非常方便简单高效。