scikit-learning Python安装百度

http://tieba.baidu.com/p/3226108693

1. 闲话篇

机器学习(ML)，自然语言处理(NLP)，神马的，最近太火了。。。不知道再过几年，大家都玩儿ML，还会不会继续火下去。。。需要有人继续再添点柴火才行。本人仅仅是一个迷途小书童，知识有限，还望各位ML大神多多指点:)。

最近想系统地收拾一下ML的现有工具，发现比较好的应该是这个http://scikit-learn.org/stable/index.html。

对于初学和进阶阶段的ML研究者们是个不错的选择。不过美中不足的是少了Large-scale ML的一些，毕竟这是单机的。后面琢磨琢磨，写个ADMM(今年ICML剧多相关的论文)的吧，这个之前在MSRA的Learning Group做过一个Turtorial.

尤其是他的参考手册，更是没有太多废话，都能一针见血地讲明重点：http://scikit-learn.org/stable/user_guide.html

其实不要指望这个工具包能有啥新的东西，不过就是这些经典的东西，要是你真掌握了，也基本God Like！了。:)，特别是你用ML创业的时候，可能真能用上一两个思路，也就是被训练出来的思想估计是大学能留下来的，剩下的都在狗肚子里。

我们来大致浏览一下这个系统的ML工具的功能，整体内容较多，我们逐步更新，想具体了解哪个部分的童鞋可以留言，我一下子还真很难都详细介绍（我会基本上保证一周更新一个小章节，逐步学习。首先弄懂模型原理，讲出来，然后使用对应数据实战一下，贴出代码，作图，最后利用测试结果适当比较一下模型之间的差异），所有的代码，我都会后续贴到CSDN或者Github上面。

---------------------------------------------------华丽丽的分割线---------------------------------------------------------

2. 配置篇

推荐学习配置：python 2.7, pycharm IDE （这个Python的IDE不错，推荐大家用下，如果用过Eclipse写Java，这个上手会很快）， numpy, scipy。其他还有一些需要下载的包，大家可以边配置边有问题留言，建议在windows下面弄弄就行，我基本不用Linux。

有些小伙伴建议我也详细讲讲在windows下的配置。的确，这一系列的配置还真心没有那么简单，我特地找了一台windows7 Ultimiate SP1 x64 的裸机来重现一下整体配置过程。

首先是Python 2.7 （切记Python 3.x 和2.x的版本完全不是一路货，不存在3.x向下兼容的问题，所以，如果哪位小伙伴为了追求软件版本高而不小心安装了python 3.x，我只能说。。好吧。。你被坑了。最简单的理解，你可以认为这两个Python版本压根就不是一门相同的编程语言，就连print的语法都不同）

1. Python 2.7.x 在 x64 windows平台下的解释器。具体下载地址：https://www.python.org/download/releases/2.7.8/注意64位的是这个 Windows X86-64 MSI Installer (2.7.8)

测试这个Python是否在你的环境里配置好，你可以在命令行里直接输入python，如果报错，那么你需要手动配置一下环境，这个大家上网搜就可以解决（简单说，在环境变量PATH里把你的Python的安装文件夹路径写进去）。

2. 然后安装Pycharm，这个是我在Hulu实习的时候用到过的IDE，还是涛哥推荐的，还不错。因为有正版收费的问题，推荐大家下载它的(community)版http://www.jetbrains.com/pycharm/download/。安装好后，它应该会让你选择刚才安装好的Python的解释器，这样你就可以做一些简单的python编程了，用过eclipse的人，这个上手非常快。

3. 接着就需要配置跟sklearn有关的一系列Python的扩展包了。这个美国加州一个学校的一个非官方网站张贴了所有windows直接安装的版本http://www.lfd.uci.edu/~gohlke/pythonlibs/，特别实用，大家到里面去下载跟python 2.7 amd64有关的安装包。然后直接下载运行即可。需要下载的一系列扩展包的列表（按照依赖顺序）：Numpy-MKL, SciPy, Scikit-learn。有了这些就可以学习Scikit-learn这个工具包了。

4. 此外，如果想像我一样，同时可以画图，那么就需要matplotlib，这个也有一个网站手册http://matplotlib.org/contents.html，同样也需要一系列扩展包的支持。使用matplotlib 需要如下必备的库，numpy, dateutil, pytz, pyparsing, six。都能从刚才我推荐的下载网站上获取到。

上面的一系列都搞定了，大家可以使用我第一个线性回归的代码（加粗的代码）测试一下，直接输出图像，最后还能保存成为png格式的图片。

------------------------------华丽丽的分割线------------------------------------------

3. 数据篇

用工具之前先介绍几个我会用到的数据

这里大部分的数据都是从这个经典的机器学习网站提供的：

https://archive.ics.uci.edu/ml/

sklearn.datasets里面集成了这个网站里的部分数据（刚接触Python的童鞋，需要一点点Python的知识，和Java类似，使用现成工具模块的时候，需要import一下，我们这个基于Python的机器学习工具包的全名是sklearn，这里介绍数据，所以下一个目录是datasets）。具体的Python代码：

import sklearn.datasets

数据一：波士顿房价（适合做回归），以后直接用boston标记

这行代码就读进来了

boston = sklearn.datasets.load_boston()

查询具体数据说明，用这个代码：

print boston.DESCR

输出如下：

Data Set Characteristics:

:Number of Instances: 506

:Number of Attributes: 13 numeric/categorical predictive

:Median Value (attribute 14) is usually the target

:Attribute Information (in order):

- CRIM per capita crime rate by town

- ZN proportion of residential land zoned for lots over 25,000 sq.ft.

- INDUS proportion of non-retail business acres per town

- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)

- NOX nitric oxides concentration (parts per 10 million)

- RM average number of rooms per dwelling

- AGE proportion of owner-occupied units built prior to 1940

- DIS weighted distances to five Boston employment centres

- RAD index of accessibility to radial highways

- TAX full-value property-tax rate per $10,000

- PTRATIO pupil-teacher ratio by town

- B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town

- LSTAT % lower status of the population

- MEDV Median value of owner-occupied homes in $1000*s

一共506组数据，13维特征，

比如第一个维度的特征是犯罪率，第六个是每个房子平均多少房间等等。

boston.data 获取这506 * 13的特征数据

boston.target 获取对应的506 * 1的对应价格

数据二：牵牛花（适合做简单分类），标记为Iris

import sklearn.datasets

iris = sklearn.datasets.load_iris()

iris.data 获取特征

iris.target 获取对应的类别

Data Set Characteristics:

:Number of Instances: 150 (50 in each of three classes)

:Number of Attributes: 4 numeric, predictive attributes and the class

:Attribute Information:

- sepal length in cm

- sepal width in cm

- petal length in cm

- petal width in cm

- class:

- Iris-Setosa

- Iris-Versicolour

- Iris-Virginica

这个数据基本是个ML的入门选手都知道，一共三类牵牛花，获取特征和对应的类别标签也是同上

一共150样本，3类，特征维度为4

数据三：糖尿病（回归问题），diabetes

这个数据包很奇怪，没有描述。我也到原本的UCI的网站上查了一下，也是没有太好的描述。

import sklearn.datasets

diabetes = sklearn.datasets.load_diabetes()

print diabetes.keys()

这样的输出只有data, targets。

我也观察了一下数据，感觉是经过额外的归一化处理的，原始的数据样貌已经看不出来了。。

下面这个图是我从网站上Copy下来的有限的描述，样本量为442，特征维度为10，每个特征元素的值都是连续的实数，在正负0.2之间。。目标这个整数值有可能是血糖。

Samples total 442

Dimensionality 10

Features real, -.2 < x < .2

Targets integer 25 - 346

数据四：手写数字识别（多类分类，10个类别，从0-9）digits

import sklearn.datasets

digits = sklearn.datasets.load_digits()

总体样本量：1797，每个类别大约180个样本，每个手写数字是一个8*8的图片，每个像素是0-16的整数值。

综上，大家可以加载相应的数据来玩，这几个数据算是比较有代表性的。后面会介绍如何利用SKLEARN工具下载更大规模的数据，比如MINIST的大规模的手写数字识别库等等。

总之，如果你想获取特征，就在*.data里，对应的类别或者回归值在*.target里面

光说不练不行，我对每个介绍的方法都会选用上面的Dataset实际测试一下，并且会酌情给出结果和图像。

scikit-learning Python安装百度

scikit-learning Python安装百度

推荐阅读更多精彩内容

友情链接更多精彩内容