学习《Python数据分析与挖掘实战》之Python数据分析简介

2.1搭建Python开发平台

2.1.1所要考虑的问题

Python官网:https://www.python.org/

Python是跨平台的语言,因此脚本可以跨平台使运行。不同的平台所运行效率不一样, 一般来说,Linux平台下会比Windows平台快

2.1.2基础平台的搭建

(1)Windows

直接到官网下载msi安装包安装即可

(2)Linux

大多数Linux发行版自带Python2.x版本主程序,因此不需要重新安装Python程序。

(3)Anaconda

安装核心程序只是第一步、为了实现更丰富的科学计算功能,还需要安装一些第三方的扩展库,Anaconda就是其中一个常用的科学计算发行版。官网地址:https://www.anaconda.com/

Anaconda的特点如下:

  1. 包含了众多流行的科学、数学、工程、数据分析的Python包;
  2. 完全开源免费;
  3. 额外的加速和优化是付费的,但对于学术用途可申请免费的License;
  4. 全平台支持,Linux、Windows、Mac;支持Python2.x、Python3.x,可自由切换。

2.2Python使用入门

2.2.1运用方式

(1)赋值

a=2+3 #这句话的意思是将2+3的值赋予给a

(2)如注释多行可用

''' 
这里是多行注释 这里是多行注释
'''

2.2.2基本命令

(1)基本运算

a=2 #赋值 a2 #a乘以2 a*2 #a的2次方 a,b,c=1,2,3 #相当于a=1,b=2,c=3 s = 'i like python' #对变量进行赋值(可赋值字符串) s+' very much' #拼接字符串,结果是i like python very much s.slipt(' ') #对变量以空格分割,结果为['i', 'like', 'python']

(2)判断与循环

1.判断

if 条件1: 语句2 
  elif 条件3: 
        语句4 
  else : 
        语句5

2.循环

while循环:

s,k=0,0
while k<101: #在3.x环境下此过程为1+2+3+...+101 
    k=k+1 
    s=s+k 
print(s)

for循环:

s=0
for k in range(101): #在3.x环境下此过程为1+2+3+...+100
    s=s+k 
print(s)

3.函数

def定义函数:

def add2(x): 
   return x+2 
print(add2(1)) #返回结果为3

Python的函数可以是多种多样的,比如返回列表:

def add2(x=0,y=0): 
    return [x+2,y+3] 
def add3(x,y): 
    return x+3,y+3
 a,b=add3(1,2) #a=4,b=5

还支持lambda对简单的功能定义“行内函数”,有点像MATLAB里面的“匿名函数”,如下:

f = lambda x: x+2 #定义函数f(x)=x+2 
g = lambda x,y = x+y #定义函数g(x,y)=x+y

(3)数据结构

Python有4个内建的数据结构——list(列表)、tuple(元组)、dictionary(字典)、set(集合),它们可以统称为容器。

1.列表/元组

列表和元组都是序列结构,很相似,但是又有不同的地方;列表a=[1,2,3],元组a=(1,2,3),用法和功能完全一样。
区别:列表可以被修改,而元组不可以被修改;与列表有关的函数是list,元组是tuple。

列表与元组相关函数:
  1. cmp(a,b):比较;两个列表/元组的元素
  2. len(a):列表/元组元素个数
  3. max(a):返回列表/元组元素最大值
  4. min(a):返回列表/元组元素最小值
  5. sum(a):将列表/元组元素求和
  6. sorted(a):对列表的元素进行升序排列
列表的方法:
  1. a.append(1):将1添加到a列表的末尾
  2. a.count(1):统计列表a中1出现的次数
  3. a.extend([1,2]):将列表[1,2]的内容追加到列表a的末尾中
  4. a.index(1):从列表a中找出第一个1的索引位置
  5. a.insert(2,1):将1插入列表a的索引为2的位置
  6. a.pop(1):移除列表a中索引为1的元素

列表解析——能够简化我们队列表元素注意进行操作的代码:

a = [1,2,3] 
b=[] 
for i in a:
    b.append(i+2) 
print(b) #列表b=[3, 4, 5]

可简化为:

a=[1,2,3] 
b=[i=2 for i in a] 
print(b) #列表b=[3, 4, 5]

2.字典

通俗来讲,它也是一个列表,但是它的“下标”不再是以“0”开头的数字,而是让自己定义的“键”(key)开始。
创建一个字典的基本方法为:

d={'today':20,'tomorrow':30} #today/tomorrow就是字典的键,20/30则是键对应的值 d['today'] #该值为20 d['tomorrow'] #该值为30

通过dict()函数转换,或者通过dict.fromkeys来创建:

dict([['today',20],['tomorrow',30]]) #也相当于{'today':20,'tomorrow':30} 
dict.fromkeys(['today','tomorrow'],20) #相当于{'today':20,'tomorrow':20}

3.集合

和数学概念上的集合基本上是一致的。它与列表的区别:
a.在于它的元素的不重合的,而且是无序的;
b.它不支持索引。
一般我们用大括号{}或者set()来创建集合。
s={1,2,2,3} #2会自动去重,得到{1,2,3} s=set([1,2,2,3]) #同样会将列表转换为集合,得到{1,2,3}
集合的运算:

a = t | s #并集
b = t & s #交集
c = t - s #差集(项在t中,但不在s中)
d = t ^ s #对称差集(项在t或s中,但不会同时出现在二者中)

4.函数式编程

函数式编程主要由几个函数构成:lambda()、map()、reduce()、filter()

a、lambda():主要用来定义“行内函数”

b、map():类似于列表解析,例如:列表解析可以这样写 b =[i+2 for i in a],但是利用map函数我们可以这么写:

a=[1,2,3] 
b =map(lambda x: x+2,a)
b=list(b) 
print(b) #结果是[3,4,5]

注:在3.x需要b = list(b)这一步,在2.x就不需要。是因为在3.x中map函数进进是创建一个待运行的命令容器,只有其他函数调用它的时候才会返回结果。
map()也接受多参数的函数,如map(lambda x,y:x*y,a,b) 表示将a、b两个列表的元素对应相乘,把结果返回给新列表。map()命令和for循环的对比:列表解析本身还是for命令,在Python中for命令的执行效率不高,而map函数实现了相同的功能,而效率更高

c、reduce()函数:与map函数类似,map()用于逐一遍历,reduce()函数用于递归计算。例如:

reduce(lambda x,y : x*y,range(1,n+1)) #可以计算n的阶乘

注:在2.x中,上述命令可以直接运行,在3.x中,reduce函数已经被移除了全局命名空间,置于fuctools库中,可通过from fuctools import reduce引入reduce。

上述代码也可用循环语句写成:

s=1 
for i in range(1,n+1): 
      s=s*i

d、filter()函数:它是一个过滤器,用于筛选列表中符合条件的元素。例如:

b=filter(lambda x : x>5 and x<8,range(10)) 
b=list(b) 
print(b) #结果为[6, 7]

上述语句也可以用列表解析写出:

b=[i for i in range(10) if i>5 and i<8]

我们使用map()、reduce()、filter()最终的目的是兼顾简洁和效率,因为map()、reduce()、filter()的循环速度比Python内置的while和for循环快的多。

(4)库的导入和添加

1.库的导入:例如:导入math库

import math 
math.sin(1) #计算正弦 
math.exp(1) #计算指数 
math.pi #内置的圆周率常数

重命名库:

import math as m 
m.sin(1)

指定导入某个函数:

from math import exp as e 
e(1) help('modules') #获得已安装的所有模块名

2.导入futurn特征

使用2.x的用户可以通过引入futurn特征的方式兼容代码,如:

#将print变成函数形式,即用print(a)的方式输出:
from __futurn__ import print_function 
#3.x的3/2=1.5,3//2=1;2.x的3/2=1 
from __futurn__ import division

3.添加第三方库

以安装pandas为例:

打开cmd,输入 pip install pandas,点击回车即可

2.3 Python数据分析工具

Python数据挖掘相关扩展库
  • numpy:提供数组支持,以及相应的高效的处理函数

  • sicpy:提供矩阵支持,以及矩阵相关的数值计算模块

  • matplotlib:强大的数据可视化工具、作图库

  • pandas:强大、灵活的数据分析和探索工具

  • statsmodels:统计建模和计量经济学,包括描述统计、统计模型估计和推断

  • scikit-learn:支持回归、分类、聚类等的强大的机器学习库

  • keras:深度学习库,用于建立神经网络以及深度学习模型

  • gensim:用来做文本主题模型的库,文本挖掘可以用到

2.3.1 numpy

Python并没有提供真正的数组功能,而numpy则提供了真正的数组功能,它还是很多更高级库的依赖库,,例如scipy、matplotlib、pandas等。numpy内置函数的处理速度是C语言级别的,因此在编写函数的时候应当尽量的使用它们内置的函数,避免出现效率瓶颈的问题(尤其是涉及循环问题)。

安装numpy:

pip install numpy #在Windows中可以像安装其他第三方库一样用pip完成 python setup.py install #Windows还可自行下载源代码,然后用此代码安装 sudo apt-get install python-numpy #在Linux的Ubuntu下安装

numpy的基本操作:

#-*- coding :utf-8 -* 
import numpy as np #一般用np作为numpy的别名 
a = np.array([2,0,1,5]) #创建数组 
print(a) #打印结果 
print(a[:3]) #引用前3个数字(切片) 
print(a.min()) #输出a的最小值 
a.sort() #将a的元素从小到大排列,此操作直接修改a,print(a)为[0,1,2,5] 
print(a) 
b = np.array([[1,2,3],[4,5,6]]) #创建二维数组 
print(b*b) #输出数组的平方阵[[1,4,9],[16,25,36]]

numpy官网:http://www.numpy.org/或者http://reverland.org/python/2012/08/12/numpy/

2.3.2 SciPy

SciPy包含的功能有最优化、线性代数、几份、插值、拟合、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。SciPy依赖于numpy,因此安装它之前需要先安装numpy,安装scipy和安装numpy在Windows平台上是一样的,直接用pip进行安装即可,sudo apt-get install python-scipy 在Linux的Ubuntu下安装。

SciPy求解非线性方程组和数值积分:

#-*-coding:utf-8 -* 
#求解非线性方程组2x1-x2^2=1,x1^2-x2=2 
from scipy.optimize import fsolve #导入求解方程组的函数 
def f(x): #定义要求解的方程组 
    x1=x[0] 
     x2=x[1]
return [2*x1-x2**2-1,x1**2-x2-2] 
result = fsolve(f,[1,1]) #输出初值[1,1]并求解 
print(result) #数值积分 

from scipy import integrate #导入积分函数 
def g(x): #定义被积函数 
    return (1-x**2)**0.5 
pi_2,err = integrate.quad(g,-1,1) #积分结果和误差 
print(pi_2*2) #有微积分知识知道积分结果为圆周率pi的一半

2.3.3 Matplotlib

主要用于绘制二维图,也可以进行简单的三维绘图。安装方法也和上述两个库的安装方法一致。

注:matplotlib对上级库的依赖较多,手动安装的时候需要吧这些库也逐一安装完成

matplotlib绘图的基本代码:

#-*-coding:utf-8 -* 
import numpy as np 
import matplotlib.pyplot as plt #导入matplotlib 

x = np.linspace(0,10,1000) #作图的变量自变量 
y = np.sin(x)+1 #因变量y 
z = np.cos(x**2)+1 #因变量z
plt.figure(figsize=(8,4)) #设置图像大小 
plt.plot(x,y,label= '$\sin x+1$',color='red',linewidth=2) #作图,设置标签,线条颜色,线条大小 
plt.plot(x,z,'b--',label='$\cos x^2+1$') #作图,设置标签,线条类型 
plt.xlabel('Time(s)') #X轴名称 
plt.ylabel('Volt') #Y轴名称 
plt.title('A Simple Example') #标题 
plt.ylim(0,2.2) #显示Y轴范围 
plt.legend() #显示图例 
plt.show()

做出来的图如下:

以上代码做出来的图

如果使用的是中文标签,会发现中文标签无法正常显示。这是由于matplotlib的默认字体是英文导致的,解决办法是在作图之前手动将默认字体设置为中文字体,如黑体(SimHei):

plt.rcParams['font.sans-serif']=['SimHei'] #这句用来正常显示中文字体

如果保存图像负号不显示则可以用以下代码解决:

plt.rcParams['axes.unicode_minus']=False #解决保存图像是负号“-”显示为方块的问题

建议:有空多去matplotlib提供的“画廊”欣赏他做出来的漂亮效果,链接如下:https://matplotlib.org/gallery.html

2.3.4 pandas

pandas是Python下最强大的数据分析和探索工具,pandas构建在numpy之上,使得以numpy为中心的应用很容易使用。pandas的功能非常强大,支持类似于SQL的增删改查,并带有丰富的数据处理函数。支持时间序列分析功能;支持灵活处理缺失数据等。

(1)安装

安装方法和以上的库均一样,但是在使用pandas之前需要先安装numpy才能使用。pandas本身是不支持Excel文件的读写的,需要安装xlrd(读)和xlwt(写)库才能支持Excel的读写。

(2)使用

pandas基本的数据结构是Series和DataFrame,Series是序列类似一堆数组;DataFrame则是相当于一张二维的表格,类似于二维数组,它的每一列就是一个Series。为了定位Series中的元素,pandas提供了Index对象,每个Series都会带有一个对应的Index,用来标记不同的元素。Index类似于SQL中的主键DataFrame相当于对个带有Index的Series的组合(本质是Series的容器),每一个Series都带有唯一的表头,用来标识不同的Series。

pandas的简单例子:
#-*-coding:utf-8 -* 
import pandas as pd #通常用pd作为pandas的别名 

s = pd.Series([1,2,3],index = ['a','b','c']) #创建一个序列s 
d = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c']) #创建一个表 
d2 = pd.DataFrame(s) # 也可以用已有的序列来创建表格 
print(d.head()) #预览前5行数据,3.x版本需要加上print 
print(d.describe()) #数据的基本统计量,3.x版本需要加上print 

#读取文件,注意文件的路径不能有中文,否则读取可能出错 
pd.read_excel('data.xls') #读取Excel文件,创建DataFrame 
pd.read_csv('data.csv',encoding='utf-8') #读取文本格式的数据,一般用encoding指定编码

2.3.5 StatsModels

相比于pandas而言,StatsModels更加注重数据的统计建模分析,使得Python有了一丝R语言的味道。StatsModels支持与pandas进行数据交互,与pandas进行组合,成为了Python下强大的数据挖掘组合。StatsModels依赖于pandas,也依赖于pandas所依赖的,同时还依赖于pasty(一个描述统计的库)。

使用StatsModels来进行ADF平稳性检验的例子:

#-*-coding:utf-8 -* 
from statsmodels.tsa.stattools import adfuller as ADF #导入ADF检验 
import numpy as np 
print(ADF(np.random.rand(100))) #返回的结果是ADF值、p值等

2.3.6 Scikit-Learn

Scikit-Learn是Python下的一个强大的机器学习包,提供了完善的机器学习工具箱,包括数据预处理、分类、回归、聚类、预测、和模型分析等。Scikit-Learn依赖于numpy、SciPy、matplotlib,因此只要提前安装好这几个库然后按照Scikit-Learn基本上没有什么问题,安装方法和之前一样。

使用Scikit-Learn创建一个机器学习的模型:

#-*-coding:utf-8 -* 
from sklearn.linear_model import LinearRegression #导入线性回归模型 
model=LinearRegression() #建立线性回归模型 
print(model)

(1)所有模型提供的接口有:

  • model.fit():训练模型,对于监督模型来说是fit(X,y),对于非监督模型是fit(X)。

(2)监督模型提供的接口有:

  • model.predict(X_new):预测新样本
  • model.predict_proda(X_new):预测概率,仅对某些模型有用(比如LR)
  • model.score():得分越高,fit越好

(3)非监督模型提供的接口有:

  • model.transfrom():从数据中学习新的“基空间”
  • model.fit_transfrom():从数据中学习到新的基并将这个数据按照这组“基”进行转换。

Scikit-Learn本身提供了一些实例数据,比如常见的有安德森鸢尾花卉数据集、手写图像数据集等。

#-*-coding:utf-8 -* 
from sklearn import datasets #导入数据集 
iris=datasets.load_iris() #加载数据集 
print(iris.data.shape) #查看数据集大小 
from sklearn import svm #导入SVM模型 
clf = svm.LinearSVC() #建立线性SVM分类器 
clf.fit(iris.data,iris.target) #用数据训练模型 
clf.predict([[5.0,3.6,1.3,0.25]]) #训练好模型后,输入新的数据进行预测 
print(clf.coef_) #查看训练好的模型的参数

2.3.7 Keras

本书用Keras来搭建神经网络,但是Keras并不只是神经网络库,而是一个基于Theano的强大的深度学习库,还可以利用它搭建自编码器、循环神经网络、递归神经网络、卷积神经网络等,由于基于Theano,因此速度也很快。Keras大大的简化了搭建神经网络的难度,允许普通用户轻松地搭建并求解具有几百个输入节点的深层神经网络,而且定制的自由度非常大。

(1)安装

安装Keras之前需要安装numpy、SciPy和Theano,安装Theano需要先准备一个C++编译器,这在Linux下是自带的,所以在Linux上安装是相对简单一些的,而在Windows上则需要先安装MinGW(Windows下的GCC和C++),然后再安装Theano,最后安装Keras。如果需要实现GPU加速则需要安装和配置CUDA。值得一提的是在windows下Keras会大打折扣,因此想要在神经网络和深度学习方面进行深入研究,请在Linux下搭建相应的环境。

(2)使用

简单搭建一个MLP(多层感知器),如下:

#-*-coding:utf-8 -* 
from keras.models import Sequential 
from keras.layers.core import Dense,Dropout,Activation 
from keras.optimizers import SGD 

model = Sequential() #模型初始化 
model.add(Dense(20,64)) #添加输入层20个节点,第一隐藏层64个节点的连接 
model.add(Activation('tanh')) #第一隐藏层用tanh作为激活函数 
model.add(Dropout(0.5)) #使用Dropout防止过拟合 
model.add(Dense(64,64)) #添加第一隐藏层64节点,第二隐藏层64节点连接 
model.add(Activation('tanh')) #第二隐藏层用tanh作为激活工具 
model.add(Dropout(0.5)) #使用Dropout防止过拟合 
model.add(Dense(64,1)) #添加第二隐藏层64节点,输出层1节点连接 
model.add(Activation('sigmoid')) #输出层用sigmoid作为激活函数 

sgd = SGD(lr=0.1,decay=le-6,momentum=0.9,nesterov=True) #定义求解算法 
model.compile(loss='mean_squared_error',optimizer=sgd) #编译生成模型,损失函数为平均误差平方和 
model.fit(x_train,x_train,nb_epoch=20,batch_size=16) #训练模型 
score = model.evaluate(x_test,y_test,batch_size=16) #测试模型

注:Keras的预测函数和Scikit-Learn有所差别,Keras用model.predict()方法给出概率,model.predict_classes()方法给出分类结果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容