上次我们用Excle这把“屠龙刀”进行的数据分析,江湖有云“倚天不出,谁与争锋”,那我们今天就用这把倚天剑(Python)再来对同一案例进行数据的剖析,"Let's go"!
那我们就先来看看这把倚天剑的剑柄(pandas-----读取数据文件): pandase内置我们常见数据文件(文本、CSV、Excel)的读取函数,只要输入相应的文件名,它就会自动帮你把相应的数据文件读进来,等待你的分析;然后就再来看看这把倚天剑的剑身(pandas-----基本数据结构):在分析中我们经常会用到两个基本数据概念(Series、dataFrame).Series就是类似一维数组的对象,由一组数据及与之相关的数据标签(索引所组成)。dataFrame就是由一组数据与一对索引(行索引和列索引)组成的表格型数据结构。具体结构看下图:
所有的操作的数据基础都在这两个基本的数据结构里,用的
最多的几种操作如下所示:
1.数据筛选:
dataFrame[[字段名称1,...字段名称n]]
把数据按所指明的列索引筛选出来
eg:dataFrame[[age,sex,birthdate]]
dataFrame[dataFrame[条件表达式1]]...[dataFrame[条件表达式n]]
把数据按所列条件表达式的列索引筛选出来
eg:dataFrame[dataFrame["age"]<20]
2. 数据合并:
dataFrame.append
对涉及的表进行纵向连接,类似于纵向扩充及追加的效果。
pandas.merge
对涉及的表进行横向连接,类似于横向扩充及追加的效果。
pandas.pivot_table------------------
对传入的数据按透视表的规则进行汇总,相应的各项参数一一对应Excle透视表的设置
最后我们看看这把倚天剑的剑尖(matplotlib------图形展示):
matplotlib它是Python绘制线图、散点图、等高线图、条形图、柱状图、3D 图形、甚至是图形动画等等的图库。它提供了很多方法,有兴趣的自己可以看文档。其中要注意的是它本身不支持中文字体,需要用matplotlib.pyplot对rcParams设置相应的字体为"SimHei"来解决。
光说不练是假把式,光练不说是哑把式,直接上图看效果:
从图表和数据上,Python和Excle结果吻合。对于没有编程基础的还是采用屠龙刀-----Excle的好;对于有编程能力的小伙伴来说,用倚天剑----Python更能发挥数据分析的自由性。
个人之作转载请注明出处!