Pandas数据探索与实践

介绍


       只要我们要用Python来做数据分析,就避免不了用到Pandas。Python有很多用于数据清洗和数据准备的库,但是很少有数据分析和数据建模的库。Pandas的出现,使得我们能在Python中解决大多数数据分析的问题,而不用切换到一些特殊语言如R中,这样就减少了我们许多的工作量。

内容


1.Pandas下载与基本教程

2.Pandas数据探索的基本流程

3.用Pandas对Titanic数据进行初步探索

Pandas下载与基本教程


我们可以从官网上下载Pandas,也可以在终端中直接下载:

easy_install pandas

Pandas的简单教程是Pandas作者Wes McKinney写的10-minute tour of pandas

不过要认真学习Pandas的话还应该买一本作者的书:

Pandas数据探索基本流程


在数据处理中,我们经常会有一些常用的步骤,比如读取数据,处理缺失值等。这里我贴出Pandas的Cheatsheet,里面包含一些简单的Pandas数据操作。

Cheatsheet


Pandas实战


       通过对上述知识的学习,我们知道了数据分析探索的一点点过程。下面我们就进行一些实战,把这些东西巩固一番。

获取数据

首先,我们的数据来自于kaggle泰坦尼克号,我们从中获取数据,一个是训练数据,用来训练模型,一个测试数据,用来评估模型。数据分析探索主要是利用训练数据。

读取数据

得到数据之后,我们就要读取数据,其数据格式为csv,我们就可以使用上面所述的方法,进行读取.

这里我用的是ipython的notebook,有兴趣的可以自己去看看。前面都是引入模块,最后才是读取数据。

了解数据

     读取完数据之后,我们就要看看数据的结构,有多少个变量,多少个样本。

      这样我们就知道,这个数据有12个变量,891个样本。知道大概结构后,我们又想知道,变量有哪些?变量的类型是什么?

     这样我们就知道了数据变量有PassengerID,Survived,Pclass,Age,Name,Sex,SibSp,Parch,Ticket,Fare,Cabin,Embarked12个,结合kaggle上对这些变量的描述,我们就对这些变量的类型有所了解。

探索数据

       于是我们就开始了数据探索与数据清洗之旅。遇到数据处理,我们首先处理信息量比较多的变量,一般先是连续型变量,接着是分类变量,然后才是文本,而对于一些对我们预测数据无关紧要的变量,可以选择直接删除。

       在这我们就只有年龄和船费为连续型变量,我们先要处理年龄这个常见变量。我们先要看看其是否有缺失值。

       这里我们就看出来缺失值有177个,占总样本20%,不算太多,也不算太少。对于异常值的处理,我会另外写一篇文章,专门介绍异常值的处理,这里我们就用常用的方法——平均值代替。

我们分析一下Age的数值度量:

       其中位数与均值相同,我们初步判定其为正态分布,要确定是否为正态分布,还需要将其可视化,其可视化方法,在我的另一篇文章有说过。

从这里我们就可以看出,连续型变量Age趋近于正态分布。接下来以同样的方法分析船费。

可以看出,船费不是正态分布,其有少许异常值,需要进行一些处理后才能建模。

探索数据分析

       对于分类数据的探索,我们应根据分类数据对目标数据的影响来分析,比如我们可以看Pclass对Survived的影响。

Pclass第三层存活的人数比较多,也可能会是因为人数比较多,所以存活人数多,主要要看存活比率。

这样就可以看出,1层的存活率比较高。其实我们还可以看看,Sex和Pclass对Suvived影响

结束语

        这样,我们就简单的探索了一下基本的变量,得到了一些变量的基本概貌。还有很多的问题等待我们去解决,如何处理异常值值?名称是否与生存率有关?我们用什么算法去建立模型?这些问题让数据分析变的无比的吸引人。

参考

http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容