前言
大家好,这里是零基础学Pyhton数据分析系列。如果你想做一个Python数据分析师,或者想做一个Python算法建模师,这么这些知识都是必备的哦。希望你可以在这个系列的学习中有所收获,成为一位优秀的数据分析师或者算法建模师。
这个系列很简单,这个系列很精彩。
这个系列所有的代码编写均是Python3版本。
这个系列用到的数据集是Pyhton自带的非常经典的鸢尾花数据集,可以直接使用哦。
喜欢的朋友们可以点个关注,有问题欢迎随时和我交流。
Pandas概念
Python可以成为数据分析最主流的语言,Pandas是其中不可或缺的因素。我在实际工作中,80%的数据处理工作都是使用Pandas来完成的,如果你想学Python数据分析,那么一定要会Pandas的常用操作。
本文就讲讲Pandas的基础,让大家对Pyhton的Pandas包有一个初步的了解,后续会详解Pandas在工作中的常用操作。
Pandas是什么
Pandas是Python + Data + Analysis的组合缩写,也就是Pyhton + 数据 + 分析,它是Python的一个数据分析包。
Pandas的核心数据结构是:Series和DataFrame。
简单来说,Pandas是编程界的Excel,它的核心数据结构DataFrame就是excel中一张表。
Pandas和Numpy的区别
Pandas是在Numpy基础上实现,相比Numpy,Pandas使用起来更加直观简单,但Pandas与numpy的关系不是替代,而是互为补充。
Pandas包的导入
import pandas as pd
在Pandas使用时,我们习惯把Pandas包命名成pd,这样在使用Pandas各种方法时很方便。(当然你也可以命名成其他的,不过业内都是命名成pd,还是跟着大众走吧) 比如查看Pandas版本:
pd.__version__'1.3.5'
Pandas核心数据结构
Pandas的核心数据结构是:Series和DataFrame。Dataframe是多行多列,Series是单列多行。让我们具体来看看这两种数据格式长什么样。后续文章也会详细讲解如何使用这两种数据结构来处理数据。
DataFrame
Dataframe是多行多列的,直接上图,让我们看看DataFrame长什么样。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
如上图,就是一个100行 * 5列的DataFrame数据。第左边一列是它的索引(可以理解为是excel表的序号。索引不一定是顺序的,也可能是重复的,断续的,后续使用时会详细说明),最上面一行是它的列名(就是每一列代表的含义)。
有木有发现,这不就是一张ecxel表吗,是的,你可以把DataFrame理解为excel中一张表,对DataFrame的操作,就是对这张excel的操作变成了用Python代码来实现。
是不是非常的直观,这就是Pandas的美妙之处。
Series
Series是多行单列的,直接上图,让我们看看Series长什么样。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
如上图,就是一个Series数据。第左边一列是它的索引,Series就是一列数据,每个数据对应一个索引值。(和DataFrame一样,索引不一定是顺序的,也可能是重复的,断续的,后续使用时会详细说明)
总结
看完DataFrame和Series的举例,是不是发现DataFrame和Series非常简单,然后我们要学的就是如何使用Pyhton对DataFrame和Series进行增、删、改、查。后续文章中,我会把我在工作中常用的操作一一详解,不说覆盖全部的知识点,但是用来完成绝大部分的数据处理工作足够了。等学会这些操作,那么恭喜你,你已经是一位初级数据分析师啦。
后记
Python真的是一个非常适合做数据分析的代码,数据分析师和算法建模师也真的是一份非常有趣的工作,如果你对数据很感兴趣,那成为一名数据分析师或者算法建模师一定是一个不错的选择。
当然数据分析师和算法建模师,业务经验才是核心,代码只是我们的工具,要想成为一个优秀的数据工程师,实践是必不可少的。
原创不易,每一个知识点都是我在工作中常用的,初心是为了分享,所以希望大家能多多支持,关注点赞转发,有什么问题欢迎在后台联系我,也可以在公众号找到我的微信加我。
加油,骚年!