运用python的数据分析及数据可视化

数据分析的80%的时间都是花费在数据处理当中,数据的准确性和有效性也会决定对其他部门的影响,这一环节,我们主要讲讲python数据处理的常见的方法和逻辑。

数据的导入

查看数据的情况

数据类型的调整

异常值和缺失值的处理

重复值的处理

选取相关维度的数据做数据分析

数据的可视化

接下来我以药店销售数据做个简单的分析,里面会包含着python中pandas常用的数据处理的方法,数据分析以之前需要确立分析的问题:

药店销售最好的药有什么特点

1月份和3月份的销售金额的比较(2月无数据),有什么趋势

对于异常值的分析

1.数据的导入

这里要注意文件名有中文会出现打不开的情况,可以先用open函数先打开,再read_excel

2.对于药店数据的查看

数据共有6578行,可以看出数据有缺失

3.数据类型的转换,购药时间换成时间类型,社保卡号,商品编码转化为字符型,销售数量转化为int

这里时间的数据类型我将它拆成了日期和星期运用apply和lambda匿名函数的组合,处理之后发现社保卡号和商品编码都有小数,可以用split函数处理

4.缺失值的处理

运用dropna函数去除缺失值,对于缺失值的处理方式一般有填充和删除,填充以平均值和众数为主,这里缺失值较少,我就直接删除。

异常值一般为和平均值相差3个标注差的数据,以及不符合常理的数据,就比如销售为负数,但也有可能这表示为退货数量,一下就选取销售量大于0的数据

5.数据的建模

查看一下时间的跨度

选取1,3月份的数据查看一下销售额和销售数量

看一下单价,三月比一月份总体而言价格和数量下降,单价也有所下降,成下降趋势

7.查看一下1月和3月的需求最多的药品

发现top药品治疗高血压的较多,真是越老病越多

8.买药最多的人分析

发现社保卡号1616528的人买的药最多,单独提取他的数据

数据中在插入一列月份,来查看他每月的买药情况,查看的买药的情况

9.数据可视化

将金额转换为整形

学习资料点击这里

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Live 简介: 谁适合本课程?想从零开始学会数据分析,实现升职加薪或者转行数据分析的你,零基础即可加入。 你将从...
    Rich_Billions阅读 4,445评论 0 6
  • 数据分析的步骤:提出问题→理解数据→数据清洗→构建模型→数据可视化 目标数据:2018年朝阳医院销售数据.xlsx...
    龍猫君阅读 2,278评论 1 1
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,459评论 0 9
  • 下午的时候,和朋友吃饭,她说人都是情感动物,只是情感的寄托不一样,可能是爱人,是朋友,是家人,是工作等等,然后分享...
    zoeyiyi阅读 297评论 0 1
  • 3月8日,与小五先生还有YC老师一起开始做这样一件事,剽悍英社。 事情的最初始于在社群中跟一位老铁聊英语学习的事,...
    Miss_kiwi阅读 270评论 14 16