基于业务浅谈python的数据处理思路【一】

一、背景：

在对运营看板进行数据分析时，发现一个极端异常数据，在同类维度中，未完成量明显高于其他维度，如下图所示。于是通过python对数据作进一步挖掘、处理、分析，找到背后的原因。

【注：下图中红色代表完成量，蓝色代表未完成量，数值9173为异常数据。】

BI看板截图

思路：先连接数据库查询该维度相关数据随时间维度的分布情况，看看是否能找出异常的时间点。

二、本文主要包括如下几方面内容：

用python连接数据库，查询数据
将查询出的数据转变成DataFrame
修改/替换DataFrame中某列的值
修改DataFrame的column值
对DataFrame重置索引
对DataFrame作切片操作
对时间不连续的数据，作连续态处理
利用DataFrame的数据，绘制直方图

三、数据处理

1、导入包，定义数据库连接参数

#导入需要用到的一些包
from pyecharts import Bar
import pymysql
import pandas as pd
import numpy as np
#输入数据库相关参数，连接数据库
conn_test = pymysql.connect(
   host='*********',
   port=3306,
   user='********',
   passwd='********',
   db='*********'
)
cur_test = conn_test.cursor()#使用cursor()方法获取操作游标

2、输入查询语句，获取相关数据

cur_test.execute("select ******************")
data_activity_order = cur_test.fetchall()#获取查询的数据

打印查询的数据结果如下图所示，其中0代表未完成，1代表完成。

3、将数据转换成DataFrame

columnDes = cur_test.description#所有数据的描述
columnNames = [columnDes[i][0] for i in range(len(columnDes))]#通过描述，得到列名称
df_activity_order= pd.DataFrame(list(data_activity_order))#得到的数据data_activity_order是元组，元组要转为list，list再次转为dataframe
df_activity_order.columns = columnNames#修改df_activity_order列名称为数据库里的列名称

4、将列表中状态值为0、1分别替换成未完成、已完成

注释：c_state即为数据表中表示状态的字段名。

df_activity_order.loc[df_activity_order['c_state']==0,'c_state'] = '未完成'#通过df.loc函数，按特定的标签获取数据，并对数据进行替换。
df_activity_order.loc[df_activity_order['c_state']==1,'c_state'] = '已完成'

打印转换后的DataFrame,其中c_state的值已经进行了替换。

5、更改索引为c_state(状态)，将列表作拆分

df_activity_order = df_activity_order.set_index(['c_state'],inplace=False)#将索引替换成c_pay_state，进而便于后续对数据进行拆分、重塑操作。
df_activity_order_finish = df_activity_order.loc[df_activity_order.index == '已完成']#通过df.loc函数提取“已完成”的数据，并且存入新的df中。
df_activity_order_unfinish = df_activity_order.loc[df_activity_order.index == '未完成']#通过df.loc函数提取“未完成”的数据，并且存入新的df中。

拆分的“已完成/未完成”的DF，注意其中的时间存在不连续的情况。

6、将拆分后的表更改索引为days(日期)，为后面的数据重塑作准备。

df_activity_order_finish = df_activity_order_finish.set_index(['days'],inplace=False)#对df重置索引为日期
df_activity_order_unfinish = df_activity_order_unfinish.set_index(['days'],inplace=False)#同上
df_activity_order_finish.columns = ['amount_finish']#由于查询出来的column都是amount,于是在此将df_activity_order_finish的columns 修改成amount_finish
df_activity_order_unfinish.columns = ['amount_unfinish']#同上

7、构建时间连续、值为0的空列表。

date_list = pd.date_range(start='20181011',end='20190820')#获取起始日期至末尾日期之间的日期序列。
len_date_list =  len(date_list)#获取时间序列的长度，作为后续df的行数
df_date_list_finish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_finish'],index=date_list)#利用np.zeros构建全0的array，再用pd.DataFrame转换成df
df_date_list_unfinish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_unfinish'],index=date_list)#同上

8、对数据进行重塑，保证时间连续，同时计算完成占当日的比例情况。

df_activity_order_finish_new = (df_date_list_finish + df_activity_order_finish).fillna(0)#将拆分后完成的df与时间连续的df进行合并，缺失值以0补齐。
df_activity_order_unfinish_new = (df_date_list_unfinish + df_activity_order_unfinish).fillna(0)#同上
df_per = pd.concat([df_activity_order_finish_new,df_activity_order_unfinish_new],axis=1, join_axes=[df_activity_order_unfinish_new.index])#将重塑后的已完成、未完成df进行合并。
#计算已完成的数量在当日的占比情况，
with np.errstate(invalid='ignore'):#由于可能存在分母为0的情况，计算过程中会报错，因而需要对此类报错进行忽略。
    df_per['per'] = df_per.apply(lambda x: x['amount_finish'] / (x['amount_unfinish']+x['amount_finish']), axis=1)#计算已完成的数量在当日的占比情况。
    df_per = df_per.fillna(0)#错误值以0补齐。
    df_per = df_per.round(3)#保留三位小数

处理后的df

至此，已经将数据从数据库中提取出来，并已经处理好了，按照日期序列作了重塑，保证时间的连续性，同时也计算了当日完成的数据占当日总数的比例情况。

四、数据可视化

1、对数据结果作可视化处理，便于直观查看数据的分布情况。

bar_df_per = Bar("每日订单情况","")
bar_df_per.add('完成数',df_new.index,df_new.amount_finish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('未完成数',df_new.index,df_new.amount_unfinish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('完成数占当日的比例',df_new.index,df_new.per,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",)
bar_df_per.render()

生成的每日数据图

从上面的数据图，我们可以看出异常的数据来自于05.08日。接下来再从数据库中，对这一天的数据，按照相关的维度进行进一步挖掘、分析，进而找到背后的原因。

写在后面的话：
文中部分操作可能饶了弯路，有可以优化的空间，但是主要是想借着这次业务场景，整理下python的部分数据处理思路、方法。
另外，请忽略不规则的变量命名，毕竟调研得出，大部分人认为编程中最困难的一件事就是给变量命名。o(╯□╰)o

最后编辑于：2019.08.24 07:35:01

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,417评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,921评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 158,850评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,945评论 1赞 285
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,069评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,188评论 1赞 291
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,239评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,994评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,409评论 1赞 304
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,735评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,898评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,578评论 4赞 336
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,205评论 3赞 317
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,916评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,156评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,722评论 2赞 363
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,781评论 2赞 351