一、背景:
在对运营看板进行数据分析时,发现一个极端异常数据,在同类维度中,未完成量明显高于其他维度,如下图所示。于是通过python对数据作进一步挖掘、处理、分析,找到背后的原因。
二、本文主要包括如下几方面内容:
- 用python连接数据库,查询数据
- 将查询出的数据转变成DataFrame
- 修改/替换DataFrame中某列的值
- 修改DataFrame的column值
- 对DataFrame重置索引
- 对DataFrame作切片操作
- 对时间不连续的数据,作连续态处理
- 利用DataFrame的数据,绘制直方图
三、数据处理
1、导入包,定义数据库连接参数
#导入需要用到的一些包
from pyecharts import Bar
import pymysql
import pandas as pd
import numpy as np
#输入数据库相关参数,连接数据库
conn_test = pymysql.connect(
host='*********',
port=3306,
user='********',
passwd='********',
db='*********'
)
cur_test = conn_test.cursor()#使用cursor()方法获取操作游标
2、输入查询语句,获取相关数据
cur_test.execute("select ******************")
data_activity_order = cur_test.fetchall()#获取查询的数据
3、将数据转换成DataFrame
columnDes = cur_test.description#所有数据的描述
columnNames = [columnDes[i][0] for i in range(len(columnDes))]#通过描述,得到列名称
df_activity_order= pd.DataFrame(list(data_activity_order))#得到的数据data_activity_order是元组,元组要转为list,list再次转为dataframe
df_activity_order.columns = columnNames#修改df_activity_order列名称为数据库里的列名称
4、将列表中状态值为0、1分别替换成未完成、已完成
注释:c_state即为数据表中表示状态的字段名。
df_activity_order.loc[df_activity_order['c_state']==0,'c_state'] = '未完成'#通过df.loc函数,按特定的标签获取数据,并对数据进行替换。
df_activity_order.loc[df_activity_order['c_state']==1,'c_state'] = '已完成'
5、更改索引为c_state(状态),将列表作拆分
df_activity_order = df_activity_order.set_index(['c_state'],inplace=False)#将索引替换成c_pay_state,进而便于后续对数据进行拆分、重塑操作。
df_activity_order_finish = df_activity_order.loc[df_activity_order.index == '已完成']#通过df.loc函数提取“已完成”的数据,并且存入新的df中。
df_activity_order_unfinish = df_activity_order.loc[df_activity_order.index == '未完成']#通过df.loc函数提取“未完成”的数据,并且存入新的df中。
6、将拆分后的表更改索引为days(日期),为后面的数据重塑作准备。
df_activity_order_finish = df_activity_order_finish.set_index(['days'],inplace=False)#对df重置索引为日期
df_activity_order_unfinish = df_activity_order_unfinish.set_index(['days'],inplace=False)#同上
df_activity_order_finish.columns = ['amount_finish']#由于查询出来的column都是amount,于是在此将df_activity_order_finish的columns 修改成amount_finish
df_activity_order_unfinish.columns = ['amount_unfinish']#同上
7、构建时间连续、值为0的空列表。
date_list = pd.date_range(start='20181011',end='20190820')#获取起始日期至末尾日期之间的日期序列。
len_date_list = len(date_list)#获取时间序列的长度,作为后续df的行数
df_date_list_finish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_finish'],index=date_list)#利用np.zeros构建全0的array,再用pd.DataFrame转换成df
df_date_list_unfinish = pd.DataFrame(np.zeros((len_date_list,1),dtype=np.int),columns = ['amount_unfinish'],index=date_list)#同上
8、对数据进行重塑,保证时间连续,同时计算完成占当日的比例情况。
df_activity_order_finish_new = (df_date_list_finish + df_activity_order_finish).fillna(0)#将拆分后完成的df与时间连续的df进行合并,缺失值以0补齐。
df_activity_order_unfinish_new = (df_date_list_unfinish + df_activity_order_unfinish).fillna(0)#同上
df_per = pd.concat([df_activity_order_finish_new,df_activity_order_unfinish_new],axis=1, join_axes=[df_activity_order_unfinish_new.index])#将重塑后的已完成、未完成df进行合并。
#计算已完成的数量在当日的占比情况,
with np.errstate(invalid='ignore'):#由于可能存在分母为0的情况,计算过程中会报错,因而需要对此类报错进行忽略。
df_per['per'] = df_per.apply(lambda x: x['amount_finish'] / (x['amount_unfinish']+x['amount_finish']), axis=1)#计算已完成的数量在当日的占比情况。
df_per = df_per.fillna(0)#错误值以0补齐。
df_per = df_per.round(3)#保留三位小数
至此,已经将数据从数据库中提取出来,并已经处理好了,按照日期序列作了重塑,保证时间的连续性,同时也计算了当日完成的数据占当日总数的比例情况。
四、数据可视化
1、对数据结果作可视化处理,便于直观查看数据的分布情况。
bar_df_per = Bar("每日订单情况","")
bar_df_per.add('完成数',df_new.index,df_new.amount_finish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('未完成数',df_new.index,df_new.amount_unfinish,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",is_stack= True)
bar_df_per.add('完成数占当日的比例',df_new.index,df_new.per,mark_point=["max", "min"],mark_line=["average"],is_more_utils = True,is_datazoom_show=True, datazoom_type="both",)
bar_df_per.render()
从上面的数据图,我们可以看出异常的数据来自于05.08日。接下来再从数据库中,对这一天的数据,按照相关的维度进行进一步挖掘、分析,进而找到背后的原因。
写在后面的话:
文中部分操作可能饶了弯路,有可以优化的空间,但是主要是想借着这次业务场景,整理下python的部分数据处理思路、方法。
另外,请忽略不规则的变量命名,毕竟调研得出,大部分人认为编程中最困难的一件事就是给变量命名。o(╯□╰)o