产品经理数据分析不求人(4) - 拼团购数据分析

产品经理数据分析不求人(1) - 第一个Python程序

产品经理数据分析不求人(2) - Pandas处理Excel

产品经理数据分析不求人(3) - 拼团购数据清洗

现在我们接着利用第三篇文章中得到的临时文件进行数据分析尝试得出一些规律,这次只需要二十多行代码就能实现,得到数据结果后还会演示如何以可视化方式进行呈现,包括如何通过地域数据生成类似下面的热力地图:

先把代码全部贴出来再简单解释,这个系列中的第二篇提到过groupby的分组统计功能,group_sum函数中就是用到groupby来对group_count和new_user_count这两个字段分组求和,之后调用append_average_count函数添加两个平均值字段,分组的一系列字段都定义在columns数组里,如果要添加新的分组统计只用修改这一处即可,所以这段代码基本可以拿来就用,就算看不懂也没关系。最后我们生成一个新的excel文件,其中有多个worksheet, 和columns里的字段一一对应。

import pandas as pd

def append_average_count(data_sum, data_grouped):
    data_sum['average_group_count'] = data_sum['group_count'] / data_grouped.size()
    data_sum['average_new_user_count'] = data_sum['new_user_count'] / data_grouped.size()
    data_sum['count'] = data_grouped.size()

def group_sum(df, column):
    column_grouped = df.groupby(column)
    column_sum = column_grouped[['group_count', 'new_user_count']].sum(axis=1)
    append_average_count(column_sum, column_grouped)
    return column_sum

def write_sheet(df, writer, column):
    group_sum(df, column).to_excel(writer, column)

input_file = "d:/dev/groupon_tmp.xlsx"
output_file = "d:/dev/groupon_output.xlsx"

columns = ["gender", "membership", "os", "city", "horoscope", "zodiac", "age_range", "marriage",
                   "is_new", "num_address", "vip_flower", "reg_source", "factory", "active_status", "interval"]

df = pd.read_excel(input_file)
writer = pd.ExcelWriter(output_file)
for index, val in enumerate(columns):
    write_sheet(df, writer, val)
writer.save()

print("statistics processing completed!")

代码执行大约需要一分钟时间,可以喝杯茶再回来看结果。

打开excel文件会看到底部出现一排worksheet

先看看性别分组统计的结果(0女1男): 参与拼团的男女比例约为8:1, 女性用户的人均拉新能力比男性用户高出16%

性别分组

再看看会员等级的影响,会员等级越高人均成团数越高,但是从拉新能力来看却是完全颠倒的结果,这也映证了之前提到的社交价值衰减规律

会员等级分组

从年龄层来看,各组人群的人均成团数量都差不多,但是拉新能力是越年轻的用户越强,其中20岁以内的用户的人均拉新能力比40岁以上用户要高74%

年龄分组

城市和注册时间也是显著的关键因子,限于篇幅分析结果我就不一一解读了,下面来看看数据可视化呈现。选择很多,可以直接用excel生成图表,可以用Power BI, 百度图说,以及类似的各种在线图表生成工具,还可以直接代码实现,用python的matplotlib库也能画出各种炫酷的图表,我这次用的是数据观网站提供的在线服务。

选择通过excel作为数据源,上传代码生成的excel文件

选择worksheet预览,再点击下一步来创建数据

切换到图表tab, 选择图表类型,对于会员等级分组统计用柱状图。横轴选membership, 纵轴选两条,人均成团和人均拉新,显示副轴。

至于文章开头的热力地图,选择city worksheet, 图表类型切换到地图即可,可以自己尝试一下。

到这里基本的数据分析就结束了,能给到我们一些启发,但还远远不够,下一次会讲到如何用机器学习的方式实现更科学与全面的分析,并通过历史预测未来。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351