通过抓包的方式分析一个恋爱交友类app数据

前言:

  • 有一次一个人去餐厅吃饭
    一个美女走过来问我:帅哥,请问这里有人么?
    我羞涩的回答到:嗯美女,没有人
    然后。。。她就把椅子搬走了


    Paste_Image.png

声明:

  • 此文仅用于学习、研究,请不要非法使用。
  • 任何由此引发的法律纠纷自行负责。
  • 鲁迅说过:码农抓到的数据怎么能叫偷呢


    鲁迅说过.png

步骤:

  1. Charles抓包。
  2. 写python脚本,从抓取的结果里面读取数据。
  3. 数据塞进sqlite里面。
  4. 数据导出到csv文件。
  5. 数据分析:csv文件可以自己写python代码进行分析,也可以上传到类似bdp.cn的网站或者其他类似工具进行分析。

踩坑:

  1. token的期限比较短,app推出后token就会失效,所以app要一直开着。
  2. 很多无效的数据,不知道是刷了数据还是有用户被删除,将近8万个连续无效用户数据。之前没有记录这些无效用户,后来还是记录了,打了标记,便于分析。
  3. 有的数据里面有‘,’符号,在转json的时候会变成多份数据,解决方法:

'|'.join(decoded['key_info'].split(','))

  1. 处理出生地“广东 深圳”,增加两个额外字段:

ht_province, ht_city = decoded['hometown'].split(' ')[0], decoded['hometown'].split(' ')[1]

  1. 没开多线程,大概10w条数据,跑的还蛮久的 = =

数据:

  1. 日活跃:


    日活跃.png
  2. 男女比例:


    男女比例.png
  3. 手机比例:


    手机比例.png
  4. 付费情况:

    • 占比还挺好的,将近50%的人付费
    • 男生付费用户比女生多一半,女生都很节俭啊,很好


      付费情况.png
  5. 学历情况:

    • 本科人数最多,大专第二
    • 硕士跟高中学历紧跟其后
    • 像我这种小学生不多


      学历情况.png
  6. 学校

    • 深大的妹纸很多啊


      学校.png
  7. 年龄段分布:
    年龄主要集中在1983~1994(900人以上)
    峰值在1988年
    前三甲:1988,1990,1989
    看着这么多“中年人”,我们这些老年人也很绝望啊


    年龄段分布.png

    年龄段分布.png
  8. 身高分布:


    身高分布.png
  9. 体重分布:


    体重分布.png
  10. 职业&企业:

    • 科技行业排第一啊,主要是腾讯
    • 银行,教师,医院,财务,紧跟其后


      职业.png

      企业.png
  11. 婚恋情况:


    婚恋情况.png
  12. 现居住地:

    • 来的都是深圳人


      现居住地.png
  13. 用户出生地:

    • 前三甲:深圳,湖南,湖北


      用户出生地.png

      用户出生地.png
  14. 有效用户占比:

    • 为-1的都是无效用户,有效用户大概只有20%
    • 原因未知,不知道是测试数据,还是有用户退出,或者是非法用户被删
    • 这些用户基本上都是连号


      Paste_Image.png
  15. 生肖:


    生肖.png
  16. 星座:


    星座.png

代码(简陋):

分析数据报表链接:

后记:

  • 不研究一下大数据你都不知道有多绝望(妹纸有多难找&创业有多难)!
Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容