自己的行为自己来分析-数分技能提升

本周有技术大神在知乎、专业安全网站爆出TX扣扣在偷偷抓取个人浏览器浏览记录并上报,一石激起千层浪,迅速成为圈内热门话题。博主这里不敢乱评价(你懂的)。我们从另外一个角度来切入话题。

浏览记录本身是属于网站行为数据,对该数据分析也就是网站行为分析,对于互联网从业者来说,这是一个必备的技能,之前写过一遍关于数据分析入门之用户行为分析的文章,大家有一定了了解。今天借助这样一个话题,对自己的浏览数据进行分析实践,希望达到2个目的:

  • 掌握一些数据分析的技能;

  • 对自己过去一段的上网行为有一个量化的认识

一 准备数据源

将浏览记录下载到本地,不同的浏览器下载方式不同,可能要借助不同小工具,已谷歌浏览器为例(需要安装插件Export Chrome History),步骤如下:

  1. 下载地址: https://chrome.google.com/webstore/detail/export-chrome-history/dihloblpkeiddiaojbagoecedbfpifdj
  2. 添加至Chrome
    图片
  3. 添加完成之后,点击右上角时钟按钮,下载最近1年或者1周的数据
    图片
  4. 下图是下载csv数据,大部分可以在Excel中分析


    图片

    至此数据源准备完毕,开始用Excel进行分析。

二 Excel数据分析

涉及知识点:透视图、hour、mid、find函数、图表展示
具体步骤:
1)添加"小时"、"域名"两个计算列,每个url后续参数较多,去掉参数方便汇总,这个也是用户行为分析中非常重要的一步,当然也可以添加其他计算列

"小时"列:hour(d2)
"域名"列:MID(F2,FIND("//",F2)+2,FIND("/",F2,FIND("//",F2)+2)-FIND("//",F2)-2)

图片

2)创建透视图
图片

图片

3)每日浏览量(PV)分析
可以看出平均每天浏览2100个页面,其中工作日能达到2500个,周末只有900多。
图片

4)每日时段浏览记录分析
可以看出,每天早8点、晚8点浏览网页最多,其次是早9点和晚9点,早上10点这个阶段比其他时间少一个量级,猜测一下我在干嘛呢?
图片

5)网站热度分析
可以看出知乎和知识星球是真爱啊,知乎所占比例这么高自己都不知道。
图片

6)上面几个分析虽然比较简单,但是自己之前还真的不知道。大家也可以尝试其他角度的分析。比如哪个时间段在看什么网站、自己关注的网站是不是也有时间周期等。
三 词云制作
上面进行了简单的统计分析,但是自己这段时间到底在网上看什么内容是看不出来的,数据源中还有网页标题这项数据,这个时候可以借助词云来进行可视化展示。这里介绍2种方式实现词云可视化。
图片

1 Python自己码代码,具体步骤如下:

  • 安装Python软件(建议直接安装3.0,不要安装2.7版本了)
  • 安装Python相关包matplotlib、wordcloud、jieba
  • 将excel中title列单独copy一个文本文件中。
  • 码代码,python是轻量级的,入门相对容易,下面10行即可搞定
 #!/usr/bin/env python
# -*- coding: utf-8 -*-
#coding:utf-8
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#读取文件内容
f_title = open('/Users/haixiao/Downloads/url_titles.txt').read()
#通过jieba进行分词
wordlist = jieba.cut(f_title, cut_all = True)
wl_space_split = " ".join(wordlist)

#词云展示
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

2 借助词云生成工具,网上直接对文本生成词云的工具还蛮多的,可以试一下微词云,我试了一下还蛮好用的。直接将文本粘贴进去切词并使用即可

图片

图片

大家可以尝试一下分析自己的行为数据,这些基本的功能在日常的工作中也是经常用到的,拿自己的数据来练练手更有感觉,可能还有会意外收获哦。
欢迎大家关注我的微信公众号: bigdata_follower.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容