本周有技术大神在知乎、专业安全网站爆出TX扣扣在偷偷抓取个人浏览器浏览记录并上报,一石激起千层浪,迅速成为圈内热门话题。博主这里不敢乱评价(你懂的)。我们从另外一个角度来切入话题。
浏览记录本身是属于网站行为数据,对该数据分析也就是网站行为分析,对于互联网从业者来说,这是一个必备的技能,之前写过一遍关于数据分析入门之用户行为分析的文章,大家有一定了了解。今天借助这样一个话题,对自己的浏览数据进行分析实践,希望达到2个目的:
掌握一些数据分析的技能;
对自己过去一段的上网行为有一个量化的认识。
一 准备数据源
将浏览记录下载到本地,不同的浏览器下载方式不同,可能要借助不同小工具,已谷歌浏览器为例(需要安装插件Export Chrome History),步骤如下:
- 下载地址: https://chrome.google.com/webstore/detail/export-chrome-history/dihloblpkeiddiaojbagoecedbfpifdj
-
添加至Chrome
-
添加完成之后,点击右上角时钟按钮,下载最近1年或者1周的数据
-
下图是下载csv数据,大部分可以在Excel中分析
至此数据源准备完毕,开始用Excel进行分析。
二 Excel数据分析
涉及知识点:透视图、hour、mid、find函数、图表展示
具体步骤:
1)添加"小时"、"域名"两个计算列,每个url后续参数较多,去掉参数方便汇总,这个也是用户行为分析中非常重要的一步,当然也可以添加其他计算列
"小时"列:hour(d2)
"域名"列:MID(F2,FIND("//",F2)+2,FIND("/",F2,FIND("//",F2)+2)-FIND("//",F2)-2)
2)创建透视图
3)每日浏览量(PV)分析,
可以看出平均每天浏览2100个页面,其中工作日能达到2500个,周末只有900多。
4)每日时段浏览记录分析
可以看出,每天早8点、晚8点浏览网页最多,其次是早9点和晚9点,早上10点这个阶段比其他时间少一个量级,猜测一下我在干嘛呢?
5)网站热度分析
可以看出知乎和知识星球是真爱啊,知乎所占比例这么高自己都不知道。
6)上面几个分析虽然比较简单,但是自己之前还真的不知道。大家也可以尝试其他角度的分析。比如哪个时间段在看什么网站、自己关注的网站是不是也有时间周期等。
三 词云制作
上面进行了简单的统计分析,但是自己这段时间到底在网上看什么内容是看不出来的,数据源中还有网页标题这项数据,这个时候可以借助词云来进行可视化展示。这里介绍2种方式实现词云可视化。
1 Python自己码代码,具体步骤如下:
- 安装Python软件(建议直接安装3.0,不要安装2.7版本了)
- 安装Python相关包matplotlib、wordcloud、jieba
- 将excel中title列单独copy一个文本文件中。
- 码代码,python是轻量级的,入门相对容易,下面10行即可搞定
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#coding:utf-8
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#读取文件内容
f_title = open('/Users/haixiao/Downloads/url_titles.txt').read()
#通过jieba进行分词
wordlist = jieba.cut(f_title, cut_all = True)
wl_space_split = " ".join(wordlist)
#词云展示
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
2 借助词云生成工具,网上直接对文本生成词云的工具还蛮多的,可以试一下微词云,我试了一下还蛮好用的。直接将文本粘贴进去切词并使用即可
大家可以尝试一下分析自己的行为数据,这些基本的功能在日常的工作中也是经常用到的,拿自己的数据来练练手更有感觉,可能还有会意外收获哦。
欢迎大家关注我的微信公众号: bigdata_follower.