祝自己生日快乐 | 利用Python和R分析一年写作

想不清自己有多久没有过生日了,即便是18岁那年的生日,也是上完课照常回去。或许是我的日子过得过于浑浑噩噩,没有什么可以庆祝,或许我认为过生日是过于矫情的一种行为吧。

但是反刻奇也是一种刻奇,没有必要坚持不过,显得自己标新立异。而这一年或许是我生长最多的一年,或许是我高中毕业后打字最多的一年了,记录了大量文字在我的简书,公众号,为知笔记,GitHub Page。

时间匆忙,所以只能对我简书发布的文章做了简单的数据分析。

数据获取

我用Python从简书上爬取了我所有文章的发布时间,题目名和连接,把他们存放在了MySQL里。

  • 首先,定义数据库结构
# 创建数据库
mysqladmin.exe -u root -p create jianshu
# 创建数据表
use jianshu;
CREATE TABLE `master` (
    `id` int(11) NOT NULL AUTO_INCREMENT,
    `time` varchar(255) COLLATE utf8_bin NOT NULL,
    `url` varchar(255) COLLATE utf8_bin NOT NULL,
    `title` varchar(255) COLLATE utf8_bin NOT NULL,
    PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin
AUTO_INCREMENT=1 ;
  • 其次,写爬虫爬取数据
import time
import re
import requests
from random import randint
def data_parse(url, headers=None ):
    response = requests.get(url)
    pattern = re.compile(r'<span class="time" data-shared-at="(.*?)">.*?<a class="title".*?href="(/./.*?)">(.*?)</a>',flags=re.S)
    results = re.findall(pattern, response.text) 
    time.sleep(randint(1,5))
    for res in results:
        names = ["time","url","title"]
        info_dict = dict(list(zip(names,res)))
        yield info_dict

为了不给他们服务器太大压力,爬取之间有1到3秒的延迟。利用正则提取目标区域

  • 最后运行
for i in range(0,16):
    url = 'http://www.jianshu.com/u/9ea40b5f607a?order_by=shared_at&page=' + str(i)
    dicts = data_parse(url)
    save_data(db="jianshu",password="********",dicts=dicts)

简书采用的是瀑布流方式展示信息,所以需要查看页面了解规律。

简单数据分析

从数据库加载数据

require(RMySQL)

con <- dbConnect(RMySQL::MySQL(), 
                 host="localhost", 
                 user="root", 
                 port=3306,
                 password="********", 
                 dbname="jianshu")
tables <- dbReadTable(con, 'master')
Encoding(tables$title) <- "UTF-8"

注意: 要使用Encoding处理编码问题

分析文章时间分布

简单看下从去年5月份到8月份,我的写作分布

require(tidyverse)
time_matrix <- str_match(tables$time, '(\\d+-\\d+-\\d+)T(\\d{2}):(\\d{2})')
time_matrix <- as.tibble(time_matrix)
colnames(time_matrix) <- c('date','ymd','hour','minutes')
time_matrix$ymd <- as.Date(time_matrix$ymd)

month_df <- time_matrix %>% mutate(ym = str_c(str_sub(ymd, 1,7),'-01')) %>% group_by(ym) %>% summarise(articles=n()) %>% ungroup() %>% mutate(ym=as.Date(ym, "%Y-%m-%d"))
p1 <- ggplot(month_df, aes(x=ym,y=articles)) + geom_bar(stat = "identity")
# 添加数据标签
p1 + geom_text(aes(label=articles), vjust=1.5, colour="white")

2016年5月11日,我刚开通简书,而那个月文章发布不可思议的多,一共发了29篇,6月也有26篇。然后后面基本就没写了,原因就是我在家里学车,荒废人生中。从今年2月份开始,我重新建起了简书,后面基本上保持每个月10多篇的产出。

然后,我们还可以看下每天的时间段分布:

day_df <- time_matrix %>% group_by(hour) %>% summarise(hours=n())
ggplot(day_df, aes(x=hour, y=hours)) + geom_bar(stat="identity") + geom_text(aes(label=hours), vjust=-1.5) + ylim(0,20)

从早上7点到晚上23点基本都有文章发布,说明了我没事就发,写好就发的特点

标题分析

本来我是想对我的文章内容进行分析的,但是时间有限,所以退而求其次,只能对标题进行分析了。

require(jiebaR)
require(wordcloud2)
cutter <- worker()
words <- cutter <= tables$title
word_tb <- filter_segment(words, c("的","组","更","的","在","和"))
word_tb <- table(word_tb)
wordcloud2(word_tb, size=0.5, shape='cardioid')

Python, 爬虫, 数据分析,R 这些其实是贯穿我这一年的关键词。经过这一年的时间,至少我能用这些技能做一篇文章的分析了。

最后说几句

其实也没有啥好说的,希望接下来一年自己能有更多的进步,给自己提供更多的数据进行分析,有更多的信息能够挖掘。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容