用 Python 统计你的简书数据







  • python v3.6.4
  • webpy v0.40-dev1
  • 要求有一定的Python基础




    pip install beautifulsoup4 # 安装Beautifulsoup
    pip install beautifulsoup4 upgrade # 升级Beautifulsoup
    pip uninstall beautifulsoup4 # 卸载Beautifulsoup


  地址:https://www.crummy.com/software/BeautifulSoup/bs4/download/ 。下载好后把解压文件夹下的bs4文件夹直接拷贝到python安装目录的Lib下即可。(如果此方法无效,请尝试重新进入解压文件夹下,使用命令python setup.py buildpython setup.py install,然后再拷贝复制bs4文件夹)



   You are trying to run the Python 2 version of Beautiful Soup under Python 3. This will not work.'<>'You need to convert the code, either by installing it (python setup.py install) or by running 2to3 (2to3 -w bs4).

  说明: bs4需要通过python自带的工具2to3.py转化为python3下的文件,这个工具在python安装目录的Tools\scripts中(PS:其他库出现这种情况应该也可以这样解决)。具体命令:python D:\python36\Tools\scripts\2to3.py -w bs4,如果该命令出现执行错误的情况,可以尝试进入python安装目录下的Lib\bs4中再执行。


  1.使用webpy过程中,当渲染的模板 ( 大多是html ) 中带有中文的时候,出现了如下错误:

  File "D:\python36\lib\site-packages\web\template.py", line 1052, in _load_template return Template(open(path).read(), filename=path, **self._keywords)
  UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 298: illegal multibyte sequence

  解决办法:直接点进去这个template.py,然后修改代码return Template(open(path).read(), filename=path, **self._keywords)return Template(open(path, encoding='utf-8').read(), filename=path, **self._keywords),也就是添加encoding='utf-8',详细可以查看这个GitHub PR


Traceback (most recent call last):
  File "D:\python36\lib\site-packages\web\application.py", line 257, in process
    return self.handle()
  File "D:\python36\lib\site-packages\web\application.py", line 248, in handle
    return self._delegate(fn, self.fvars, args)
  File "D:\python36\lib\site-packages\web\application.py", line 488, in _delegate
    return handle_class(cls)
  File "D:\python36\lib\site-packages\web\application.py", line 466, in handle_class
    return tocall(*args)
  File "D:/PyCharmProjects/jianshu\webCount.py", line 16, in GET
    return render.data(read_count)
  File "D:\python36\lib\site-packages\web\template.py", line 1070, in __getattr__
    t = self._template(name)
  File "D:\python36\lib\site-packages\web\template.py", line 1067, in _template
    return self._load_template(name)
  File "D:\python36\lib\site-packages\web\template.py", line 1052, in _load_template
    return Template(open(path, encoding='utf-8').read(), filename=path, **self._keywords)
  File "D:\python36\lib\site-packages\web\template.py", line 903, in __init__
    code = self.compile_template(text, filename)
  File "D:\python36\lib\site-packages\web\template.py", line 970, in compile_template
    compiled_code = compile(code, filename, 'exec')
  File "templates\data.html", line 32
    extend_(['<header class="text-white text-center" style="padding-top: 5rem;">\n'])
IndentationError: expected an indented block

Template traceback:
    File 'templates\\data.html', line 32


$if read_count.exit:
    # 这两行之间的缩进是必需的
    <header class="text-white text-center" style="padding-top: 5rem;">
    <b>uid: $read_count.uid is not exit !</b>


Traceback (most recent call last):
  File "D:\python36\lib\site-packages\web\application.py", line 257, in process
    return self.handle()
  File "D:\python36\lib\site-packages\web\application.py", line 248, in handle
    return self._delegate(fn, self.fvars, args)
  File "D:\python36\lib\site-packages\web\application.py", line 488, in _delegate
    return handle_class(cls)
  File "D:\python36\lib\site-packages\web\application.py", line 466, in handle_class
    return tocall(*args)
  File "D:/PyCharmProjects/jianshu\webCount.py", line 16, in GET
    return render.data(read_count)
  File "D:\python36\lib\site-packages\web\template.py", line 1070, in __getattr__
    t = self._template(name)
  File "D:\python36\lib\site-packages\web\template.py", line 1067, in _template
    return self._load_template(name)
  File "D:\python36\lib\site-packages\web\template.py", line 1052, in _load_template
    return Template(open(path, encoding='utf-8').read(), filename=path, **self._keywords)
  File "D:\python36\lib\site-packages\web\template.py", line 903, in __init__
    code = self.compile_template(text, filename)
  File "D:\python36\lib\site-packages\web\template.py", line 970, in compile_template
    compiled_code = compile(code, filename, 'exec')
  File "templates\data.html", line 31
    def with (read_count)
SyntaxError: invalid syntax

Template traceback:
    File 'templates\\data.html', line 31


$def with (read_count)
# 上面这段定义要在最顶部

<html lang="zh-CN">
# 省略这部分信息
# 省略这部分信息



  • readCount.py:核心功能是抓取简书用户的数据
import math
import time
import numpy
import requests
import multiprocessing
from bs4 import BeautifulSoup

# 简书用户的文章阅读总量统计
class ReadCount(object):
    # 数据初始化
    def __init__(self, uid):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/66.0.3359.139 Safari/537.36'
        # uid
        self.uid = uid
        # 昵称
        self.nickname = ''
        # 头像
        self.avatar = ''
        # 总发表文章数
        self.articles = 0
        # 文章总阅读数
        self.total_reading = 0
        # 关注人数
        self.watch = 0
        # 粉丝人数
        self.fans = 0
        # 写作字数
        self.words = 0
        # 收货喜欢数
        self.likes = 0
        # 查询总耗时
        self.time = 0
        # 用户是否存在的标志
        self.exit = True

    # 判断用户是否存在。存在则抓取并统计数据,否则修改exit标志
    def count(self):
        start = time.time()
        url = 'https://www.jianshu.com/u/' + self.uid
        # print(url)
        resp = requests.get(url, headers=self.headers)
        if resp.status_code == 200:
            bs = BeautifulSoup(resp.content, 'html.parser', from_encoding='UTF-8')

            # 头像
            avatar = bs.find(class_='avatar')
            self.avatar = 'https:' + avatar.img['src']

            # 昵称
            nickname = bs.find(class_='name')
            self.nickname = nickname.text

            meta_block = bs.find_all(class_='meta-block')
            # 关注数
            self.watch = int(meta_block[0].a.p.text)
            # 粉丝数
            self.fans = int(meta_block[1].a.p.text)
            # 总发表文章数
            self.articles = int(meta_block[2].a.p.text)
            # 写作字数
            self.words = int(meta_block[3].p.text)
            # 收获喜欢数
            self.likes = int(meta_block[4].p.text)
            if self.articles != 0:
                # print(self.articles)
                meta = bs.find_all(class_='meta')
                # 每页展示文章数
                page_articles = len(meta)
                # print(page_articles)
                # 文章展示总页数
                pages = int(math.ceil(self.articles / page_articles)) + 1
                # 用多线程统计
                cpu_count = multiprocessing.cpu_count()
                # print(cpu_count)
                pool = multiprocessing.Pool(cpu_count)
                # 从第一页开始
                page = range(1, pages)
                # 包含每页阅读量的列表
                page_reading_list = pool.map(self.page_count, page)
                # print(page_reading_list)
                self.total_reading = numpy.sum(page_reading_list)
                # print('用户:%s 总发表文章数为:%d , 文章总阅读量为: %s' % (input_uid, self.articles, self.total_reading))
            self.exit = False
            # print('用户:%s 不存在' % input_uid)
        end = time.time()
        self.time = int(end - start)

    # 每页的阅读量统计
    def page_count(self, page):
        url = 'https://www.jianshu.com/u/' + self.uid + '?page=' + str(page)
        # print(url)
        resp = requests.get(url, headers=self.headers)
        bs = BeautifulSoup(resp.content, 'html.parser', from_encoding='UTF-8')
        divs = bs.find_all(class_='meta')
        page_reading = 0
        for div in divs:
            page_reading += int(div.a.text)
        return page_reading
  • webCount.py:web支持和入口类,包括调用readCount并进行数据渲染
import web
import readCount

# 第一个是映射规则,第二个是具体匹配的类
urls = ('/(.*)', 'Hello')

# 指定模板所在的位置
render = web.template.render('templates/')

class Hello:
    def GET(uid):
        if not uid:
            uid = '000a530f461c'
        read_count = readCount.ReadCount(uid)
        # data是渲染模板的名称
        return render.data(read_count)

if __name__ == "__main__":
    app = web.application(urls, globals())
  • data.html:处理数据和渲染展示
$def with (rc)

<html lang="zh-CN">
    <meta charset="UTF-8">
    <meta name="viewport"
          content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <!-- Bootstrap -->
    <link href="https://cdn.bootcss.com/bootstrap/3.3.7/css/bootstrap.min.css" rel="stylesheet">
    <!-- Custom styles for this template -->
    <link href="https://blackrockdigital.github.io/startbootstrap-freelancer/css/freelancer.min.css" rel="stylesheet">
        .text {
            color: rgba(255, 254, 21, 0.96);
        .text2 {
            color: rgba(255, 58, 2, 0.96);
        a {
            color: rgba(255, 254, 21, 0.96);
            font-size: 2.1rem;
            text-underline: none;
    <!-- HTML5 shim 和 Respond.js 是为了让 IE8 支持 HTML5 元素和媒体查询(media queries)功能 -->
    <!-- 警告:通过 file:// 协议(就是直接将 html 页面拖拽到浏览器中)访问页面时 Respond.js 不起作用 -->
    <!--[if lt IE 9]>
    <script src="https://cdn.bootcss.com/html5shiv/3.7.3/html5shiv.min.js"></script>
    <script src="https://cdn.bootcss.com/respond.js/1.4.2/respond.min.js"></script>
<body class="bg-primary">
<header class="text-white text-center" style="padding-top: 5rem;">
$if rc.exit:
    <div class="container">
        <img class="img-fluid mb-5 d-block mx-auto img-circle" src="$rc.avatar" alt="avatar">
        <h2 class="mb-0">$rc.nickname</h2>
        <hr class="star-light">
        <h4 class="font-weight-light mb-0">
            关注 : <span class="text">$rc.watch</span> 人 -
            粉丝 : <span class="text">$rc.fans</span> 人 -
            文章 : <span class="text">$rc.articles</span> 篇
            写作 : <span class="text2">$rc.words</span> 字 -
            收获喜欢 : <span class="text2">$rc.likes</span> 次 -
            总阅读量 : <span class="text2">$rc.total_reading</span> 次 -
            查询总耗时 :<span class="text2">$rc.time</span> 秒
    <h1 class="mb-0">404</h1>
    <h4 class="font-weight-light mb-0">
        <p><a href="/y3Dbcz">简叔</a></p>
        <p><a href="/d9edcb44e2f2">简黛玉</a></p>
        <p><a href="/1441f4ae075d">彭小六</a></p>
        <p><a href="/000a530f461c">happyJared</a></p>


  webpy启动的命令是:python webCount.py {port}。其中,端口不是必须的,默认是运行在8080。以上程序已经跑在个人的服务器上,测试地址是:http://jianshu.mariojd.cn/{uid} ,这里uid是用户的唯一标志(非必填有默认值),你也可以通过在个人主页的地址栏中获取自己的。


  不得不感慨,Python能做的领域确实很广,关键是代码量又少。像写个自动化脚本,It can;写个小爬虫,It can;写个web应用,It can;...这也是为什么一直想把Python当做我的第二门编程语言。这次写这个简书小爬虫也是一波三折,来来回回也折腾了差不多一天时间,还是基础不够扎实,代码不够熟练。写完代码后也有仔细想过,觉得有机会有时间的话还可以做得更细一点,就像大数据分析一样,同样也是一个个用户数据慢慢堆起来的,所以目前来看还可以考虑扩展以下几点:

  • 获得用户加入简书的时间(假设以第一篇文章发表时间为参考)
  • 通过用户发表的总文章数,获取用户平均每年、每月发表多少文章数
  • 最高阅读量、打赏数、喜欢数、留言量的文章
  • 统计用户获得的总打赏笔数
  • 当前用户发表文章最活跃的时间段
  • 至今为止加入简书多少天
  • 最后一次发表文章的时间
  • 评论总数
  • ......



  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355
