Python网络爬虫:爬取简书推荐内容

项目目标

获得https://www.jianshu.com的所有首页推荐并将其打印出来。

网站分析

每一个推荐结构大概都是:

<div class="content">
    <a class="title" target="_blank" href="/p/[0-9a-z]{12}">标题</a>
    <p class="abstract">
        “
        内容简介
        ”
    </p>
    <div class="meta">...</div>
</div>

我们可以从标题入手获得信息。

代码

第三方包的准备

pip install beautifulsoup4

Talk is cheap, show him the code.

from bs4 import BeautifulSoup
from urllib.request import urlopen, Request


# 配置User-Agent并创建Request对象
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0'}
req = Request(url='https://www.jianshu.com/', headers=headers)

# 爬取网页
bs = BeautifulSoup(urlopen(req).read(), 'html.parser')
all_article = bs.find_all('a', {'class': 'title', 'target': '_blank'})

# 显示数据
for article in all_article:
    print('=====文章=====')
    print('标题:{}'.format(article.get_text()))
    print('链接:{}'.format('https://www.jianshu.com'+article.attrs['href']))
    print(article.parent.p.get_text()[7:])    # 每个描述字符串前都有7个空格,需要截断
    print('============\n')

为什么要配置User-Agent?因为简书对网络爬虫有限制,如果不配置,就会出现HTTPError: 403Forbidden

输出结果

=====文章=====
标题:试着投稿
链接:https://www.jianshu.com/p/9ead36dec148
在简书已经写作4、5个月了。 关注53 ,粉丝19 ,文章135篇 ,收获喜欢85 ,收获简书钻58 首先感谢简书网的管理和编辑对我写作小白的支...
    
============

=====文章=====
标题:这十种体相的女人,注定大富大贵!
链接:https://www.jianshu.com/p/7aa3ba3709d2
掌心存水 你可做个试验,先把手伸直伸平就是放在水平位置上,然后把杯子中的水倒在手掌中央,一分钟后观察留在手掌中央的水,看看有多少。水的多少代表你...
    
============

=====文章=====
标题:我想一直和你在一起
链接:https://www.jianshu.com/p/ee294da1c47e
​​我希望我们吵架你能够迁就我,即使我嘴硬不肯承认是我的错你也能包容我,尤其是我摔门而走的时候,一定要找我回来,因为我不是真的要走,我就是想看看...
    
============

=====文章=====
标题:林锋与女友在日本玩出了一个另类新高度!
链接:https://www.jianshu.com/p/e995b8146b48
林峰,属于三线明星,名气小到可以忽略不计,很多人听起这个名字的时候感觉很陌生完全没什么奇怪的,可是你明白吗?就是这样一个小小的明星带着女友去日本...
    
============

=====文章=====
标题:女人,往后余生,要好好自我提升,走出舒适区
链接:https://www.jianshu.com/p/c6c248cf676e
我始终觉得我的2018年,是特殊的一年,已经逝去的一年…… 这一年,我27岁,我开始喜欢我的工作,开始享受生活。平平淡淡,安安静静,一边做着安逸...
    
============

=====文章=====
标题:写听书稿,给我带来了什么
链接:https://www.jianshu.com/p/579ddc4d43bb
去年下半年,有缘结识了听书稿这个文体,然后有幸与两个听书稿平台签约,从此,一点点地在听书稿写作的路上学习和成长。 说起写稿的收获,大家一定觉得不...
    
============

=====文章=====
标题:小家如何越住越大?这12件事打死都不要做!
链接:https://www.jianshu.com/p/363f997d0ac6
小户型装修设计坚决不能碰的12件事,外加小户型装修配色攻略。对于小户型装修来说最好就是简约风?真的是果不其然。其实小户型空间可以很好的表达现代感...
    
============
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spide...
    随风化作雨阅读 4,913评论 0 0
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,226评论 45 523
  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 13,516评论 0 23
  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 12,186评论 0 10
  • 路一步一步走 刚毕业心理素质不是太好,总是太顾及别人的眼光,内心又不肯妥协,所以大家认为是合适的我就觉得合适,其实...
    紫狸阅读 1,630评论 0 0

友情链接更多精彩内容