爬虫任务二

2.1 学习beautifulsoup

学习beautifulsoup,并使用beautifulsoup提取内容。

使用beautifulsoup提取丁香园论坛的回复内容。

首先先用requests库连接到丁香园论坛的网页:


然后使用beautifulSoup找到相应user和内容的标签:


然后再试试用lxml库,xpath是用来找到相应的路径:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,767评论 6 28
  • 概要 Lxml库是基于libxml2的XML解析库的Python封装。该模块使用C语言编写,解析速度比Beauti...
    OzanShareing阅读 1,243评论 0 3
  • 思亲 文/梅映雪 踩在松软的乡间小路 秋风微凉 熟...
    梅映雪_阅读 147评论 0 0
  • 给觉知留下空间和时间,好好觉知,充分觉知,把觉知这件事做足,做够。当呈现巨大的情绪,情感时,无论是正向的还是负向的...
    黄向书阅读 166评论 0 1
  • 早安52 多么期待 有一次远行 看见的只有爱和欢欣 就如记忆中的海那么蓝 脚下的沙滩依旧那么软 多么期待 有一次远...
    小月笔记阅读 233评论 0 3