Python爬虫小实例

爬虫糗事百科第一页的段子

import requests

import re

def comenzar():

       r = requests.get('https://www.qiushibaike.com')pattern = '*?<.*?class="content">.*?(.*?).*?'

       result = re.findall(pattern,r.text,re.S)

       #对内容进行过滤

        num = 1

        for subRequest in result:

               filterResult = re.sub('|&quat','',subRequest)print(str(num) + '.' + filterResult + '\n')

               with open('糗事.txt','a',encoding = 'utf-8') as f:

                f.write(str(num) + '.' + filterResult + '\n\n\n')

                num += 1

comenzar()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • (本文源于转载或摘抄整理)手把手教你用Python爬虫煎蛋妹纸海量图片岂安科技[图片上传中。。。(1)] 我们的目...
    JackyTsuuuy阅读 1,488评论 1 5
  • re模块手册 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以...
    喜欢吃栗子阅读 4,087评论 0 13
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,791评论 0 33
  • 于是就跟老师申请,小乖那么萌让她做对照组吧! 没错长得萌就是有理!!
    医小喵阅读 142评论 3 5
  • 我们的一生,免不了成功,免不了失败。更免不了后悔,因为这些内容,我们的经历和感悟都变得精彩和深刻。 有时候,当我们...
    落水有声阅读 426评论 1 2