Python爬虫之爬取不得姐段子

刚刚看完《Python网络数据采集》的前三章,就用不得姐来练练手,下面直接贴代码吧。

import requests
from bs4 import BeautifulSoup
import re
import os


def get_text(url):
    headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36'}
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, 'lxml')
    all_a = soup.find('div', {'class':'j-content'}).find_all('div', {'class':'j-r-list-c-desc'})
    all_text = []
    for text in all_a:
        all_text.append(text.text)

    with open('text.txt', 'a+') as f:
        for text_ in all_text:
            f.write(text_)
    return text_

def main():
    url = 'http://www.budejie.com/text/'
    endpage = int(input('你要下载多少页:'))
    for i in range(1, endpage + 1):
        try:
            get_text(url + str(i))
        except:
            pass
    print('下载完成!请到程序根目录查看text.txt')  
if __name__ == '__main__':
    main()
效果图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,663评论 25 708
  • R:受众分析 I:用自己的语言重述知识 在与别人沟通时,都会有一个或多个主题,从受众关注的主题中我们可以确认受众的...
    大晖同学阅读 162评论 0 0
  • 有一天, 我会离开 在阳光灿烂的日子里 微风吹过头发 我 默默离开你 走向没有你的日子 这次 没有争吵 没有眼泪 ...
    佳宁de一杯浊酒阅读 414评论 0 0
  • 2017年7月19日,我们有幸邀请到少年儿童出版社的编辑熊芝老师为上交所年轻的爸爸妈妈们带来了精彩的亲子阅读讲座《...
    hcissy阅读 1,636评论 0 0
  • 你站在桥上看风景 看风景的人在楼上看你 明月装饰了你的窗子 你装饰了别人的梦 ☀️☀️☀️☀️☀️☀️
    邱大大阅读 302评论 0 2