用python爬取糗事百科搞笑段子

以前一直想学的爬虫,这两天闲来,终于有所眉目

环境是jupyter和spyder

用的python3.5

先上代码

 # -*-encoding:utf-8 -*-
import requests
import xlwt
from bs4 import BeautifulSoup
def get_data(url):
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'lxml')
    cont = soup.select('.content')
    auth = soup.select('.author h2')
    for con,aut in zip(cont,auth):
        if con and aut:
            content.append(con.text.split('\n'))
            author.append(aut.text)
    return author,content
def write_excel(book,sheet_name,author,content):
    sheet = book.add_sheet(sheet_name)
    sheet.write(0,0,'作者')
    sheet.write(0,1,'内容')
    for i in range(len(author)):
        sheet.write(i+1,0,author[i])
        sheet.write(i+1,1,content[i])
    book.save('./qiushi.xls')
if __name__ == "__main__":
    book = xlwt.Workbook(encoding='utf-8')
    web_url = ["http://www.qiushibaike.com/8hr/page/{}/?s=4943272" .format(str(i)) for i in range (1,5,1)]
    sheet_name = '糗事'
    author = list()
    content = list()
    for url in web_url:
        print (url)
        get_data(url)
    write_excel(book,sheet_name,author,content)
不得不说,BeautifulSoup确实很是强大啊,省了正则好多事
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近在学习python爬虫,看到了崔大神的博客,由于他使用的python2.x,于是自己就想用python3实现一...
    xieys阅读 669评论 0 1
  • 版权声明:本文为作者原创文章,可以随意转载,但必须在明确位置表明出处!!! 通过上一遍文章我们对python的基础...
    爱做饭的老谢阅读 788评论 0 0
  • 自从我国《数学一课一练》的版权引入英国,大家就开始觉得国外的基础教育质量远不如国内。事实上,英国教育大臣艾伦·约翰...
    吃鱼子疲阅读 452评论 0 0
  • 问:地藏菩萨,我希望我在延吉的明珠购物中心买到的雪花秀的所有产品都是真货,我的愿望会实现吗? 答:有所求得如意。(...
    长小白阅读 196评论 0 0
  • 离皖至穗 我只记听了一晚上的火车轮撞击铁轨的声音然后就来到了这个承载我12载春秋冬夏的地方——他俩的新工作单位,也...
    尘易飞阅读 487评论 0 0