登录注册写文章

爬虫学习之糗事百科

爬虫学习之糗事百科

'''

'''

糗事百科爬虫

1.抓取糗事百科段子

2.过滤带有图片的段子

3.实现每按一次回车键显示一个段子的发布时间,发布人,段子内容,点赞数.

'''

importrequests

frombs4importBeautifulSoup

url='http://www.qiushibaike.com/8hr/page/1/'#后面数字是页码

#首先定义一个抓取url链接内容的函数url_down

defurl_down(url):

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36'}

try:

data=requests.get(url,headers=headers)

data.encoding='utf-8'

returndata.text

except:

print('访问出错!')

return None

html=url_down(url)

#定义段子内容抓取函数,发布时间,发布人,段子内容,点赞数

# def get_content(html):

soup=BeautifulSoup(html,'lxml')

all_jokes=soup.find_all('div',{'class':'article block untagged mb15'})

forjokesinall_jokes:

print(jokes)

'''

最后编辑于：2017.12.03 14:12:39

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 14,382评论 6赞 28
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,807评论 3赞 44

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,477评论 19赞 139
用Python写网络爬虫二
在上一篇中，我们构建了一个爬虫，可以通过跟踪链接的方式下载我们所需的网页。但是爬虫在下载网页之后又将结果...
枫灬叶阅读 5,935评论 0赞 5
复活
昨天写了半篇文章，一不留神睡着了。坚持了二十多天，写了些生活琐事，不登大雅之堂，贵在每日坚持写写写。昨夜做了一...
易水寒1213阅读 1,722评论 0赞 0

赞1赞

赞赏

手机看全文