爬虫学习之糗事百科

'''

'''

糗事百科爬虫

1.抓取糗事百科段子

2.过滤带有图片的段子

3.实现每按一次回车键显示一个段子的发布时间,发布人,段子内容,点赞数.

'''

importrequests

frombs4importBeautifulSoup

url='http://www.qiushibaike.com/8hr/page/1/'#后面数字是页码

#首先定义一个抓取url链接内容的函数url_down

defurl_down(url):

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36'}

try:

data=requests.get(url,headers=headers)

data.encoding='utf-8'

returndata.text

except:

print('访问出错!')

return None

html=url_down(url)

#定义段子内容抓取函数,发布时间,发布人,段子内容,点赞数

# def get_content(html):

soup=BeautifulSoup(html,'lxml')

all_jokes=soup.find_all('div',{'class':'article block untagged mb15'})

forjokesinall_jokes:

print(jokes)

'''

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,382评论 6 28
  • 20170531 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的...
    八神苍月阅读 14,807评论 3 44
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,477评论 19 139
  • 在上一篇中 , 我们构建了一个爬虫, 可以通过跟踪链接的方式下载我们所需的网页。 但是爬虫在下载网页之后又将 结果...
    枫灬叶阅读 5,935评论 0 5
  • 昨天写了半篇文章,一不留神睡着了。 坚持了二十多天,写了些生活琐事,不登大雅之堂,贵在每日坚持写写写。 昨夜做了一...
    易水寒1213阅读 1,722评论 0 0