Python爬虫之爬取煎蛋网妹子图

写在前面

感谢@Cstances学长的帮助。

贴代码:

import re
import os
import requests
from bs4 import BeautifulSoup

'''
第一步:获取单页图片的链接
第二步:获取页数的数字
第三步:获取所有图片的链接
第四步:保存图片
'''

def get_images(url):
    """获取单页图片链接"""
    headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36'}
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, 'lxml')

    single_page_imgurls = [] # 用于保存当前页的图片链接
    div_a = soup.find('ol' ,{'class':'commentlist'}).find_all('a', href=re.compile(r'//(.*?\.jpg)')) #获取a标签
    for url in div_a:
        single_page_imgurls.append('http:' + url['href'])
    return single_page_imgurls

def get_pages(url):
    """获取首页 page number"""
    headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36'}
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, 'lxml')

    pattern = re.compile(r'<span class="current-comment-page">\[(.*)\]</span>')
    pagesNow = pattern.search(str(soup)).groups()[0]
    return pagesNow

def get_all_images(max_pages):
    """获取所有的图片链接"""
    all_images_url = [] #保存所有图片的链接
    page_num = int(get_pages('http://jandan.net/ooxx'))
    for page in range(page_num, page_num-max_pages, -1): #图片是倒着来取的
        url = 'http://jandan.net/ooxx/page-' + str(page) + '#comments'
        all_images_url.extend(get_images(url))#把单页的图片链接加到all_images_url里
    return all_images_url

def save_images(url, dir_name='ooxx'):
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    with open(dir_name+os.sep+url.split('/')[-1], 'wb') as fp:
        fp.write(requests.get(url).content)



def main():
    endpage = int(input('请输入要下载的页数:'))
    all_images_url = get_all_images(endpage)
    for img_url in all_images_url:
        save_images(img_url)

if __name__ == '__main__':
    main()
效果图
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,634评论 25 709
  • “梅英疏淡,冰澌溶泄,东风暗换年华”。日子悄没声息地变换,转眼间已是春来。 是谁挥洒笔墨,半梦半醒中,沿着文字的路...
    BoYun_阅读 390评论 0 1
  • 我的梦想:做一个优秀的人。 做自己喜欢的事; 爱自己所爱的人; 买自己想要的东西。
    花开花落花满天09阅读 147评论 0 0
  • 16年随着李世石输给阿法狗,不可避免的柯洁终将迎战阿法狗。与其说柯洁对战阿法狗是捍卫人类尊严,不如说更像是...
    741b3a9d9a72阅读 741评论 3 4