Python学习笔记(4):爬取动态数据

我的代码

from bs4 import BeautifulSoup
import requests
import time
import urllib

url = 'https://knewone.com/discover?page='

def get_page(url,data=None):

    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text,'lxml')
    imgs = soup.select('a.cover-inner > img')

    download_links = []
    folder_path = '/Users/zhoujiangfeng/Pictures/jandan/'

    for img in imgs:
        img_link = img.get('src')
        download_links.append(img_link)

    for item in download_links:
        #使用urllib下载图片到本地
        urllib.request.urlretrieve(item,folder_path + item[-21:-16])
        print('done')

def get_more_pages(start,end):
    for one in range(start,end):
        get_page(url+str(one))
        time.sleep(2)


get_more_pages(1,10)

总结

  • 注意图片链接的信息,需以图片格式后缀名保存(截取相应位数)
  • 使用urllib库的方法下载图片到本地
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,292评论 25 709
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,204评论 4 61
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,374评论 19 139
  • 亚里士多德说,人最看重三件事:令人愉快的事情,有用的事情和本身卓越的事情。在职场或人际关系也是如此,具备这3种特点...
    袋鼠妈妈向前冲阅读 3,214评论 0 0
  • 我是一个对钱没概念的人,却要开始赚钱了! 我们保证好自己不生病并且去为社会做力所能及的事。 一位我很敬佩的哥哥分享...
    黑咖啡_钟阅读 4,138评论 0 0