先从一个最简单的页面开始爬起
现在我要做的时把它从网页是爬下来,贴出代码
值得注意的是对文件操作是尽量使用with open 方法这样就避免了直接使用open方法需要使用 .close()方法关闭文件的繁琐
然后就可以看到本地文件夹下多出来了一张图片
到这里一张图片的爬取就完成了,是不是觉得很简单呢,接下来就是对宅男们比较感兴趣的爬一堆美女图片
直接贴上裸奔版的代码
关于下载图片,也可以使用urllib.request.urlretrieve(img,'%s.jpg'%num)方法
运行
然后回到文件夹下就会发现一堆美女图片已经躺在那了
妹子的话就转变一下去爬一些帅哥型男的图片咯
但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。
伪装的话直接把request请求改成
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}
request = urllib.request.Request(url,headers=headers)
这样就成功完成伪装了