爬虫练习：抓取lol各英雄图片并保存在本地

第一个爬虫项目

image.png

周末花了点时间学习爬虫，果然还是挺难的（To me。。），不得不说，其中还是有许多坑在里面，比如你要理解网页里各个部分的构成，找到你所需要的东西，然后用正则表达式将其匹配出来，一个经典的笑话：
当你有一个困难，你发现用正则表达式可以解决这个困难的时候，好了，这下你就会有两个困难了..，正则表达式入门的确不难，但要掌握或者是熟练他的确需要很多脑筋，跟着教程学了一遍，做了第一个小项目，不大，主要是入门来练习下，后面本来想爬教务处里各个老师的信息的，结果竟然要VPN，我输入之后从python里爬取好像还访问不了，exm?不过也可能是我哪里写错了，下次再试试。
挺郁闷的，就这样个小项目竟然花了整整两天，本来还打算周末出去玩玩的，因为眼睛不知道怎么回事这一周都有点看不清，可能是对着屏幕看太多了，看来要注意点了，把眼睛整坏就不好了.

image.png

代码

导入模块，主要是要request模块，貌似美丽汤（beautifulsoup）也挺厉害，有时间看看

import re
import urllib.request
import os
import ssl

访问网页

def open_url(url):
    req = urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
    response = urllib.request.urlopen(req,context=context)
    html = response.read()
    return html

抓取图片连接，这里有点问题，应该是我正则写的不是很好，抓出来不知道为什么始终返回的两端带有双引号，所以后面用循环去掉了两端的引号，也算不够简洁吧。

def get_img(html):
    p = r'src=("http[^"]+?\.[ipg|png]+")'
    html = html.decode("GBK")
    img_list = re.findall(p,html)
    for num,value in enumerate(img_list):
        img_list[num] = value[1:len(value)-1]
    return (img_list)

保存抓取的图片到本地，这次练习的不大，只有122张图片，所以感觉还行，不知道跑大样本数据电脑带不带的动

def save_img(folder,img_list):

    for each in img_list:
        filename = each.split("/")[-1]

        with open(filename,"wb") as f:
            img = open_url(each)
            f.write(img)

创建一个文件夹来保存图片

def document_lol(folder = "lolpic"):
    os.mkdir(folder)
    os.chdir(folder)
    url = "http://lol.52pk.com/hero/"
    img_list = get_img(open_url(url))
    save_img(folder,img_list)



if __name__ == "__main__":
    context = ssl._create_unverified_context()
    document_lol()

最后贴一张爬完的结果

image.png

OK，不是很好的开头，接下来可以试着多做几个简单的练习之后再去爬一些网站抓取有用的数据来分析，（爬一下拉钩网上招聘信息，链家的房租信息等）不过可能反爬机制那部分又要折腾很久。不得不说，当你每次高高兴兴以为自己code没问题的时候去运行，结果莫名其妙跑出一些BUG真的很气人啊，有时候气的想砸桌子。。。

image.png

最后编辑于：2018.05.27 19:22:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,233评论 6赞 495
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,357评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,831评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,313评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,417评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,470评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,482评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,265评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,708评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,997评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,176评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,827评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,503评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,150评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,391评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,034评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,063评论 2赞 352

爬虫练习：抓取lol各英雄图片并保存在本地

第一个爬虫项目

代码

推荐阅读更多精彩内容