零基础三天学会Python爬虫 -- 龙头

教我女朋友学习爬虫

最近iOS方面没有开发任务, 老板给了我两周的时间学习爬虫. 期间踩了无数的坑. 终于算是可以在爬虫方面有所小成, 在学习阶段很感谢各种大神的技术文章对我的帮助. 可是如果你是小白的话, 这些技术文章的阅读难度会比较大. 可能会导致在学习阶段在环境配置, IDE选择, 初始爬虫上浪费很多时间.
所以这系列文章会在细节上特别重视. 我的主旨就是我踩过的坑, 就不会让你们再踩了.☺

学习目标

三天时间学会对任一网页的爬虫, 熟练应对反爬虫机制. 并对数据匹配, 数据保存, 数据可视化有充分的了解. 熟悉爬虫基本原理, 熟悉爬虫框架的运行.我会在文章中用很多的小项目来帮助你们.

学习大纲

  • 熟悉Python基本语法
  • 数据流行的框架使用:requests/scrapy等等 框架只是工具
  • 熟悉IDE的使用 sublime text/ pycharm
  • 数据匹配:正则匹配与XPath语法在爬虫中的使用
  • 数据保存: 将爬取数据保存到Excel或者保存为json字符串
  • 反爬虫机制: delay函数随机请求头, 注入cookie, IP代理池
  • ...

闲言碎语

  • Python2与Python3的选择:Python2在2020年会过期,现在Python3已经很稳定了.
    如果你是Python的新手,我建议你从Python3开始学习.如果你想通过学习Python, 来找到工作, 我建议你从Python2学起, 因为现在有很多公司的项目还是Python2.X的版本.
    其实我认为学习一门语言对于版本这种东西真的是无所谓了, 学东西就应该融会贯通, 本文的代码环境皆为Python3
    而且我认为p2与p3最大的区别就是print函数带不带小括号,哈哈
  • 知乎上面有一些很好的文章, 推荐大家在学习本文前可以看看.
    如何入门爬虫
    爬虫入门文章汇总
    利用爬虫技术能做到哪些很酷很有趣很有用的事情?

1.基本语法

学习任何一门语言, 必须先学会它的基本语法, 这里我推荐廖雪峰的Python教程
廖雪峰Python教程
进入网站你会发现目录那么长, 该怎么看. 其实你只需要看这么多即可开始爬虫, 是不是很开心~

只需要看这么多即可进行爬虫, 红色箭头重点看

2.开发环境

现在你已经学会Python的基本语法了, 也已经在shell里面练习了, 工欲善其事, 必先利其器. 有一个高效顺手的开发环境是很重要的.

2.1 下载python3

mac自带的Python版本为2.x, 在终端输入python --version即可查看当前python的版本.

更新至Python3很简单, 首先下载Homebrew, 在终端输入

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

来安装Homebrew, 安装后直接通过命令brew install python3即可.现在你可以输入python3 --version来查看你的python3版本.

2.2 下载sublime text

通过sublime的官方网址进行下载,

2.3 使用与配置sublime text

首先在右下角选择语言环境Python

选择语言环境

接下来就可以打出第一行代码print('hi python'), 接下来按住command+B编译. 你会发现console区报错如下/usr/local/bin/python3: can't find '__main__' module in '', 原因是没有保存就直接运行了. 所以我们要先command+S进行保存, 然后在运行就可以了.

在sublime text运行Python, 记得要先保存
在sublime中输入汉字:

在编译器中输入print('心有猛虎'), 编译后会发现报错

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

原因是Python采用ASCII处理字符流, 当字符流不属于ASCII范围内时就会抛出该异常.解决方法是添加一个适用于Python3+适配中文环境的build system.
点击上方菜单栏中的Tools -> Build System -> New Build System, 就会打开一个untitled.sublime-build文件,


添加build system

将以下代码拷贝进去

{
    "cmd": ["/usr/local/bin/python3", "-u", "$file"],
    "file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
    "selector": "source.python",
    "env": {"LANG": "en_US.UTF-8"}
} 

并保存[最后赋予一个有意思的名字, 例如我的是python-CN], 再次点开Build System就能看见刚刚保存的build system了. 选中后再次运行刚才的文件, 就可以print出中文了.


细嗅蔷薇
如何修改已经保存的Build System:

顶部菜单栏点击Sublime Text -> Preferences -> Browse Packages -> Packages ->User 双击打开想要修改的Build System即可

修改已保存的Build System

在学两个小技术点, 就可以开始我们的第一个爬虫了, 挺住

2.4 正则表达式RegEx

这里我只讲最浅显的部分, 我之前对正则表达式特别陌生, 可是我只学了两分钟就可以用re来进行数据匹配了, 我讲的知识足够支持我们到学XPath语法之前了.
先简单的看一下这篇文章来了解下正则表达式, 看一下这篇文章来了解一下贪婪模式与非贪婪模式.
简单的说一下贪婪与非贪婪模式, 贪婪模式就是尽可能多的匹配到满足条件的内容, 非贪婪模式模式与之相反. 在爬虫中, 我们一般使用非贪婪模式.
接下来举个例子, 下面是一段HTML, 该如何使用re来得到里面的段子呢?

<div class="content">
<span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span>
</div>
  • 首先引用re的模块, import re
  • 使用re的匹配函数, re.findall(pattern, string[, flags]), 此函数有三个参数, 第一个参数为匹配规则pattern, 第二个匹配参数string为匹配的内容, 第三个函数可以对正则匹配规则有一定影响,一般我们会使用re.S, 好让'.'可以匹配换行符. 这个函数会返回一个list, 包含所有符合规则的匹配内容.

re.L(re.LOCALE)
让\w、\W、\b、\B、\s和\S依赖当前的locale。
re.M(re.MULTILINE)
影响''和'$'的行为,指定了以后,''会增加匹配每行的开始(也就是换行符后的位置);'$'会增加匹配每行的结束(也就是换行符前的位置)。
re.S(re.DOTALL)
影响'.'的行为,平时'.'匹配除换行符以外的所有字符,指定了本标志以后,也可以匹配换行符。
re.U(re.UNICODE)
让\w、\W、\b、\B、\d、\D、\s和\S依赖Unicode库。

  • 如何写匹配规则: 其实就是三个符号.*?, 这三个符号代表的是以非贪婪模式匹配抛去换行符的所有字符串. 比如我想拿到"零基础学习爬虫"123456双引号中的内容, 就可以写"(.*?)".*?来匹配到所需内容.
    上面的pattern中有两个.*?, 他们的区别为一个带括号和一个不带括号, 你可以这么理解, 带括号包含的就是我们所需的内容, 会通过re.findall返回到list中, 因为我们只需要双引号中的内容(零基础学习爬虫), 双引号后面的数字(123456)对我们来说是无效内容, 所以第二个.*?无需带括号.

现在懂得如何获取例子中的笑话了么? 代码如下:

import re

HTML = '<div class="content"><span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span></div>'
pattern = '<div.*?><span>(.*?)</.*?></div>'
# resutl是一个list
result = re.findall(pattern, HTML, re.S)
print(result[0])
2.5 requests

爬虫可以大致分为三步:爬取源数据, 过滤数据, 保存数据.
requests就是实现第一步的神器, requests可以像url发送请求, 并将相应数据呈现给你.
requests主页
>>>必看:一篇介绍requests的博客, 写的很好

安装requests######
  • 首先安装pip, 一会我们安装框架基本都会通过pip. Mac下自带easy install, 在终端输入sudo easy_install pip�, 输入你的电脑密码(在终端中输入密码不会显示)即可安装成功.
  • 使用pip来安装requests, 在终端中输入sudo pip3 install requests, 如果为Python2.X版本安装, 则输入sudo pip install requests
使用requests######

首先在sublime text中导入import requests
然后尝试获取某个网页的源码, 这里我们使用简书首页为例子r = requests.get('http://www.jianshu.com')
现在我们有一个response对象, 我们可以从这个对象中获取我们所需的所有内容.[详细语法看上面的那篇博客]
print(r.text)就可以打印出简书首页的HTML源码. Requests会自动解码来自服务器的内容. 大多数unicode字符集都能被无缝地解码.
请求发出后,Requests会基于HTTP头部对响应的编码作出有根据的推测. 当你访问r.text 之时,Requests会使用其推测的文本编码. 你可以找出Requests使用了什么编码,并且能够使用 r.encoding 属性来改变它:

>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'

如果你改变了编码,每当你访问 r.text ,Request都将会使用 r.encoding 的新值.
所以我们获取网页的源码很简单, 就是一行代码

r = requests.get(URL)

接下来就开始我们的第一个项目了

3.项目实战

我们项目实战为爬取糗事百科热门段子中的前10页, 为什么很多教程都会选择糗事百科来作为爬虫教程呢? 因为糗事百科无需登录, 源码结构性强, 学习曲线平缓, 很适合作为我们第一个爬虫练习项目.

获取糗事百科网页源码######

导入re与requests模块, 使用requests发送get请求获取网页源码

import requests
import re

def start_spider():
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    print(r.text)

start_spider()
# def是python中定义函数的.如果这里看不懂def的含义, 请往上翻到1.基本语法那里好好学习.

这样我们就可以获取到糗事百科热门第一页的源码了.

糗百第一页HTML
根据网页源码匹配出我们所需的段子######

使用Safari或者Chrome打开糗事百科, 按command+option+I打开web检查器, 点击元素/elements即可查看网页源代码.
爬取这种网页时, 相似的数据会有相同的属性来包裹. 例如我们想爬取第一页的段子, 那么我们先找到所有段子的相同点. 鼠标悬停在一个段子上, 右键检查元素.在下方的检查器中会发现所有的段子都被包裹在class='article block untagged mb15'的div标签中了.

找出爬取数据的相同点

展开标签, 发现段子在class="content"的标签中.


段子

我们现在就可以使用正则来匹配本页所有的段子了

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)
    print(duanzi_list)

start_spider()

duanzi_list保存着本页所有的段子

现在段子黏连的太紧而且还有一些
标签和&quot, 需要对段子进行过滤.

# 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')
        num += 1
输出过滤后的段子

这样是不是就看着好多了?

对获取到的段子进行保存######

对段子的保存暂时用不到数据库或者Excel, 只需要将段子保存为一个txt文件即可, 我现在介绍一下在Python中对文件操作的open函数.

open(name[,mode[,buffering]])
name表示文件名, mode表示读写模式, buffering是一个可选参数.
读写模式:r只读, r+读写, w新建(会覆盖原有文件), a追加.

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

只需要添加两行代码, 即可将数据保存到txt文件中. txt文件会保存在与代码同级的根目录中, 打开看一看你的成果把~

成果

这样子你的第一个爬虫就已经成功了, 虽然还有很多不足的地方, 例如只能爬取第一页, 没有交互等等. 这些优化我都会在下个文章中交给大家的~ 下课!

所有代码:

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

start_spider()

预告
在猪肚篇我会教给大家:

  • 使用面向对象模式书写爬虫
  • 使用XPath语法进行数据过滤
  • 对网站反爬虫的一些应对方法
  • cookie的使用
  • scrapy神器的使用
  • 如何将数据保存到excel中
  • 新IDE-pycharm的使用
  • ...

如果大家在爬取数据中有任何不懂的地方, 欢迎给我留言, 我会尽力解决的. 因为我深知在新手阶段碰见问题的迷茫感, 我会陪各位一起度过的.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容