最近iOS方面没有开发任务, 老板给了我两周的时间学习爬虫. 期间踩了无数的坑. 终于算是可以在爬虫方面有所小成, 在学习阶段很感谢各种大神的技术文章对我的帮助. 可是如果你是小白的话, 这些技术文章的阅读难度会比较大. 可能会导致在学习阶段在环境配置, IDE选择, 初始爬虫上浪费很多时间.
所以这系列文章会在细节上特别重视. 我的主旨就是我踩过的坑, 就不会让你们再踩了.☺
学习目标
三天时间学会对任一网页的爬虫, 熟练应对反爬虫机制. 并对数据匹配, 数据保存, 数据可视化有充分的了解. 熟悉爬虫基本原理, 熟悉爬虫框架的运行.我会在文章中用很多的小项目来帮助你们.
学习大纲
- 熟悉Python基本语法
- 数据流行的框架使用:requests/scrapy等等 框架只是工具
- 熟悉IDE的使用 sublime text/ pycharm
- 数据匹配:正则匹配与XPath语法在爬虫中的使用
- 数据保存: 将爬取数据保存到Excel或者保存为json字符串
- 反爬虫机制: delay函数随机请求头, 注入cookie, IP代理池
- ...
闲言碎语
- Python2与Python3的选择:Python2在2020年会过期,现在Python3已经很稳定了.
如果你是Python的新手,我建议你从Python3开始学习.如果你想通过学习Python, 来找到工作, 我建议你从Python2学起, 因为现在有很多公司的项目还是Python2.X的版本.
其实我认为学习一门语言对于版本这种东西真的是无所谓了, 学东西就应该融会贯通, 本文的代码环境皆为Python3
而且我认为p2与p3最大的区别就是print函数带不带小括号,哈哈 - 知乎上面有一些很好的文章, 推荐大家在学习本文前可以看看.
如何入门爬虫
爬虫入门文章汇总
利用爬虫技术能做到哪些很酷很有趣很有用的事情?
1.基本语法
学习任何一门语言, 必须先学会它的基本语法, 这里我推荐廖雪峰的Python教程
廖雪峰Python教程
进入网站你会发现目录那么长, 该怎么看. 其实你只需要看这么多即可开始爬虫, 是不是很开心~
2.开发环境
现在你已经学会Python的基本语法了, 也已经在shell里面练习了, 工欲善其事, 必先利其器. 有一个高效顺手的开发环境是很重要的.
2.1 下载python3
mac自带的Python版本为2.x, 在终端输入python --version
即可查看当前python的版本.
更新至Python3很简单, 首先下载Homebrew, 在终端输入
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
来安装Homebrew, 安装后直接通过命令brew install python3
即可.现在你可以输入python3 --version
来查看你的python3版本.
2.2 下载sublime text
通过sublime的官方网址进行下载,
2.3 使用与配置sublime text
首先在右下角选择语言环境Python
接下来就可以打出第一行代码
print('hi python')
, 接下来按住command+B编译. 你会发现console区报错如下/usr/local/bin/python3: can't find '__main__' module in ''
, 原因是没有保存就直接运行了. 所以我们要先command+S进行保存, 然后在运行就可以了.
在sublime中输入汉字:
在编译器中输入print('心有猛虎')
, 编译后会发现报错
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
原因是Python采用ASCII处理字符流, 当字符流不属于ASCII范围内时就会抛出该异常.解决方法是添加一个适用于Python3+适配中文环境的build system.
点击上方菜单栏中的Tools -> Build System -> New Build System, 就会打开一个untitled.sublime-build文件,
将以下代码拷贝进去
{
"cmd": ["/usr/local/bin/python3", "-u", "$file"],
"file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
"selector": "source.python",
"env": {"LANG": "en_US.UTF-8"}
}
并保存[最后赋予一个有意思的名字, 例如我的是python-CN], 再次点开Build System就能看见刚刚保存的build system了. 选中后再次运行刚才的文件, 就可以print出中文了.
如何修改已经保存的Build System:
顶部菜单栏点击Sublime Text -> Preferences -> Browse Packages -> Packages ->User 双击打开想要修改的Build System即可
在学两个小技术点, 就可以开始我们的第一个爬虫了, 挺住
2.4 正则表达式RegEx
这里我只讲最浅显的部分, 我之前对正则表达式特别陌生, 可是我只学了两分钟就可以用re来进行数据匹配了, 我讲的知识足够支持我们到学XPath语法之前了.
先简单的看一下这篇文章来了解下正则表达式, 看一下这篇文章来了解一下贪婪模式与非贪婪模式.
简单的说一下贪婪与非贪婪模式, 贪婪模式就是尽可能多的匹配到满足条件的内容, 非贪婪模式模式与之相反. 在爬虫中, 我们一般使用非贪婪模式.
接下来举个例子, 下面是一段HTML, 该如何使用re来得到里面的段子呢?
<div class="content">
<span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span>
</div>
- 首先引用re的模块,
import re
- 使用re的匹配函数,
re.findall(pattern, string[, flags])
, 此函数有三个参数, 第一个参数为匹配规则pattern, 第二个匹配参数string为匹配的内容, 第三个函数可以对正则匹配规则有一定影响,一般我们会使用re.S, 好让'.'可以匹配换行符. 这个函数会返回一个list, 包含所有符合规则的匹配内容.
re.L(re.LOCALE)
让\w、\W、\b、\B、\s和\S依赖当前的locale。
re.M(re.MULTILINE)
影响''和'$'的行为,指定了以后,''会增加匹配每行的开始(也就是换行符后的位置);'$'会增加匹配每行的结束(也就是换行符前的位置)。
re.S(re.DOTALL)
影响'.'的行为,平时'.'匹配除换行符以外的所有字符,指定了本标志以后,也可以匹配换行符。
re.U(re.UNICODE)
让\w、\W、\b、\B、\d、\D、\s和\S依赖Unicode库。
- 如何写匹配规则: 其实就是三个符号
.*?
, 这三个符号代表的是以非贪婪模式匹配抛去换行符的所有字符串. 比如我想拿到"零基础学习爬虫"123456
双引号中的内容, 就可以写"(.*?)".*?
来匹配到所需内容.
上面的pattern中有两个.*?
, 他们的区别为一个带括号和一个不带括号, 你可以这么理解, 带括号包含的就是我们所需的内容, 会通过re.findall返回到list中, 因为我们只需要双引号中的内容(零基础学习爬虫), 双引号后面的数字(123456)对我们来说是无效内容, 所以第二个.*?
无需带括号.
现在懂得如何获取例子中的笑话了么? 代码如下:
import re
HTML = '<div class="content"><span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span></div>'
pattern = '<div.*?><span>(.*?)</.*?></div>'
# resutl是一个list
result = re.findall(pattern, HTML, re.S)
print(result[0])
2.5 requests
爬虫可以大致分为三步:爬取源数据, 过滤数据, 保存数据.
requests就是实现第一步的神器, requests可以像url发送请求, 并将相应数据呈现给你.
requests主页
>>>必看:一篇介绍requests的博客, 写的很好
安装requests######
- 首先安装pip, 一会我们安装框架基本都会通过pip. Mac下自带easy install, 在终端输入
sudo easy_install pip
�, 输入你的电脑密码(在终端中输入密码不会显示)即可安装成功. - 使用pip来安装requests, 在终端中输入
sudo pip3 install requests
, 如果为Python2.X版本安装, 则输入sudo pip install requests
使用requests######
首先在sublime text中导入import requests
然后尝试获取某个网页的源码, 这里我们使用简书首页为例子r = requests.get('http://www.jianshu.com')
现在我们有一个response对象, 我们可以从这个对象中获取我们所需的所有内容.[详细语法看上面的那篇博客]
print(r.text)
就可以打印出简书首页的HTML源码. Requests会自动解码来自服务器的内容. 大多数unicode字符集都能被无缝地解码.
请求发出后,Requests会基于HTTP头部对响应的编码作出有根据的推测. 当你访问r.text 之时,Requests会使用其推测的文本编码. 你可以找出Requests使用了什么编码,并且能够使用 r.encoding 属性来改变它:
>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'
如果你改变了编码,每当你访问 r.text ,Request都将会使用 r.encoding 的新值.
所以我们获取网页的源码很简单, 就是一行代码
r = requests.get(URL)
接下来就开始我们的第一个项目了
3.项目实战
我们项目实战为爬取糗事百科热门段子中的前10页, 为什么很多教程都会选择糗事百科来作为爬虫教程呢? 因为糗事百科无需登录, 源码结构性强, 学习曲线平缓, 很适合作为我们第一个爬虫练习项目.
获取糗事百科网页源码######
导入re与requests模块, 使用requests发送get请求获取网页源码
import requests
import re
def start_spider():
r = requests.get('https://www.qiushibaike.com/8hr/page/1')
print(r.text)
start_spider()
# def是python中定义函数的.如果这里看不懂def的含义, 请往上翻到1.基本语法那里好好学习.
这样我们就可以获取到糗事百科热门第一页的源码了.
根据网页源码匹配出我们所需的段子######
使用Safari或者Chrome打开糗事百科, 按command+option+I打开web检查器, 点击元素/elements即可查看网页源代码.
爬取这种网页时, 相似的数据会有相同的属性来包裹. 例如我们想爬取第一页的段子, 那么我们先找到所有段子的相同点. 鼠标悬停在一个段子上, 右键检查元素.在下方的检查器中会发现所有的段子都被包裹在class='article block untagged mb15'的div标签中了.
展开标签, 发现段子在class="content"的标签中.
我们现在就可以使用正则来匹配本页所有的段子了
import requests
import re
def start_spider():
# 获取糗事百科源代码
r = requests.get('https://www.qiushibaike.com/8hr/page/1')
# 使用正则获取热门中的所有段子
pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>'
duanzi_list = re.findall(pattern, r.text, re.S)
print(duanzi_list)
start_spider()
现在段子黏连的太紧而且还有一些
标签和", 需要对段子进行过滤.
# 对段子进行过滤
num = 1
for duanzi in duanzi_list:
filter_duanzi = re.sub('<br/>|"', '', duanzi)
print(str(num) + '.' + filter_duanzi + '\n')
num += 1
这样是不是就看着好多了?
对获取到的段子进行保存######
对段子的保存暂时用不到数据库或者Excel, 只需要将段子保存为一个txt文件即可, 我现在介绍一下在Python中对文件操作的open函数.
open(name[,mode[,buffering]])
name表示文件名, mode表示读写模式, buffering是一个可选参数.
读写模式:r只读, r+读写, w新建(会覆盖原有文件), a追加.
# 对段子进行过滤
num = 1
for duanzi in duanzi_list:
filter_duanzi = re.sub('<br/>|"', '', duanzi)
print(str(num) + '.' + filter_duanzi + '\n')
# 保存数据
with open('糗事.txt', 'a', encoding ='utf-8') as f:
f.write(str(num) + '.' + filter_duanzi + '\n\n\n')
num += 1
只需要添加两行代码, 即可将数据保存到txt文件中. txt文件会保存在与代码同级的根目录中, 打开看一看你的成果把~
这样子你的第一个爬虫就已经成功了, 虽然还有很多不足的地方, 例如只能爬取第一页, 没有交互等等. 这些优化我都会在下个文章中交给大家的~ 下课!
所有代码:
import requests
import re
def start_spider():
# 获取糗事百科源代码
r = requests.get('https://www.qiushibaike.com/8hr/page/1')
# 使用正则获取热门中的所有段子
pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>'
duanzi_list = re.findall(pattern, r.text, re.S)
# 对段子进行过滤
num = 1
for duanzi in duanzi_list:
filter_duanzi = re.sub('<br/>|"', '', duanzi)
print(str(num) + '.' + filter_duanzi + '\n')
# 保存数据
with open('糗事.txt', 'a', encoding ='utf-8') as f:
f.write(str(num) + '.' + filter_duanzi + '\n\n\n')
num += 1
start_spider()
预告
在猪肚篇我会教给大家:
- 使用面向对象模式书写爬虫
- 使用XPath语法进行数据过滤
- 对网站反爬虫的一些应对方法
- cookie的使用
- scrapy神器的使用
- 如何将数据保存到excel中
- 新IDE-pycharm的使用
- ...
如果大家在爬取数据中有任何不懂的地方, 欢迎给我留言, 我会尽力解决的. 因为我深知在新手阶段碰见问题的迷茫感, 我会陪各位一起度过的.