【Python爬虫】入门知识

我是一只小爬虫,小呀小爬虫

爬虫基本知识


这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历。

网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打算讲什么大道理,因为其实爬虫挺好理解的。就是下面一个流程:

人生日历截图20160513201530.png

爬虫的功能就是把网页源代码想办法爬下来,然后分析出需要的内容。总结起来就是2个部分:

  1. 提取

所以,整个爬虫需要掌握的技能,就是如何高效的爬,如何快速的分析提取所需要的内容。

如何爬?

Requests

说实话,之前为了找爬虫的教程,走了挺多弯路的,因为现在很多教程刚上来就介绍urllib,urllib2这两个python自带的有关网页的包,所以刚开始我的单线程爬虫实现也都是基于urllib的,不仅代码多,而且效率还低。实际上,目前来说,这两个已经很过时了,目前用的比较多的是requests这个第三方包(这里我也是偶然间发现极客学院有关爬虫的视频,让我少走那么多弯路,这里我就不说是什么视频了,以免有广告的嫌疑,大家有兴趣的可以自己去搜)。
正如requests的官方网页说的:

Requests: HTTP for Humans

它目前应该是python下最好的Http库了。它还有很多别的特性:

Requests 使用的是 urllib3,继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。

上面介绍的是单线程爬虫,然后,如果要提高爬的效率,并行化肯定必不可少,那么scrapy就可以解决你的问题。然后还有js动态加载的问题。那些我以后也会慢慢加上来。

Requests安装

pip install requests

所有的python第三方包的安装都可以用pip,如果cmd中无法输入pip命令,请把C:\Python27\Scripts加入PATH环境变量。

注:这里不推荐使用easy_install 因为这个只管安装,不管卸载。

Requests使用

基本知道一个requests.get()和requests.post()就行了。

同样它还有
requests.head()
requests.delete()
功能,不过用的不多。需要的时候,查手册就好了。
这里有个文档写requests写的挺全面的。可以看看:requests快速上手

requests的返回值可以有多种形式输出,最常用的是
“.text”和".content",前者输出unicode,后者输出二进制

 import requests  
 url = 'http://www.baidu.com'
 html = requests.get(url)
 print html.text

输出:

<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" /><link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /><link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg"><link rel="dns-prefetch" href="//s1.bdstatic.com"/><link rel="dns-prefetch" href="//t1.baidu.com"/><link rel="dns-prefetch" href="//t2.baidu.com"/><link rel="dns-prefetch" href="//t3.baidu.com"/><link rel="dns-prefetch" href="//t10.baidu.com"/><link rel="dns-prefetch" href="//t11.baidu.com"/><link rel="dns-prefetch" href="//t12.baidu.com"/><link rel="dns-prefetch" href="//b1.bdstatic.com"/><title>百度一下,你就知道</title>
……
……

如何提取?

正则表达式

正则表达式是一个大头!很多也都听过正则表达式,第一印象就是记不住,但是其实也不用特别记忆,因为在爬虫里,用的最多的基本就一个

(.*?)

( ) :表示这个内容是我们需要提取的
.* :表示匹配任意字符0到n次
?:表示非贪心,找对第一个就停下来

我来解释下为什么在爬虫里只要这个pattern就行了。
在html网页源代码中,我们需要找的内容一般都是被某些标签包围的,如果我们能保证找到我们需要的内容左右的标签(并且他们是独一无二的)那么我们很容易写出一个正则表达式:

<XXX>(.*?)</XXX>

把其中的内容提取出来

python正则模块使用

python的正则模块是re,主要用的函数是(re.S的意思是让"."可以匹配换行符,不然有些标签头和尾是分几行的,就会匹配失败)

findall(pattern,str,re.S)

主力部队,把所有满足正则的内容提取出来,用于匹配满足某个条件的大量我们需要的内容。(比如所有的图片,所有的网址,所有的回复,所有的链接……)。它在网页提取中占了主要地位,工作量大,任务重,所以是主力部队。

search(pattern,str,re.S)

狙击手,用来匹配第一个找到的元素,它的目标目的就是找到我们明显知道只有一个的元素比如标题什么的,一旦找到就结束,所以它的执行速度很快。它的目标明确,效率高,所以是狙击手的角色。

sub(pattern,str,replace)

后勤,它的功能是替换,一般用于替换一个网页地址中的关键词,替换页码等。它看似不重要,但是往往能在很多方面给我们提供便利,所以是后勤。

注意:正则有时候一步不能完成我们需要的功能,可能需要进行几步操作,这时候,我们一般先提取大的部分,在从大部分里面提取我们需要的部分

我们看个很简单的例子:

import re

#假设下面是一个源码,我想保存里面所有的链接
text = '<a href = "www.baidu.com">....'
urls = re.findall('<a href = (.*?)>',text,re.S)
for each in urls:
    print each

#假设我需要爬取当前网页的头部
html = '''
<html>
<title>爬虫的基本知识</title>
<body>
……
</body>
</html>
'''
print re.search('<title>(.*?)</title>',html,re.S).group(1)
#这里group(1)表示第一个括号的内容,如果正则里面有多个括号,这里可以通过group(i)返回第i个空格里的内容



#假设下面是一个贴吧的帖子地址,有很多页,每一页就是靠后面的pn=几来区分的,我们输出前10页的网址
Pages = 'http://tieba.baidu.com/p/4342201077?pn=1'
for i in range(10): 
    print re.sub('pn=\d','pn=%d'%i,Pages)

输出:

"www.baidu.com"
爬虫的基本知识
http://tieba.baidu.com/p/4342201077?pn=0
http://tieba.baidu.com/p/4342201077?pn=1
http://tieba.baidu.com/p/4342201077?pn=2
http://tieba.baidu.com/p/4342201077?pn=3
http://tieba.baidu.com/p/4342201077?pn=4
http://tieba.baidu.com/p/4342201077?pn=5
http://tieba.baidu.com/p/4342201077?pn=6
http://tieba.baidu.com/p/4342201077?pn=7
http://tieba.baidu.com/p/4342201077?pn=8
http://tieba.baidu.com/p/4342201077?pn=9

XPath

如果说正则表达式就已经让你觉得很神奇了,那XPath真是要吓死你了。这真是个神器,它让提取信息网页信息变得更加轻松。XPath是一个树型的结构,比较符合“html”的层次结构。

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointer与XSLT间的语法模型。但是 XPath 很快的被开发者采用来当作小型查询语言。

我觉得视频中老师的解释超精彩:如果你提取信息就像让你找一栋建筑,那么正则就是告诉你建筑左边是什么,右边是什么,但是全国可能有很多都满足条件的,你找起来还是不方便。

红房子(.*?)绿房子

XPath就是告诉你,这个建筑在北京市——海淀区——中关村——15号街——那栋黄色的建筑,你可以马上找到对应的建筑。如果一个地名只有一个地方有,那么你更可以简化成“中关村——15号街”

//北京市/海淀区/中关村/15号街[@房子颜色=黄色]/text()
//中关村/15号[@房子颜色=黄色]/text()

也许在这里你还没能体会到他们之间的差别,但是相信我,当你遇到复杂的html分析的时候,你会发现它的厉害之处的。比如下面的例子,我想把Hello,my world!打印出来用正则需要考虑一下吧?但是用XPath就简单很多

<div id="class">Hello,
    <font color=red>my
    world!
<div>

XPath语法

XPath你只需要知道这些语法

// 根节点
/ 下一层路径
[@XX=xx] 特定的标签

/text() 以文本返回
/@para 返回参数

string(.) 当前层的所有内容作为一个字符串输出
start-with(str) 所有以这个str开头的标签

下面是一个简单的例子

from lxml import etree
html=
'''
<div id="test1">content1</div>
<div id="test2">content2</div>
<div id="test3">content3</div>
'''

selector = etree.HTML(html)
content = selector.XPath('//div[start-with(@id,"test")]/text()')
for each in content:
    print each

html1=
'''
<div id="class">Hello,
    <font color=red>my</font>
    world!
<div>
'''

selector = etree.HTML(html)
tmp = selector.XPath('//div[@id="class"]')[0]
info = tmp.XPath('string(.)')
content2 = info.replace('\n','')
print content2

输出:

content 1
content 2
content 3
Hello,        my        world!  

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容