爬虫基础

python爬虫基础

python requests常用库 

[文章链接](https://www.cnblogs.com/lilinwei340/p/6417689.html)

python2.x与3.x

urllib库在python2与python3中的区别

Urllib是python提供的一个用于操作url的模块。

在python2中,有urllib库和urllib2库。在python3中,urllib2合并到urllib库中,我们爬取网页的时候,经常用到这个库。

升级合并后,模块中包的位置变化的地方较多。

以下是python2与python3中常用的关于urllib库的变化:

1.在python2中使用import urllib2————对应的,在python3中会使用import urllib.request,urllib.error

2.在python2中使用import urllib————对应的,在python3中会使用import urllib.request,urllib.error,urllib.parse

3.在python2中使用import urlparse————对应的,在python3中会使用import urllib.parse

4.在python2中使用urllib2.urlopen————对应的,在python3中会使用urllib.request.urlopen

5.在python2中使用urllib.urlencode————对应的,在python3中会使用urllib.parse.urlencode

6.在python2中使用urllib.quote————对应的,在python3中会使用urllib.request.quote

7.在python2中使用cookielib.CookieJar————对应的,在python3中会使用http.CookieJar

8.在python2中使用urllib2.Request————对应的,在python3中会使用urllib.request.Request

9.cookielib 用 http.cookiejar 代替

10.print " "  用 print(" ") 代替

11.urllib2.URLError 用 urllib.error.URLError 代替

12.urllib2.HTTPError 用 urllib.error.HTTPError 代替

13.except urllib2.URLError, e:  用  except urllib.error.URLError as e: 代替

14.response.text返回的是Unicode类型的数据,

response.content返回的是buyes型也就是二进制的数据

参考:[文章](https://www.cnblogs.com/dplearning/p/4854746.html)

 简单测试爬行 

    from urllib.request import urlopen

    response = urlopen("http://www.baidu.com")

    a=response.read()

    print(a)//3.x版本print已经是一个函数,所以需要加括号

上述代码就可轻松爬行出baidu的网页源码

首先我们调用的是urllib2库里面的urlopen方法,传入一个URL,urlopen函数是有三个参数的,urlopen(url,data,timeout)

url为需要打开的网址

data为要传输的数据如post或者get参数

timeout延迟设置

headers设置模拟浏览器

1. 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性,agent就是请求的身份,如果没有写入请求身份,那么服务器不一定会响应,所以可以在headers中设置agent。

防盗链的时候服务器会识别headers中的refer是不是它自己,如果不是,服务器不会响应,所以我们需要在headers加入refer。例:

        headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5;  

         Windows NT)','Referer':'http://www.zhihu.com/articles' }  

代理设置

2. 假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理。代码如:

        import urllib2  

enable_proxy = True

        proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-  proxy.com:8080'})  

        null_proxy_handler = urllib2.ProxyHandler({})

        if enable_proxy:  

        opener = urllib2.build_opener(proxy_handler)  

        else:  

        opener = urllib2.build_opener(null_proxy_handler)  

        urllib2.install_opener(opener)  

timeout延迟

3. 有些网站等待超时,为了解决一些网站实在响应过慢而造成的影响,用到timeout参数

        import urllib2

        response = urllib2.urlopen('http://www.baidu.com', timeout=10)

# python字符串str和字节数组相互转化方法 #

    # bytes object 

    b = b"example"

    # str object 

    s = "example"

    # str to bytes 

    bytes(s, encoding = "utf8") 

    # bytes to str 

    str(b, encoding = "utf-8") 

    # an alternative method 

    # str to bytes 

    str.encode(s) 

    # bytes to str 

    bytes.decode(b)

爬行糗事百科

贴脚本:

    #coding:utf-8

    import requests

    import base64

    import re

    url='https://www.qiushibaike.com/'

    s=requests.Session()

    r=s.get(url)

    b=r.text

    b=re.findall(r'(<div class="content">([\s\S])<span>([\s\S]){3}.*([\s\S]){2}</span>)+([\s\S])',b)

    #b =''.join(b)

    #a=matchaaa.replace(" "," ")

    f=open('1.txt')

    #b=matchaaa

    b=f.read()

    b=b.replace("<span>"," ")

    b=b.replace('<div class="content">'," ")

    b=b.replace("</span>"," ")

    b=b.replace("'\\n'"," ")

    b=b.replace("\\n"," ")

    if b:

        print(b)

备注解析

1.正则的search()函数,这个函数可以找到一个匹配的字符串返回,但是想找到所有匹配的字符串返回,需要使用findall,findall函数返回的总是正则表达式在字符串中所有匹配结果的列表,此处主要讨论列表中“结果”的展现方式,即findall中返回列表中每个元素包含的信息。因为返回形式为数组所以后面replace格式出了某些问题暂不明。

2.b=r.text 或者 b=r.content.decode()都可 格式class str

3.这里直接将抓取的b去replace报错,不明白为啥欢迎大牛指出,所以保存了一个文件中再读取,格式就正确。

4.\n 正则那里需要转义一个\

5.爬虫最好用beautiful soup,本文只是为了练习正则等python用法。


参考:[文章](https://cuiqingcai.com/954.html)

---

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容