网络爬虫初识

爬虫就是从网页中爬取数据的,这些数据可以是网页代码、图片、视频、音频等等,只要是浏览器网页中可以呈现的,都可以通过爬虫程序获取,针对性的大量数据的采集工作,我们会使用爬虫程序进行自动化操作。

1.第一个简单基础的小爬虫

    # -*- coding:utf-8 -*-
    # 添加注释,让python源代码支持中文

    improt urllib2
    # 引入需要的模块
  
    # 访问目录网站,获取响应数据
    response = urllib2.urlopen(“https://www.taobao.com”)
          #这一步可以拆分为:2步
          #1.定义自己的请求对象
          my_request=urllib2.Request(url)
          #2.将请求对象发送
          response=urllib2.urlopen(my_request)

    # 打印展示获取到的数据
    print (response.read())  
    #read是读取response,只能读一次,
    #如果再次读取,会继续读取,造成读取不到数据。

注意:
python3默认情况下是unicode编码的,所以对于中文、数字、字母、特殊符号的支持是一致的!
python2默认情况下是ascii编码的,所以对于中文的支持就不会太友好了!所以在默认情况下,源代码中不会识别中文,为支持中文,可以在源代码的头部[第一行/第二行]添加支持中文的标准注释[# -- coding:utf-8 -- ]。

2.爬虫与反爬虫

一般网站比较欢迎通用爬虫(类似搜索引擎的爬虫),通用爬虫可以引入新的客户流量,但不能更好的采集数据,网站也不欢迎爬虫去抓取大量信息数据,所以都有反爬机制,根据数据的珍贵程度,反爬机制强度也不一样。

    1. 需要设置请求头信息

完整的请求头信息
Host:           访问地址
Connection: keep-alive   保持长连接
Content-Length:     文本大小
Accept:         接收数据格式
Origin: http://fanyi.youdao.com
X-Requested-With:    请求的格式xml
User-Agent:   请求的浏览器信息,告诉网站自己不是爬虫
Content-Type:     文本编码格式
Referer:          反外链
Accept-Encoding:   接收返回信息的格式,默认压缩
Accept-Language:     接收的文本编码
Cookie:      ......

一般的请求,不用全部使用,只需要根据实际测试,添加必须的请求头信息。必要的有:User-Agent、Cookie、Referer 这三个。有些网站也会在请求头添加动态生成的额外请求头包含,需要注意破解添加。

    添加请求头的两种方式:注意中文的编码
    #1.直接把每一项的信息通过add_header逐一添加
    request.add_header("User-agent", user_agent)
    #2.把请求头信息包含在一个字典,直接赋值添加
    my_request=urllib2.Request(url,data=data,headers=header)
  • 2.请求方式里包含
    网页访问请求一般有 Get 和 Post 两种,Get 在url里包含数据,Post在表单添加请求数据。
        GET:
        #一般 Get 请求验证都包含在请求头。
        import urllib
        get_param = {
              "wd": keyword
        }
        # 重新编码,拼接到url里
        data = urllib.urlencode(get_param)
    
        POST请求:
        #urlib2的 GET 与 POST 请求差别在于是否包含data
        # post 请求有可能包含服务器反爬的信息要求,
        #  所以不仅要设置请求头,还要检查提交的表单是否有必要数据
        form_data={
            'i':n,
            'from':'AUTO',
        }
        request=urllib2.Request(url,data=data,headers=header)
    

3. 查看urlib2底层操作,设置代理和获取cookie

python内置模块提供了通用爬虫可以操作的Opener对象,但是如果一旦涉及到自定义的针对各种特定环境的操作,python内置的Opener对象就不能满足我们的需要了。需要自己定义对象操作。

  • 自定义opener

观察底层代码操作,无非就是通过HTTPSHandler创建了一个HTTPS协议的处理器对象,然后通过build_opener()函数构建了一个opener实现和指定服务器url地址之间的数据访问操作。鉴于此,我们也可以自定义openr的实现过程:

    import urllib2

    #定义访问地址
    request=urllib2.Request('https://www.taobao.com')

    #创建一个自定义的Handler对象
    http_handler=urllib2.HTTPHandler()

    #构建一个opener对象
    http_opener=urllib2.build_opener(http_handler)

    #发送请求
    response=http_opener.open(request)

    #当我们需要使用代理服务器时,既可以使用代理服务器对象
    #构建一个可以操作的代理服务器Handler对象替代原来的handler对象
    handler=urllib2.ProxyHandler('{"http": "117.90.1.192:9000"}')
    有账号密码时({"http":"admin:123123@110.73.8.153:8123"})
  • 获取cookie信息

      1. 获取展示cookie
      import urllib2
      #cookie模块
      import cookielib
    
      #创建一个cookie核心对象
      cookie=cookielib.CookieJar()
    
      #创建一个自定义的Handler
      cookie_handler=urllib2.HTTPCookieProcessor(cookie)
    
      #创建一个可以操作的cookie的opener对象
      cookie_opener=urllib2.build_opener(cookie_handler)
    
      #发送请求
      response=cookie_opener.open("https://www.baidu.com")
    
      ######重点不在获取到什么数据,而在于cookie中出现了什么数据
      for item in cookie:
          print("%s-%s" % (item.name, item.value))
          # "{} - {}".format("hello", "world")
    
      1. 将获取的cookie保存到文件里
      #只改变了创建的cookie队象的函数
      #创建一个cookie核心对象,将cookie生成一个TXT文件。
      cookie=cookielib.MozillaCookieJar('baidu.txt')
    
      # 访问结束后~得到服务器响应——cookie数据就已经存在了,将数据保存到文件中
      cookie.save()
    
      1. 使用获的 cookie 信息
      #创建cookie核心
      cookie=cookielib.MozillaCookieJar()
    
      #从文件加载cookie数据
      cookie.load('baidu.txt')
    
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容