(二)爬虫框架(4)——scrapy模拟登录

之前关于urllib的文章中,简单使用了模拟登录。过程是先使用POST登录获得登陆之后的信息,然后带着cookie信息访问其他页面,就可以跳过登录验证。在python原生的类库中可以使用这种方式。在scrapy中也封装了关于模拟登录的类库,这节就研究如何使用它。


第一种方式:暴力但是有效

直接在网页上登录,然后通过chrome浏览器的开发者工具,查找cookie的值,然后复制到代码中,之后的每一次请求都使用这个cookie值。使用人人网测试一下,首先在浏览器中登录一下,然后找到cookie值。


cookie值

然后把cookie复制下来,用字典存放。

class Login1Spider(scrapy.Spider):
   name = 'login1'
   allowed_domains = ['www.renren.com']
   start_urls = ['http://www.renren.com/']

   cookies = {...}    #里面是登录之后的cookie值

   #重写start_requests()方法,此时不会直接爬取start_urls中的链接,也不会运行parse()方法,需要重新指定页面解析的parse方法
   def start_requests(self):
       for url in self.start_urls:
           yield scrapy.FormRequest(url, cookies=self.cookies, callback=self.parse_page)

   def parse_page(self, response):
       with open("login1.html", "w", encoding='utf8') as f:
           f.write(response.body.decode("utf-8"))

运行爬虫,在项目中生成了login1.html,打开看一下<title>标签,可以看到是登录之后的个人主页。


第二种方式:适用于POST请求

模拟登录的行为,发送post请求,需要填入所有的表单数据。

class Login2Spider(scrapy.Spider):
   name = 'login2'
   allowed_domains = ['www.renren.com']
   start_urls = []

   def start_requests(self):
       url = 'http://www.renren.com/PLogin.do'
       yield scrapy.FormRequest(
           url=url,
           formdata={"email": "用户名", "password": "密码"},
           callback=self.parse_page)

   def parse_page(self, response):
       with open("login2.html", "w", encoding='utf8') as f:
           f.write(response.body.decode("utf-8"))

运行爬虫,在项目中生成了login2.html,打开看一下<title>标签,可以看到是登录之后的个人主页。


第三种方式:Post请求的升级版

很多post请求里面除了用户名和密码,还有一些其他的比如token等数据,每一次都是不同的。此时使用手动填入post数据就很麻烦了。解决办法:首先发送登录页面的get请求,获取到页面里的登录必须的参数,然后再发送POST请求进行登录。

class Login3Spider(scrapy.Spider):
   name = 'login3'
   allowed_domains = ['www.renren.com']
   start_urls = ['http://www.renren.com/PLogin.do']

   def parse(self, response):
       yield scrapy.FormRequest.from_response(
           response,
           formdata={"email": "用户名", "password": "密码"},
           callback=self.parse_page
       )

   def parse_page(self, response):
       print(response.url)
       url = "http://www.renren.com/880151247/profile"  # 大鹏的人人主页
       yield scrapy.Request(url, callback=self.parse_newpage)

   def parse_newpage(self, response):
       print(response.body.decode("utf-8"))
       with open("login3.html", "w", encoding='utf8') as f:
           f.write(response.body.decode("utf-8"))

运行爬虫,控制台上输出了登陆者个人主页,并且在项目中生成了login3.html,打开看一下<title>标签,可以看到是需要跳转的页面。
完整代码

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,135评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,317评论 3 397
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,596评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,481评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,492评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,153评论 1 309
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,737评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,657评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,193评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,276评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,420评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,093评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,783评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,262评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,787评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,427评论 2 359