node爬虫-模拟登录(一)

执行环境 

windows 7 64位

node 5.8.0

最近在写有关模拟登录的模块,查了一些资料,很多都没有验证码这部分的处理,总结一下,我认为在写之前要理解爬虫的工作原理,理解了数据如何在浏览器与服务器之间进行交互,实现起来就简单了。

爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。当我们将学号、密码及验证码提交后,浏览器首先通过与服务器进行连接,确认我们填的信息正确后,服务器会生成一个sessionId来表示登陆成功的状态,并返回给浏览器,浏览器接受到SessionId之后,作为cookies值保存在浏览器,之后每次要获取登录后页面的数据时都会提交cookies值来验证是否已经登录。因此,获取cookies值是我们做爬虫很关键一步,这样才可以对登录后的页面数据进行爬虫,找到自己需要的数据。

一、准备工作:

1.安装superagent(一个的请求代理模块api,可处理get,post,put,delete,head请求)

npm install superagent

2.安装cheerio(装载已爬取的html网页,类似jQuery,方便获取网页指定数据。)

npm install cheerio

3.安装nodecr(解析验证码)

npm install  nodecr

二:分析网页cookies

首先在浏览器中输入正确的用户和密码进行登录,登录成功后服务器会发送生成的cookie值给浏览器,用来之后的浏览中验证登录身份。所以我们不仅需要利用post模拟登录,还要保存好其发送给我们的cookie值,在之后的请求中将cookie值设置在请求头中进行发送,以获取登录后的其它页面信息。可在控制台中进行查看分析。

三、分析post需要提交的字段

方法一:在同样的控制台页面下面我们可以看到我们需要post提交的字段信息。

方法二:可以查看源码,进行查找相应提交字段。

四、验证码处理

往往很多登录页面都需要验证码,我们该如何获取验证码,并对其进行解析呢?这就需要nodecr(前身为tesseract),它可以解析到验证码中的数字,本文的解析流程,首先获取登录页面的验证码并保存到本地指定目录,然后通过nodecr第三方工具进行解析得到相应验证码,之后与用户名、密码一并提交,进行模拟登录。部分截图如下:

1.保存过程

2.解析登录过程

注:(红色框中输入自己爬取网页的相应字段)

五。转码过程(可选)

有时候我们所要爬取的页面编码为GBK格式则不能正常显示,这时需要进行转码处理

六、登录成功后,这时就该cheerio上场了,cheerio操作类似jquery的用法,先将得到的页面用cheerio进行转载,之后对相应的数据进行处理,取得自己想要的数据。

模拟登录是最基础也最重要的部分,登录之后,我们便可以运用自己的知识对网页进行处理了,比如课表的爬虫,成绩的爬虫等等,你会觉得越来越有意思了。

详细代码:https://github.com/luhongchun/blog/tree/master/node_login

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,328评论 19 139
  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,166评论 45 523
  • 前言:最近发现自己在网络相关这一块基础很是欠缺,所以准备花时间了解一下,本文主要是讲http协议的一些基础,和一些...
    justCode_阅读 6,253评论 0 23
  • Http协议详解 标签(空格分隔): Linux 声明:本片文章非原创,内容来源于博客园作者MIN飞翔的HTTP协...
    Sivin阅读 10,604评论 3 82
  • 为了能够做到,自己想做的事。首先,我们应该先做什么呢? 长时间的消寂,似乎看着已经沉沦其中了。却忽然,制定了一个计...
    沈沈沉沉阅读 3,056评论 0 0