Java Jsoup 爬虫模拟登陆

最近想把之前用python+selenium写的一个自动提交表单的插件优化一下,实在是因为自学的python基础比较渣,需要处理的异常处理不到位,总之代码不是很健壮,就想着还是用java来写吧,而后不知道从哪里看到Jsoup这个工具,瞬间惊为天人,真的是很方便,API调用也简单易用,下面简单写一下这个jar的使用方法。

开发工具: eclipse
依赖jar: jsoup-1.11.3.jar
其他工具: Chrome / IE9+

关于开发

可以取官网 (https://jsoup.org/)了解一下,例子都比较简单,上手容易。

了解登录逻辑

首先需要了解我们需要爬取或者模拟的登录逻辑。
以开源中国(https://www.oschina.net/)为例吧。(为什么?因为我现在正好打开的这个网站。)

登录页面

Chrome新建无痕窗口,打开调试工具(F12),选择Network,勾选 Preserve log,防止页面重定向而失去log,输入登录url(https://www.oschina.net/home/login),会得到如下信息。

F12 - Network.png

分析需要获取的请求信息:

  1. login
Request
Request URL: https://www.oschina.net/home/login
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36
Response
Set-Cookie: aliyungf_tc=---; Path=/; HttpOnly
Set-Cookie: _user_behavior_=---; Domain=.oschina.net; Expires=---; Path=/; HttpOnly
  1. captcha
Request:
Request URL: https://www.oschina.net/action/user/captcha
Cookie: aliyungf_tc=---; _user_behavior_=---
Response:
Set-Cookie: _reg_key_=---; Domain=.oschina.net; Expires=---; Path=/; HttpOnly

可以发现这里请求用的Cookie是上面login的response。

账户密码登录

在页面上输入账号密码,尝试登录,观察Network。
我们发现页面跳转到主页,Request Cookie多了一些未知的信息,所以应该是登录的form表单在post提交之后,页面被重定向时Response的,然后跳转到主页。

Cookie: aliyungf_tc=---; oscid=---

这里我们就需要继续获取form表单post提交的信息了。

Request:
Request URL: https://www.oschina.net/action/user/hash_login?from=
Request Method: POST
email: ---
pwd: ****************
verifyCode: 
save_login: 0
Cookie: aliyungf_tc=---; _user_behavior_=---; _reg_key_=--

Response:
Set-Cookie: oscid=""; Domain=.oschina.net; Expires=---; Path=/; HttpOnly
Set-Cookie: oscid=---; Domain=.oschina.net; Path=/; HttpOnly

可以看到密码是加密过的,退出登录返回到登录页面,查看页面源码,好吧,这段逻辑几乎没法看,手动尝试发现,密码采用的是Hash Sha1加密方式。

至此,登录逻辑解析完成。

其他

接下来沿着业务逻辑进行编码就可以。
其他的操作也就是类似的流程,先理清楚逻辑在编写代码就可以完成。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • 会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Se...
    chinariver阅读 5,613评论 1 49
  • 1,在redis的目录下执行(执行后就作为windows服务了) 2,安装好后需要手动启动redis 3,停止服务...
    IT小池阅读 735评论 0 0
  • 在人生中的某一时刻,会有一种大彻大悟的感觉,会忽然的随性,一直那样多好啊,,,生命中有那么多美好的东西,却留也留不...
    写个好文案阅读 237评论 0 0
  • 通过 case 来判断取哪个字段例如 如果 cancel_flag =1 那么 使用 got_amount 的值 ...
    燃英阅读 3,842评论 0 1
  • 妈妈—— 当我七十岁的时候 我还能天天的 叫您一声 妈妈
    我是宣阅读 302评论 14 30