python3爬虫学习笔记

掘金随机最新100篇文章的分词

本人前端狗一名,也想追随人工智能的道路,于是在java、php、python的选择中徘徊,因为身边java和php的coder太多了,于是乎选择了python,学习python第二天发文;

因为我是前端,学习python基本算是毫无基础,习惯性搂一遍runoob,笼统过度,只是有印象,方便后期查找,基本的了解了之后,开始爬!!

python比较好的一点就是有非常强大且数量够多的库,所以大多数时候你只需要会用轮子而不需要造轮子;

我今天选择爬的网站是掘金:https://juejin.im,首页的最新随机文章

第一步:查看页面的渲染方式:

    首先要确定你要爬的网站是如何进行前端渲染的,我用的方式比较简单,用chrome打开目标网站,在页面中右键-》查看网页源代码,如果从源代码中能看到网站上所有的数据,就代表你可以使用传统的爬虫方式,反之则需要使用ajax的方式爬,如下图


掘金Ajax方式渲染页面,查看网页源代码时,只能看到固定的html和一堆东西,这类网站需要使用ajax的方式爬


这是简书的源代码,传统方式爬即可

PS:安全性的问题,我不太情书,但是从我现在掌握的技术来看,对于ajax方式的爬虫技术稍稍复杂一点点

第二步:查找数据接口

    已经确认目标网站的渲染方式,那么现在需要找到传输数据的接口,通常这类接口是都会暴露的,因为安全性问题,访问接口的时候可能会有header的验证,因为我们只是查看数据,并不存在ddos攻击或者其他的不法行为,所以,用自己浏览器真实的参数就可以

    先来找接口,chrome打开目标网站,F12->network->刷新页面,不出意外的话你会看到如下界面


chrome开发者工具

然后选择XHR,为什么选xhr不做过多的解析google、百度即可,这是ajax的一种方法,选择xhr后数据量会小很多


变这样了

这里发现的基本都是需要请求返回的数据接口,我的习惯是先看大的,为什么呢(因为我技术LOW啊,哈哈),不行就每个都点一次,总会发现的,哈哈


选择一个之后,看到的信息

因为我们要看数据所以这里选择Preview,如图


貌似有数据啊

因为掘金是滚动加载,所以我们继续向下滚动,对比一下每次加载数据的变化(这里为爬多数据准备,因为掘金首页每次只加载10条数据)


向下滚动页面后,我们发下有新数据进来

因为我对比过,就不发图了,每次请求的接口数据都一样,没有区别,就代表这,用户每次向下滑动页面请求的都是这个接口,但是返回的数据是不同的,这个应该是掘金后台进行的处理,咱们不需要管,换言之如果要获得更多的数据,多请求几次这个接口就可以了(切记是掘金首页的数据,因为其他栏目的方式和首页不一样)

接下来我们要查看具体的接口是什么?所需参数都有啥?

选择Headers标签


注意红框

这里的数据大多数同学应该能看明白

Request_url:请求的接口地址,这里是带参数的

Request Method:请求方式

Host:Host地址

Referer:触发接口的路由地址

User-Agent:浏览器信息

Query String Parameters :请求的数据

    sudi,ab, src 在Url中可以看到这些数据

以上就是我们需要的数据,数据请求的接口地址为:https://recommender-api-ms.juejin.im/v1/get_recommended_entry? ,现在我们基本分析完了,可以写代码啦

第三步:在python中实现功能

直接上代码

新手写的LOW

到此,爬完结束!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容