[爬虫]基本流程

PS : 本文介绍编写一个 Python 爬虫的完整的基本流程,重点在于学习「如何找到并分析响应报文」,而不在于爬虫代码与框架的学习。故此仅适合于爬虫的初学者。

首先,把整个爬虫的流程概述一遍。简单概括一下流程:(针对 Chrome 浏览器)

1. 通过控制台找到包含内容的响应报文,
2. 分析响应报文的请求头部,
3. 设置请求头部启动爬虫并解析报文。

下面通过实例「给定待查询的公司名,爬取他在企查查的网址」来详细地介绍每个流程。

一、通过控制台找到包含内容的响应报文

选取一个公司「中导光电设备有限公司」去企查查网站上手动查询公司的过程。

Step1: 按 F12 打开控制台后,选到 Network 选项卡中。在查询框输入公司名称。点击查询

Step1:按 F12 打开控制台后,选到 Network 选项卡中。在查询框输入公司名称。

Step2: 然后 Network 中输出发起查询请求后所产生的一堆响应报文。我们先从返回文件类型为 doc 的响应报文,开始入手。

首先,通过 Preview 可视化响应报文,更方便查看是否包含所需的内容。

Step2.1:查看 Preview 选项卡,查看是否包含所需的内容

其次,找到后,再在 Response 选项卡中,从代码层锁定内容的位置。

Step2.2:在 Response 选项卡中,从代码层锁定内容的位置。

从上图发现,在代码层也找到了内容的位置。此时,我们就能确定这是我们所要的响应报文了。

注意事项:有些数据是通过 ajax 异步加载的,故此不在 Doc 报文中。此时,需要选择 XHR 报文中,找出所需的数据。

二、分析响应报文的请求头部

Step3: 在锁定了响应报文后,我们通过 Headers 选项卡,获得请求该响应报文的头部。在图中,我已圈出一般重点观察的字段。

Step3:获得请求该响应报文的头部

下面讲一下一些常用字段的在爬虫中的作用。

Request URL:决定了爬虫发送的请求 url,得到请求 url 是 原本的官网 url 后面 + /search?key=<公司名>。其中在图中看到是一串代码,其实就是公司名进行了特殊的编码后的结果。这可以通过浏览器地址栏确认或者下面的 Query String Parameters 确认。

Request Method:决定了爬虫发送请求的方法。

user-agent:简单来说,指出浏览器类型、操作系统及版本等等标识信息。填写这个是让爬虫伪造成浏览器。无需改动,直接引用。

referer:HTTP 来源地址,用来表示从哪儿链接到目前的网页。在 step2.2 图中 href 是一个不完整的 url,此时就需要用到这个字段。即该公司的完整 URL = https://www.qichacha.com/firm_297af5b193c59e616090ec348836d810.html

Query String Parameters:发送请求报文时携带的请求数据。由于请求方法是 get,所以直接显示在请求 url 中;如果是 post 方法,程序中就要封装成 json 形式。

cookie:如果爬取的网站需要登陆时,需要这个字段。可以看到数据很长,其中有些是必要的,有些是不必要的,这是需要分析的。如果懒得分析,就全部复制粘贴。

至于其他一些字段比较不常用,就不介绍了。(我也没用过,让我介绍我也不会)

三、设置请求头部启动爬虫并解析报文

通过上面的分析,我们已经摸清数据的位置,请求报文的头部。接下来就是设置请求头部启动爬虫。我就直接上代码,通过注释一点点来讲解。语言:Python3

# 设置请求头部
company_name = '中导光电设备有限公司'
request_url = 'https://www.qichacha.com/search?key={}'.format(company_name)        # 将公司名直接链接上去
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                  '(KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',        # 直接复制过来
}
response = requests.get(url=request_url, headers=headers)                          #发送请求
# print(response.text)  #输出响应报文,用于验证请求是否成功。被封了或者headers设置错误,就访问失败

# 利用 BeautifulSoup 解析报文,锁定数据的位置并提取出来
# 自行学习 bs4,css 选择器的语法
soup = BeautifulSoup(response.text, "lxml")
# 其中,搜索返回是名称相近的公司列表,我们只取第一条,因为第一条是匹配度最高的
href = soup.select('.m_srchList tbody tr:nth-of-type(1) td:nth-of-type(2) a')[0].get('href')
print('https://www.qichacha.com' + href)

=================
output : https://www.qichacha.com/firm_297af5b193c59e616090ec348836d810.html

上面代码就是最基本的爬虫代码:首先设置请求头部,然后用 BeautifulSoup 解析报文。

总结

本文目的是「学会如何去找到对应的响应报文、找到数据的位置和分析响应报文请求头部」。关于爬虫库、框架使用网上一堆资料,在这就不赘述。

注意事项

由于实例是一个最简单的爬虫,有很多实际问题没有遇到。但还是得说一说注意的细节:

  1. 爬虫速度太快,容易被发现而封 ip。解决方法有很多:1)每次爬虫完适当 time.sleep(x) 休息一下;2)设置代理
  2. 找出只要不被封一定会存在的元素作为基准,来判断爬虫是否被封(有些封并不是访问不了,而是提示需要验证)
  3. 写代码的时候,最好及时输出每一步的结果,验证每步操作是否成功
  4. 针对 ajax 异步加载的报文(即 XHR 报文),最好先将它的 Request URL 输入到地址栏,验证是否能访问。如果不能,意味着在设置 headers 时需要明确注明是异步请求。具体参考:爬虫问题 | 记录与总结 中的 Q2.
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354

推荐阅读更多精彩内容

  • 爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...
    小皇帝s阅读 688评论 0 1
  • Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架,建立于...
    Hsinwong阅读 22,394评论 1 92
  • 1.做自己爱做的事。 2.爱自己该爱的人。 3.交自己想交的朋友。 4.去自己想去的地方。 那么余生请多指教。 二...
    陵仲阅读 246评论 0 1
  • 雪,我把这场乱舞的鹅毛般大雪称之为“酝酿许久的雪”,不料同事咋言 “春雪”,一语惊醒梦中人。。。。倒不如合称...
    飘落的咖啡香阅读 338评论 0 1
  • 下午工作做完后,还有时间,而我竟然也还有精力来继续做昆达里尼瑜伽。 这是套很舒服的功法,基本上就是火呼吸,可能是因...
    336的蓉阅读 181评论 0 0