爬虫学习（1）——爬虫的基本概念

原为地址：https://blog.csdn.net/weixin_41779359/article/details/86184148

感谢原作者：昵称用刘昊也不行的分享，很实用的能跟着一步一步做的教程，容易理解

简介：

编程就是通过写代码，来让计算机实现你的想法。你解决问题的想法，就会影响你编程时写的代码。

爬虫的目的是从网上获取对你有需要的数据，那么目的确定，思路就能确定。思路确定，代码就能确定。

爬虫的思路就是：

1、获取url（网址）。2、发出请求，获得响应。3、提取数据。4、保存数据。

1、什么是爬虫

通俗理解：爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来，然后使用一定的规则提取有价值的数据。

在爬虫的思路中，需要获得url，发送请求获得响应，提取数据。有时发送请求不只是发送一次请求，提取数据不仅是提取一次数据，需要多次提取。那这是就需要要定义相对应的函数，比如定义一个发送请求的函数。

这是一个通用的代码，每一行代码的意思我已经标注出了它们的含义。每次写爬虫代码的时候，基本上都可以把这段代码复制上去，有时候需要稍加修改一点，那就是如果我们请求的网页数据是动态生成的，那么return后面的r.text需要改成r.json()。大多数时候是根本不需要修改的。

对于爬虫这件事情，就是从网上获取数据，那么相对应的代码就不会有太大的变化。比如你爬取58同城的求职和爬猫眼电影的电影数据的代码并不会有太大的差别。原作者写过的每个关于爬虫的代码，基本60%以上的部分是一样的

2、实现过程归纳

爬虫的思路就是：

1、获取url（网址）。2、发出请求，获得响应。3、提取数据。4、保存数据。

1.获取url（网址）：

url是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。就是我们平时所说的网址。

2.发送请求，获得响应

服务器里有大量的信息，浏览器是没有信息的，它只负责发送请求和得到响应。但是我们写爬虫并不是通过浏览器获得数据，而是通过python写的爬虫代码来获得数据。但是如果服务器识别出了发送给它的请求时爬虫发出的，那么服务器就会停止返回数据。这就需要写一些代码将我们写的爬虫包装成浏览器，向服务器发送请求，并获得响应。响应就是该网页的源代码，可以在网页中右击选择网页源代码看到。

3.提取数据。

提取数据就是在第二步中，我获得了服务器给我的响应，但这些响应大多数不是我想要的，我只需要其中的一部分，比如说服务器给我返回了如下所示的信息

但这些信息看起来眼花缭乱，我只想要下图所示的信息：

或者如下图所示看起来更整齐的数据，这个过程就需要进行数据的提取，也是爬虫最需要设计的地方。

4.数据的保存

数据的保存就是将第三步提取的信息保存到Excel或数据库中，方便下次使用时查看和分析。数据保存这一步需要写的代码几乎是固定不变的，没什么技术含量，也不需要刻意去记，每次使用复制粘贴就可以。

总结

爬虫就四步，1、获得url。2、发送请求，获得响应。3、提取数据。4保存数据。

第二步和第四步过程的代码几乎是不变的，不需要多深的理解，看几个例子就可以记下来了，每次写代码这两个部分可以直接复制。第三步提取数据是每次写爬虫变化最大的地方，也是写爬虫代码最需要时间的和思考的地方，我觉得也是爬虫的核心，需要认真学习和理解。第一步获得url主要就是看翻页之后网址的变化，然后根据变化的规律去把每一页的url构造出来。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353

爬虫学习（1）——爬虫的基本概念

1、什么是爬虫

2、实现过程归纳

推荐阅读更多精彩内容