初识爬虫(0)

untitled.png

爬虫的这些文章就算是我的复习吧!今天开始!!

什么是爬虫?

老师说,本质上就是利用程序在网上获得对我们有价值的数据。

我个人理解:
1、“虫”
爬虫就是这些能够让我们获得数据的一类小程序,就是个工具。希望能够掌握好,做一个遵守互联网伦理道德的虫虫。
2、“网”
对互联网,html要有认识,才能掌握好工具。

浏览器的工作原理(5步):
在浏览器输入网址(也可以叫URL)---- 浏览器向服务器传达了我们想访问某个网页的需求(请求)---- 服务器把想要的网站数据发送给浏览器(响应)---- 浏览器会把这些用计算机语言写的数据翻译成你能看得懂的样子(解析数据)---- 我们在拿到的数据中挑选出对我们有用的数据(提取数据)---- 我们(存储数据)。

爬虫可以干什么?

上述人机互动的过程中,爬虫可以帮助我们完成绝大部分工作

1、爬虫可以模拟浏览器去向服务器发出请求
2、服务器响应后,爬虫程序还可以代替浏览器帮我们解析数据;
3、爬虫可以根据我们设定的规则自动批量提取相关数据;
4、爬虫可以批量地把数据存储到本地。

所以,人除了起心动念,有逻辑地设计好规则后,剩下的爬虫都能替我们干了。想想都舒服!

知识点1:requests库

用途:
获取数据
requests库可以帮我们下载网页源代码、文本、图片,甚至是音频(“下载”本质上是向服务器发送请求并得到响应)。

requests.get()方法
用法举例:
import requests #引入requests库
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是所需数据所在的网址,然后服务器对请求作出了响应。响应返回的结果赋值在变量res上

知识点2:Response对象的常用属性

因为Python是一门面向对象编程的语言。在爬虫中,理解数据是什么对象非常、特别、以及极其重要。只有知道了数据是什么对象,才知道对象有什么属性和方法可供我们操作。

判断数据的对象类型方法是:
import requests
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
print(type(res)) #打印变量res的数据类型
其结果是:<class 'requests.models.Response'>。这代表着:res是一个对象,属于requests.models.Response类。res是一个Response对象,我们也就可以去了解它的相应属性和方法了。

Response对象的常用属性

1、response.status_code
作用:
检查请求是否成功
举例:
import requests
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png')
print(res.status_code) #打印变量res的响应状态码,以检查请求是否成功

1.png

2、response.content
作用:
能把Response对象的内容以二进制数据的形式返回,适用于图片、音频、视频的下载
举例:下载一张图片
import requests # 引入requests库
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') # 发出请求,并把返回的结果放在变量res中
pic = res.content # 把Reponse对象的内容以二进制数据的形式返回
photo = open('ppt.jpg','wb') # 新建一个文件ppt.jpg,这里的文件没加路径,它会被保存在程序运行的当前目录下。图片内容需要以二进制wb读写。在python基础中open()函数里接触过。
photo.write(pic) # 获取pic的二进制内容
photo.close() # 关闭文件

3、response.text
作用:
可以把Response对象的内容以字符串的形式返回,适用于文字、网页源代码的下载。
举例:下载小说
import requests #引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md') #下载《三国演义》第一回,我们得到一个对象,它被命名为res
novel=res.text #把Response对象的内容以字符串的形式返回
print(novel[:800]) #打印小说(考虑到整章太长,只输出800字)

4、response.encoding
作用:
能帮我们定义Response对象的编码
举例:
import requests #引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/sanguo.md') #下载《三国演义》第一回,我们得到一个对象,它被命名为res
res.encoding='gbk' #定义Response对象的编码为gbk
novel=res.text #把Response对象的内容以字符串的形式返回
print(novel[:800]) #打印小说的前800个字
其打印出来的结果是乱码。因为原题目当中设置的编码规则默认为utf-8,如果硬要以gbk形式定义它,就会出现最终的乱码结果。
使用条件:
只有当结果显示为乱码时,才返回来试验以其他编码方式定义并确认结果。

Robots协议

是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。

协议使用方法
查看网站的robots协议,在网站的域名后加上/robots.txt就可以了。
协议里最常出现的英文是Allow和Disallow,Allow代表可以被访问,Disallow代表禁止被访问。

好吧!出发,冲浪去(胆子够大,给自己点赞)!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容