Python爬虫学习(一)

Python爬虫学习(一)

在这个暑假之前,我学了一下简单的python爬虫,但忘得差不多了,这几日决定复习一下,顺便写下了Python爬虫的入门。

爬虫是什么

在我们学习python爬虫之前,我先来认识一下什么是爬虫?
网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。
注:来自于维基百科网络爬虫
简而言之就是可以自动的去访问万维网的机器人。 还可以把自己访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索或者是用户做数据的统计分析等 朋友

Python爬虫的相关库

urllib模块

urllib是python自带的web模块,包含了平常我们使用的大多数功能

request模块

request是一个比urllib功能更多的模块,他支持了HTTP协议,cookie会话,文件上传等,使用requests可以方便的对登录的账号使用session保持会话,此外还能自动解析gzip压缩的网页,十分强大。

selenium模块

selenium 模块原来是用来做web测试的,它可以模拟不同浏览器,因此使用 selenium 模块,配合不同浏览器的 driver,就相当于在浏览器中打开链接,并可以对 dom 进行操作,加载异步的数据。

我主要讲request模块,他的文档在http://docs.python-requests.org/en/master/ ,因为不是Python自带的所以需要自己安装,安装命令

pip install requests

注: 第三方库是指其他人写的库。

python的使用工具

python的使用工具分两种,一种是文本工具,比如IDLE NotePad++ sublime Text,另外一种集成类工具工具,比如pycharm wing visual studio

request和respone的区别

当我们打开浏览器,输入URL的时候,我们的浏览器在向web服务器发送了一个Request请求,web服务器接到了requests后进行处理,生成相应的Respone ,返回给浏览器。

Requests第三方库

Request第三方库是Python唯一的HTTP包,使用Request发送网络请求非常简单。举个栗子

import requests.get
res = requests.get('https://www.baidu.com')

只需要这样就可以发送网络请求。除了发送HTTP get请求,还可以发送put,delete,head,options,post请求,如果你不知道这些方法是什么意思,出门左拐网络类去看吧。这里就不做介绍了

我们通过get请求可以获取到服务器相应内容,和头部信息。

获得的内容是:

<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head>
<meta http-equiv=content-type content=text/html;charset=utf-8>
<meta http-equiv=X-UA-Compatible content=IE=Edge>
<meta content=always name=referrer>
<linkrel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css>
<title>ç\x99¾åº¦ä¸\x80ä¸\x8bï¼\x8cä½\xa0å°±ç\x9f¥é\x81\x93</title>
</head> 
<body link=#0000cc> 
............

为什么我们获取下来的内容是乱码呢??因为Request会自动解码来自服务器的内容,当请求发出后,服务器给了回应,会在header中根据charset来进行解码,如果不存在charset则默认编码是ISO-8859-1,这样的编码并不能解析中文

{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Tue, 22 Aug 2017 02:25:36 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:24:45 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

而百度的头部信息中是没有charset,我们需要对他的编码进行设置,我们可以用apparent_encoding它是从是从内容中分析出的响应内容编码方式,原则上更加准确

res.encoding = res.apparent_encoding 
print(res.text)

获取内容是:

    <!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8>
<meta http-equiv=X-UA-Compatible content=IE=Edge>
<meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css>
<title>百度一下,你就知道</title></head> <body link=#0000cc> 
<div id=wrapper> 
<div id=head> <div class=head_wrapper> 
<div class=s_form> 
<div class=s_form_wrapper> <div id=lg> 
<img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> 
<form id=form name=f action=//www.baidu.com/s class=fm> 
<input type=hidden name=bdorz_come value=1> 
</div>
......

简单的request就这些,其他的操作可以参考request的官方文档

小栗子

我们来尝试爬取从国家地理中文网中爬取一张图片


image.png

我们可以通过这张图的链接爬取,获取内容。

res = requests.get('http://image.nationalgeographic.com.cn/2015/0121/20150121033625957.jpg')

因为我们要保存一张图片,我把他保存到photo路径下的abc.jpg

path = "../photo/abc.jpg"

我们打开这个文件,对这个文件进行写入

image.png
with open (path,'wb') as f:
     f.write(res.content)
f.close()

这样图片就保存到了photo文件夹中

完整的代码如下:

import requests
import os
path = "../photo/abc.jpg"
try:
    res = requests.get('http://image.nationalgeographic.com.cn/2015/0121/20150121033625957.jpg')
    if not os.path.exists(path):
        with open(path, 'wb') as f:
             f.write(res.content)
        f.close()
    else:
        print("文件存在")
except:
    print("获取失败")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,695评论 6 28
  • 课程目标 爬取百度百科Python词条相关多个页面的词条和简述 并将数据以表格的形式保存成html 程序包含五个模...
    牵丝笼海阅读 453评论 0 2
  • 情人,一个多么美妙的词汇。问世间情为何物?一个“情”字曾令世间多少男男女女为之痴迷,为之心碎。古有梁山伯祝英台情深...
    范丹霞阅读 421评论 1 7
  • 今天在图书馆门口,很多毕业生在拍照,看着他们把博士帽扔起来一起喊“我们毕业了”的时候,突然心里有那么一丝不舍难过和...
    wwwbb阅读 117评论 3 1
  • 每个人不知道是否都有着两面性,就我而言我感到自己的两面性还有点明显。 乐观时总觉得自己老幸运了,总能抽上奖。悲观时...
    艾米黎妈阅读 394评论 0 0