Python爬虫(1)- 初识Python爬虫

大一的时候,有一门课(Programming Techniques & Tools)教了好多杂七杂八的东西:各种IDE,Linux,C语言基础,一些常见数据结构,STL库,还有Python。那个时候刚学完C++,看见Python就像是看见了一个新的世界:整齐的代码格式,没有眼花缭乱的大括号,没有variable declaration,好灵活简单“好学”的一门语言(那时真是拿衣服了。。)!那门课教授在Lab里教我们用Python做了一个脚本可以用别人的email发给另一个人邮件,而且就是短短的几行代码而已!当时感觉这么六啊,Python一定得学好~

由于当时学Python时间不长(不到一学期的一半),所以学习的也不深,今年暑假在家闲着没事,又对网络爬虫很感兴趣,想用Python做几个爬虫小项目。于是重新拾起Python,一边读《Learning Python》一边码代码做练习,算是把基础又打了一遍(依然觉得代码还是很整洁,很喜欢这种风格)。然后就开始琢磨着开始爬虫啦!

什么是网络爬虫呢?

随着互联网的发展,人们在各种网络行为中产生了无数的数据:图片、音频、用户信息等各种数据充斥着当今的互联网世界。尽管Google、百度等等搜索引擎提供了获取用户想要的信息的途径,但是往往有很多不相干的网页混杂其中。这个时候,有效的网络爬虫就起到了重要的作用。如果把网络爬虫比作把一只蜘蛛放到一张网上,然后他可以获取网上的信息,是不是就形象了呢?来让我们看看网络爬虫的定义:

“网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中,更经常的被称为网页追逐着),是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。” ——取自百度百科

爬虫的实质

爬虫的实质就是模拟浏览器打开网页,获取网页中我们想要的那些数据。当你输给浏览器地址时,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析之后再发送给浏览器结果,包括html、js、css等文件内容,浏览器在解析之后再呈献给用户在浏览器上看到的结果。实际上呢,给用户看到在浏览器的结果就是由html代码构成的,负责展示,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要的资源:URL,文本,图片,音频等等。

爬虫的基本流程

发起请求:通过HTTP库向目标站点发起请求,也就是发送一个request,请求可以包含额外的header等信息,等待服务器相应。
获取相应内容:如果服务器正常相应,会得到一个Response,response的内容便是所获取的页面内容,类型可能是html、Json字符串、二进制数据(图片或者视频)等类型。
解析内容:得到的内容可能是html,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步处理。
保存数据:保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件。

Request包含了什么?

  • 请求方式:Get/Post
  • 请求URL
  • 请求的头部信息:user-agent,Host,Cookies等
  • 请求体,即携带的数据

Response包含了什么?

  • 响应状态:200代表成功,301是跳转,404Not Found,502服务器错误
  • 响应头
  • 响应体:如html、图片、二进制数据

能爬取什么数据?

  • 网页文本
  • 图片
  • 视频
  • 其他可以请求到的

如何解析数据:

  • 直接处理
  • Json解析
  • 正则表达式解析
  • BeautifulSoup解析处理
  • PyQuery解析处理
  • XPath解析处理
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容