2018-05-08 D1本书主要内容

    自我理解:简短的介绍下本书的内容,本书一共分为15章,内容如下:

第一章

介绍了配置环境,非常的详细具体,设计Linux,Mac, Linux三大平台。

第二章

 介绍了学习爬虫之前需要了解的一些知识,例如HTTP, 爬虫, 代理的基本原理,网页基本结构等内容,适合没有基础的同学。

第三章

介绍了最基本的爬虫操作,一般学习爬虫都是从这一步开始学的,主要介绍了两个基本的库(urllib和requests)和正则表达式的基本用法

第四章

介绍了页解析库的基本用法,包括Beautiful Soup,XPath, pyquery的基本用法。

第五章

介绍了数据存储的常见形式及存储操作,包括TXT,JSON,CSV各种文件的存储,以及关系型数据库MySQL和非关系数据库MangoDB,Redis存储的基本存储操作。

第六章

介绍Ajax数据爬取的过程, 一些网页的数据可能是通过Ajax请求API接口的方式加载的,用常规方法无法爬取,本章主要是介绍Ajax进行数据爬取的方法。

第七章

介绍了动态渲染页面的爬取,现在越来越多的网站内容经过了JavaScript渲染得到的,而原始HTML文本可能不包含任何有效内容,而且渲染可能涉及某些JavaScript加密算法,可以使用Seleminm,Splash等工具实现模拟浏览器进行爬取数据的方法。

第八章

介绍了验证码的相关处理方法。验证码是网站反爬虫的重要措施,  图形验证码,极验验证码,点触验证码,微博宫格验证码。

第九章

介绍了代理的使用,限制IP也是网站反爬虫的重要措施,我们可以用代理池维护伪装爬虫,还使用了ADSL拨号代理的使用方法。

第十章

介绍了模拟模拟登录爬取方法,本章介绍了最基本的模拟登陆方法以及维护一个Cookies池的方法。

第十一章

介绍了APP的爬取方法,包括基本的Charles,mitmproxy抓包软件的使用。还介绍了mitmdump对接Python脚本进行实施抓取的方法,以及使用Appium完全模拟手机App的操作进行爬取的方法。

第十二章

介绍了pyspider爬虫框架及用法。

第十三章

介绍了Scrapy爬虫框架及用法。

第十四章

介绍了分布式爬虫的基本原理及实现方法

第十五章

介绍了分布式爬虫的部署及管理方法。 结合了Scrapy, Scrapyd, Docker, Gerapy等工具介绍了分布式爬虫的部署和管理实现。


第1章 开发环境配置

这章写的真好。简单明了,没那么多事。

1.1 Python3的安装

已装

1  Anaconda安装, 提供了Python科学计算环境,自带Python以及常用的库。

1.2请求库的安装

爬虫可以分为简单三步:抓取页面,分析页面和存储数据

在抓取过程中,我们需要模拟浏览器向服务器发出请求。用到的库requests, Selenium和aiohttp等

1.2.1 requests的安装

已安装

1.2.2 Selenium的安装

Selenium是一个自动化测试工具,利用它我们可以让浏览器执行特定的动作,比如点击,下拉等操作。对于一些JavaScript渲染的网页来说,这种方法特别有效。

pip install selenium 安装成功

1.2.3 ChromeDriver的安装

先安装Chrome浏览器, 版本66,然后根据版本号下载ChromeDriver

ChromeDriver是驱动,

from selenium import webdriver

browser = webdriver.Chrome()

会弹出一个空白的Chrome浏览器

1.2.4 GeckoDriver的安装

它是FireFox浏览器的去佛那个,不用装

1.2.5 PhantomJS的安装

PhantomJS是一个无界面的,可脚本变成的WebKit浏览器引擎,它原生支持多种Web标准:DOM操作,CSS选择器,JSON,Canvas以及SVG。

Selenium支持PhantomJS,运行效率还很高,还支持各种参数配置,使用非常方便。

from selenium import webdriver

browser = webdriver.PhantomJS()

browser.get('http://www.baidu.com')

print(browser.current_url)


1.2.6 aiohttp的安装

requests库是一个阻塞式HTTP请求库

aiohttp是一个提供异步Web服务的库。关键字 async/await

字符编码检测库cchardet     加速DNS的解析库aiodns

后面会用到这个库,比如维护一个代理池,用异步方式检测大量代理的运行情况,能极大的提高效率



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,392评论 25 707
  • 每日学习纪录:ORID这是一个思考框架,利用 ORID 整理今天的思绪。 Objective关于今天的课程, 你记...
    awsome365阅读 1,980评论 0 0
  • 移动互联网的发展,带动了新媒体的岗位,各大小公司到了现在似乎都已经要标配一个新媒体运营了,好像你没有新媒体运营你都...
    书刀阅读 1,193评论 3 19
  • 第八章继续延续第七章讲证据的效力,文章主要从个人观察、研究报告和类比三方面讲述如何提高证据的效力。 ...
    jh小关阅读 220评论 0 0
  • •后来我一直觉得自己是个不善笔墨的人。即使当年手握笔杆时总如同不用思考般顺畅。 •我甚至胆小到不敢猜测你口中所言之...
    Rreiid阅读 275评论 0 0