爬虫第三周总结

什么叫“多任务”？
就是操作系统可以同时运行多个任务。(至少同时有3个任务正在运行)

单核CPU如何执行多任务？多核CPU如何执行多任务？
真正的并行执行多任务只能在多核CPU上实现，但是，由于任务数量远远多于CPU的核心数量，所以，操作系统也会自动把很多任务轮流调度到每个核心上执行。

并发：指的是任务数多余cpu核数，通过操作系统的各种任务调度算法，实现用多个任务“一起”执行
（实际上总有一些任务不在执行，因为切换任务的速度相当快，看上去一起执行而已）
并行：指的是任务数小于等于cpu核数，即任务真的是一起执行的

线程：python的thread模块是比较底层的模块，python的threading模块是对thread做了一些包装的，可以更加方便的被使用
线程-注意点：线程执行代码的封装通过上一小节，能够看出，通过使用threading模块能完成多任务的程序开发，为了让每个线程的封装性更完美，所以使用threading模块时，往往会定义一个新的子类class，只要继承threading.Thread就可以了，然后重写run方法

进程：一个程序运行起来后，代码+用到的资源称之为进程，它是操作系统分配资源的基本单元。
不仅可以通过线程完成多任务，进程也是可以的（进程间不同享全局变量）

进程的状态
就绪态：运行的条件都已经慢去，正在等在cpu执行
执行态：cpu正在执行其功能
等待态：等待某些条件满足，例如一个程序sleep了，此时就处于等待态

进程间通信-Queue

进程池Pool
(1).当需要创建的子进程数量不多时，可以直接利用multiprocessing中的Process动态成生多个进程，但如果是上百甚至上千个目标，手动的去创建进程的工作量巨大，此时就可以用到multiprocessing模块提供的Pool方法。
(2).初始化Pool时，可以指定一个最大进程数，当有新的请求提交到Pool中时，如果池还没有满，那么就会创建一个新的进程用来执行该请求；但如果池中的进程数已经达到指定的最大值，那么该请求就会等待，直到池中有进程结束，才会用之前的进程来执行新的任务

进程与线程的对比：
(1).功能
进程，能够完成多任务，比如在一台电脑上能够同时运行多个QQ
线程，能够完成多任务，比如一个QQ中的多个聊天窗口

(2).定义的不同
a).进程是系统进行资源分配基本单位.
b).线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.
c).线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享所在进程所拥有的全部资源

(3).区别
a).一个程序至少有一个进程,一个进程至少有一个线程.
b).线程的划分尺度小于进程(资源比进程少)，使得多线程程序的并发性高。
c).进程在执行过程中拥有独立的内存单元，而多个线程共享内存，从而极大地提高了程序的运行效率
d).线线程不能够独立执行，必须依存在进程中

(4).优缺点:线程和进程在使用上各有优缺点：线程执行开销小，但不利于资源的管理和保护；而进程正相反。

(5).使用场景：
a). 多进程常用来处理计算密集型任务：计算密集型任务的特点：是要进行大量的计算，消耗CPU资源，比如计算圆周率、对视频进行高清解码等等，全靠CPU的运算能力。计算密集型任务可以用多任务完成，但是任务越多，花在任务切换的时间就越多，CPU执行任务的效率就越低，所以，要最高效地利用CPU，计算密集型任务同时进行的数量应当等于CPU的核心数。

b).多线程常用来处理IO密集型任务： IO密集型：涉及到网络、磁盘IO的任务都是IO密集型任务，特点是CPU消耗很少，任务的大部分时间都在等待IO操作完成（因为IO的速度远远低于CPU和内存的速度）。但是也要切记，在执行多任务时，并不是越多线程越好。

互斥锁：
(1).当多个线程几乎同时修改某一个共享数据的时候，需要进行同步控制，线程同步能够保证多个线程安全访问竞争资源，最简单的同步机制是引入互斥锁。
(2).互斥锁为资源引入一个状态：锁定/非锁定
(3).某个线程要更改共享数据时，先将其锁定，此时资源的状态为“锁定”，其他线程不能更改；直到该线程释放资源，将资源的状态变成“非锁定”，其他的线程才能再次锁定该资源。互斥锁保证了每次只有一个线程进行写入操作，从而保证了多线程情况下数据的正确性。
注意：如果这个锁之前是没有上锁的，那么acquire不会堵塞
如果在调用acquire对这个锁上锁之前它已经被其他线程上了锁，那么此时acquire会堵塞，直到这个锁被解锁为止。

锁的好处：确保了某段关键代码只能由一个线程从头到尾完整地执行
锁的坏处：
（1）.阻止了多线程并发执行，包含锁的某段代码实际上只能以单线程模式执行，效率就大大地下降了
（2）.由于可以存在多个锁，不同的线程持有不同的锁，并试图获取对方持有的锁时，可能会造成死锁

死锁：在线程间共享多个资源的时候，如果两个线程分别占有一部分资源并且同时等待对方的资源，就会造成死锁。

迭代器
迭代是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退。(一个实现了iter方法和next方法的对象，就是迭代器。)

1. 可迭代对象: 我们已经知道可以对list、tuple、str等类型的数据使用for...in...的循环语法从其中依次拿到数据进行使用，我们把这样的过程称为遍历，也叫迭代。

2. 可迭代对象的本质: 可迭代对象进行迭代使用的过程，每迭代一次（即在for...in...中每循环一次）都会返回对象中的下一条数据，一直向后读取数据直到迭代了所有数据后结束。

可迭代对象通过iter方法向我们提供一个迭代器，我们在迭代一个可迭代对象的时候，实际上就是先获取该对象提供的一个迭代器，然后通过这个迭代器来依次获取对象中的每一个数据.

一个具备了 iter 方法的对象，就是一个可迭代对象

3.iter()函数与next()函数:
list、tuple等都是可迭代对象，我们可以通过iter()函数获取这些可迭代对象的迭代器。然后我们可以对获取到的迭代器不断使用next()函数来获取下一条数据。iter()函数实际上就是调用了可迭代对象的iter方法。

生成器

生成器利用迭代器，我们可以在每次迭代获取数据（通过next()方法）时按照特定的规律进行生成。但是我们在实现一个迭代器时，关于当前迭代到的状态需要我们自己记录，进而才能根据当前状态生成下一个数据。为了达到记录当前状态，并配合next()函数进行迭代使用，我们可以采用更简便的语法，即生成器(generator)。生成器是一类特殊的迭代器。

2.创建生成器方法:在使用生成器实现的方式中，我们将原本在迭代器next方法中实现的基本逻辑放到一个函数中来实现，但是将每次迭代返回数值的return换成了yield，此时新定义的函数便不再是函数，而是一个生成器了。简单来说：只要在def中有yield关键字的就称为生成器

协程
因为协程占用的资源非常少，资源保存在CPU寄存器的上下文中,
协程切换的速度非常快(比线程和进程快),
当遇到耗时操作时,会先暂停,将资源保存(CPU寄存器的上下文中),
切换到其他协程中执行其他任务,一旦耗时操作执行完毕,
会切换到之前的暂停的位置,继续执行

进程是资源分配的单位
线程是操作系统调度的单位
进程切换需要的资源很最大，效率很低
线程切换需要的资源一般，效率一般（当然了在不考虑GIL的情况下）
协程切换任务资源很小，效率高
多进程、多线程根据cpu核数不一样可能是并行的，但是　协程　是在一个　线程中所以是　并发的.

**Selenium **
我们使用的有界面浏览器，它虽然方便我们观察，但是在实际运用中是非常消耗性能的我们也可以使用Chrome的无界面浏览器,除了没有浏览器界面以外，其它的相关操作都与有界面浏览器相同
谷歌驱动（chromedriver）下载地址： http://chromedriver.storage.googleapis.com/index.html

火狐驱动下载路径（GeckoDriver）：https://github.com/mozilla/geckodriver/releases （2.3.8是最新的,下载的驱动版本一定要支持你当前的浏览器版本）
selenium不自带浏览器,必须跟第三方的浏览器配合使用
(1).通关节点的name属性查找对应的节点
chrome_driver.find_element_by_name()

(2).通过节点的class_name找到对应的节点
chrome_driver.find_element_by_class_name()

(3).通过css选择器查找对应的节点
chrome_driver.find_element_by_css_selector()

(4).通过连接所在标签的部分文字找到对应的节点
chrome_driver.find_element_by_partial_link_text()

(5).通过xpath路径找对对应的节点
chrome_driver.find_element_by_xpath()

显示等待:同样可以指定一个等待时间,不过更加灵活,可以指定一个最长等待时

将图片转换为灰度图
image5 = image3.convert("L")
image5.save('l'+'captcha.jpeg')
图片的二值化处理
设置图片的伐值
pointvalue = 150
table = []
for i in range(256):
if i < pointvalue:
table.append(0)
else:
table.append(1)

Scrapy 框架:
(1).Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
(2).框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
(3).Scrapy 使用了 Twisted['twɪstɪd] 异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

异步：调用在发出之后，这个调用就直接返回，不管有无结果非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程

Scrapy架构图:
Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

爬虫第三周总结

爬虫第三周总结

相关阅读更多精彩内容

友情链接更多精彩内容