python爬虫基础

大数据时代：数据如何产生？

１、大的公司打的企业：通过用户产生的数据
２、大的数据平台：通过收集或者和其他的企业或者公司合作
３、国家政府　大的机构：通过省县乡或者其他方式统计汇总产生的
４、数据咨询公司：通过收集或者和其它企业或者公司合作，会根据数据做分析对比形成报表
５、最终假如以上方式都不能满足的时候，我们就需要一个爬虫工程师，去专门坐数据的提取

１：什么是爬虫？

就是一段自动获取互联网数据的程序

２　爬虫有什么用途？

搜索引擎
比价工具（慧慧购物助手）
大的咨询网站（今日头条，jobbole）

网站的三大特性：

１．每一个资源都有一个url(统计资源定位符)
２，网页都是使用HTML（超文本）文本展示数据的
３，通过HTTP/HTTPS（超文本传输协议），获取和传递HTML

３　如何实现一个爬虫

（１）找到目标url
（２）根据url发起请求
（３）解析响应结果：
a)提取目标数据
b)如果存在新的url 进一步提取（会执行１－３这个循环）
（４）爬虫结束：所有符合条件的url请求全部获取完毕　意味着爬虫结束

４　为什么要使用python做爬虫？

PHP，JAVA,C,C++,Python...都可以做爬虫
　PHP：可以用来做爬虫，但是对于多任务的支持不是太好，爬虫是对效率要求比较高的，所以说PHP天生不是干这个事情的
　JAVA：生态圈很完善，并且用途非常广泛（后端，移动端）java做爬虫是python最大的竞争对手　但是java代码量比较大，重构的成本比较高
　C/C++:肯定是可以完成爬虫这件事的，并且运行的效率是非常高的，但是学习的门槛非常高，各个模块可能需要你自己封装和定制，（能使用C/C++的人一般比较nb）
　Python：语法简介　代码优美　可读性高　并且对各模块的支持比较好　有很多强大的三方包　对于多任务的处理比较好　urllib,requests都能够很好的帮助我们实现一个爬虫项目　
　对解析库也非常多(lxml,bs4,pyquery...)并且还有强大的scrapy爬虫框架和scrapy_redis分布式爬虫框架　并且python作为一门胶水语言　对于其他语言的调度也是非常方便的

爬虫分为两类：

通用爬虫：通用爬虫是浏览器的重要组成部分　将互联网上所有的网页下载到本地　做了一个镜像备份　提取重要数据（过滤数据　分词　去广告...）

步骤其实跟上面介绍的类似

搜索引擎的爬取的url通过上面方式获取？

１　通过网站的外链
２　通过网页提交url (百度:http://zhanzhang.baidu.com/linksubmit/url)
３　各大搜索引擎公司也会和DNS服务商合作

DNS：将我们的域名转化为ip的一种技术

通用爬虫（搜索引擎）的特点：

１需要遵循robot协议：Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），
　　　　　　　　　　网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
２搜索引擎返回的结果千篇一律没有很好的针对性　不能够根据特殊的用户群体返回对应的数据
３搜索引擎一般情况下是文本信息　处理图像　音频　视频对媒体还是有困难的

聚焦爬虫：

是面向主题的爬虫　由需求产生的　是一种定向的爬虫　在爬取网页数据的时候　会对网页数据进行一些筛选　保证只抓取和需求相关的数据，以后我们更多的就是实现聚焦爬虫

做爬虫需要掌握的基础知识：

１python的基本语法
２前端知识　
３数据持久化的知识

４了解基本的反爬虫的手段　（header请求　验证码　cokkies 代理）
５静态页面和动态页面（ajax,js.）,selenium（获取的页面源码是经过浏览器渲染之后的最终结果）
６多任务处理　爬虫框架　分布式爬虫等等

HTTP:超文本传输协议，主要是用来将html文本传输到本地浏览器

HTTPS:作用和HTTP一致，只是多了SSL（安全套接字层）　保证数据传输的安全性
１建立一个安全有效的数据传输通道　保证数据的安全性
２保证网站真实性和有效性

url的组成部分：

１scheme:协议
２host:指的是域或者ip
３port:端口
４path：路径
５query-string:请求参数
６anchor:锚点　主要是实现页面的定位作用

请求头:

User-Agent:模拟浏览器加载
Cookies:携带cookies第一可以维持会话　告诉浏览器用户的身份信息
Refere:告诉浏览器　当前请求　是从哪个页面发起的

常见状态码：

100~199：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。
2xx：表示服务器成功接收请求并已完成整个处理过程。
200（OK 请求成功）。
3xx：为完成请求，客户需进一步细化请求。例如：请求的资源已经移动一个新地址、常用
301:　永久重定向
302：临时重定向（所请求的页面已经临时转移至新的url）
4xx：客户端的请求有错误.
400:错误请求，服务器无法解析请求
401:未授权，没有进行身份验证
403:服务器拒绝访问
404:服务器无法找到被请求的网页
408:请求超时
5xx:服务器端出现错误
500:服务器内部错误
501:服务器不具备完成请求的功能
503:服务器不可用

python爬虫基础

python爬虫基础

大数据时代：数据如何产生？

１：什么是爬虫？

２　爬虫有什么用途？

网站的三大特性：

３　如何实现一个爬虫

４　为什么要使用python做爬虫？

爬虫分为两类：

搜索引擎的爬取的url通过上面方式获取？

通用爬虫（搜索引擎）的特点：

聚焦爬虫：

做爬虫需要掌握的基础知识：

url的组成部分：

请求头:

常见状态码：

相关阅读更多精彩内容

友情链接更多精彩内容

python爬虫基础

大数据时代：数据如何产生？

１：什么是爬虫？

２ 爬虫有什么用途？

网站的三大特性：

３ 如何实现一个爬虫

４ 为什么要使用python做爬虫？

爬虫分为两类：

搜索引擎的爬取的url通过上面方式获取？

通用爬虫（搜索引擎）的特点：

聚焦爬虫：

做爬虫需要掌握的基础知识：

url的组成部分：

请求头:

常见状态码：

相关阅读更多精彩内容

友情链接更多精彩内容

２　爬虫有什么用途？

３　如何实现一个爬虫

４　为什么要使用python做爬虫？