爬虫one-Day总结

1,大叔据时代数据产生:

(1)大的公司大的企业：通过用户产生的数据

(2)大的数据平台：通过手机或者和其他企业或者公司合作

(3)国家政府（or）大的机构:通过省县乡或者其他方式统计汇总产生

(4)数据咨询公司：通过手机或者和其他企业或者公司合作，会根据数据做分析对比形成报表，给你做数据参考

2,什么是爬虫：就是一段自动获取互联网数据的程序

3，爬虫有什么用途？

搜索引擎

比价工具（慧慧购物助手）

大的咨询网站(jobbole,今日头条...)

4，爬虫分为俩类：

（1）通用爬虫:通用爬虫是浏览器的重要组成部分,将互联网上所有的网页下载到本地, 镜像备份,提取重要数据(过滤数据,分词,去广告...)

(2) 聚焦爬虫:是面向主题的怕黑从,由需求产生的,是一种定向的爬虫,载爬去网页数据的时候,会对网页数据进行一些

筛选,保证只抓取和需求相关的数据

5，通用爬虫(搜索引擎)的缺点:

(1)需要遵循robot协议：Robots协议(也称为爬虫协议，机器人协议等)的全称是"网络爬虫排除标准"

(2)搜索引擎返回的结果千篇一律没有很好的针对性,不能够特殊的用户群体返回对应的数据

(3)搜索引擎一般请款下获取的文本信息,处理图像,音频,视频多媒体还是有困难的

6,常见状态码：

200（OK请求成功)

301:永久重定向

302：临时重定向（所请求的页面已经临时转移至新的url）

400:错误请求，服务器无法解析请求

401:未授权，没有进行身份验证

403:服务器拒绝访问

404:服务器无法找到被请求的网页

408:请求超时

500:服务器内部错误

501:服务器不具备完成请求的功能

503:服务器不可用

7,转字符串类型:decode

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。