1,大叔据时代数据产生:
(1)大的公司大的企业:通过用户产生的数据
(2)大的数据平台:通过手机或者和其他企业或者公司合作
(3)国家政府(or)大的机构:通过省县乡或者其他方式统计汇总产生
(4)数据咨询公司:通过手机或者和其他企业或者公司合作,会根据数据做分析对比形成报表,给你做数据参考
2,什么是爬虫:就是一段自动获取互联网数据的程序
3,爬虫有什么用途?
搜索引擎
比价工具(慧慧购物助手)
大的咨询网站(jobbole,今日头条...)
4,爬虫分为俩类:
(1)通用爬虫:通用爬虫是浏览器的重要组成部分,将互联网上所有的网页下载到本地, 镜像备份,提取重要数据(过滤数据,分词,去广告...)
(2) 聚焦爬虫:是面向主题的怕黑从,由需求产生的,是一种定向的爬虫,载爬去网页数据的时候,会对网页数据进行一些
筛选,保证只抓取和需求相关的数据
5,通用爬虫(搜索引擎)的缺点:
(1)需要遵循robot协议:Robots协议(也称为爬虫协议,机器人协议等)的全称是"网络爬虫排除标准"
(2)搜索引擎返回的结果千篇一律没有很好的针对性,不能够特殊的用户群体返回对应的数据
(3)搜索引擎一般请款下获取的文本信息,处理图像,音频,视频多媒体还是有困难的
6,常见状态码:
200(OK请求成功)
301:永久重定向
302:临时重定向(所请求的页面已经临时转移至新的url)
400:错误请求,服务器无法解析请求
401:未授权,没有进行身份验证
403:服务器拒绝访问
404:服务器无法找到被请求的网页
408:请求超时
500:服务器内部错误
501:服务器不具备完成请求的功能
503:服务器不可用
7,转字符串类型:decode