爬虫介绍
一、爬虫应用领域
1、搜索引擎
2、伯乐在线
3、惠惠购物助手(全网价格对比)
4、数据分析(如瓜子二手车)
5、抢票软件等
二、爬虫开发与安装
1、python 3.6 以上版本或者 anaconda
2、pycharm 2019 community
3、chrome 浏览器,73以上版本,或者360浏览器
三、HTTP 协议介绍
1、认识HTTP协议
HTTP协议,全称HyperText Transfer Protocol,中文意思是超文本传输协议,是一种接收HTML页面的方法。服务端口号是80端口。
HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。
2、URL组成部分
URL是 Uniform Resource Location 的简写,统一资源定位符。一个URL由以下几部分组成:
scheme://host:port/path/?query-string =xxx#anchor
1、scheme:代表访问协议,一般为http或者https以及ftp等。
2、host:主机名,域名,如www.baidu.com。
3、port:端口号。当你访问一个网站时,浏览器默认使用80端口。
4、path:查找路径。比如: www.jianshu.com/trending/now,后面的trending/now就是path。
5、query-string:查询字符串,比如: www.baidu.com/s?wd=python,后面的 wd=python 就是查询字符串。
6、anchor:锚点,前端用来做页面定位的,现在一些前后端分离项目,也用锚点来做导航。
在浏览器请求一个url,浏览器会对这个url进行编码,除英文字母,数字和部分符号外,其他的全部使用百分号+十六进制码值进行编码。
下一篇文章 第一章 爬虫基础(续)2019-11-28 地址:
https://www.jianshu.com/p/46cc10acd188