爬虫原理
(1)模拟计算机对服务器发起的Request请求
(2)接收服务器端的Response内容并解析、提取所需的信息
HTTP协议:
HTTP协议是Hyper Text
Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。在这份协议中:规定了客户端应该按照什么格式给服务器发送请求约定了服务端返回的响应结果应该是什么格式。
HTML知识:
HTML全称Hyper Text Mark-up
Language(超文本标记语言),它不是一种
编程语言,而是一种标记语言 (markup language)。标记语言是一套标记
标签 (markup tag),HTML 使用标记标签来描述网页。
HTML的语法:文本+标签。