Python学习笔记2——认识网页

1、认识爬虫

爬虫简单来说，就是按照一定的规则，自动地抓取互联网上所需要的信息的程序或者脚本。

用Python编写的代码进行爬虫，其实是针对网页进行的，因此在开始爬虫前应该对网页本身有一个基本的认识。

2、认识网页

网页简单来说，是由3部分构成的，分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼，那HTML就是这栋楼的钢架结构，HTML内部又由Header、Body和Footer3个部分组建而成；CSS则像是装修，将整栋楼装饰起来；JavaScript则像房屋中的WIFI、PC、电视等，负债提供某种功能和服务。如果某个网站只有HTML和CSS时，这样的网页称为静态网页，这时候网页中是不会向服务器发送数据请求的，即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。

以简书网页为例，打开网页后，右键点击检查，会弹出一个窗口，右侧Elements中会有一些标签语言。HTML就是这些标签<>，CSS就是【<div class="">】中的class，JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时，主要会涉及到HTML和CSS。

3.认识HTML标签

在网页中，常会接触到的HTML标签如下：

<div></div>：标签定义 HTML 文档中的一个分隔区块或者一个区域部分。

<li></li>：标签定义列表项目。

<p></p>：标签定义段落。

<img>：标签定义图片，用于插入图片。

<h1></h1>：标签定义字体大小。

<a href=" ">：标签定义超链接。

HTML标签有很多，如果遇到陌生的，可以直接上http://www.runoob.com/html/html-tutorial.html查询。

总结：

1.网页由HTML、CSS和JavaScript构成，三者各司其职，HTML为网页搭建框架，CSS为网页提供样式，JavaScript提供功能；

2.在学习爬虫的过程中主要会接触到HTML和CSS，常用到的6种HTML标签分别为：<div></div>、<li></li>、<p></p>、<img>、<h1></h1>和<a href=" ">。

Python学习笔记2——认识网页

1、认识爬虫

2、认识网页

3.认识HTML标签

总结：

推荐阅读更多精彩内容