Python学习笔记2——认识网页

1、认识爬虫

爬虫简单来说,就是按照一定的规则,自动地抓取互联网上所需要的信息的程序或者脚本。

用Python编写的代码进行爬虫,其实是针对网页进行的,因此在开始爬虫前应该对网页本身有一个基本的认识。

2、认识网页

网页简单来说,是由3部分构成的,分别是HTML、CSS和JavaScript。如果将一个完整的网页本身比作是一栋楼,那HTML就是这栋楼的钢架结构,HTML内部又由Header、Body和Footer3个部分组建而成;CSS则像是装修,将整栋楼装饰起来;JavaScript则像房屋中的WIFI、PC、电视等,负债提供某种功能和服务。如果某个网站只有HTML和CSS时,这样的网页称为静态网页,这时候网页中是不会向服务器发送数据请求的,即你无法完成注册、登陆等一系列需要向网页提出数据交换的请求。

以简书网页为例,打开网页后,右键点击检查,会弹出一个窗口,右侧Elements中会有一些标签语言。HTML就是这些标签<>,CSS就是【<div class="">】中的class,JavaScript就是<script>。在学习爬虫的过程中提取各种信息和元素时,主要会涉及到HTML和CSS。

3.认识HTML标签

在网页中,常会接触到的HTML标签如下:

<div></div>:标签定义 HTML 文档中的一个分隔区块或者一个区域部分。

<li></li>: 标签定义列表项目。

<p></p>:标签定义段落。

<img>:标签定义图片,用于插入图片。

<h1></h1>:标签定义字体大小。

<a href=" ">:标签定义超链接。

HTML标签有很多,如果遇到陌生的,可以直接上http://www.runoob.com/html/html-tutorial.html查询。

总结:

1.网页由HTML、CSS和JavaScript构成,三者各司其职,HTML为网页搭建框架,CSS为网页提供样式,JavaScript提供功能;

2.在学习爬虫的过程中主要会接触到HTML和CSS,常用到的6种HTML标签分别为:<div></div>、<li></li>、<p></p>、<img>、<h1></h1>和<a href=" ">。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,816评论 1 92
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,726评论 25 709
  • 白露初过,阴雨绵绵。 细雨书声中醒来,流下两行清泪。 忆往昔, 那为我们操劳的尹老头, 飞向远方的我们,只能与你梦...
    云篁阅读 187评论 0 0
  • Cold wind blew on Paul’s face, like an invisible hand tha...
    杰西的甜甜圈阅读 468评论 0 0
  • 18岁以前,和爸妈正在一起生活的时间大概7年的时间。 印象中他们经常吵架,妈妈带着我跑回外婆家。 一次又一次,一场...
    赵三千阅读 319评论 7 3