网络爬虫是一个与网站进行交互的程序。网络爬虫用于创建搜索引擎索引和归档页面。编写爬虫前,我们需要先了解网页的工作原理。特别是,需要了解一些 HTML。
如果你是一个热爱学习的网络开发人员,可能已经熟悉了 HTML。但如果不熟悉 HTML,也别担心!编写网络爬虫时,不需要了解太多 HTML。继续阅读要点概述。
HTML 或超文本标记语言是网页的源代码。HTML 文档是描述页面内容的文本文档。其包括文本内容、页面上图像和视频的 URL 以及关于内容排列和样式的信息。网页浏览器会收到原始 HTML,并相应提供格式整齐的多媒体网页。
我们来看一个简单页面的源码,了解一下如何构建 HTML,
HTML 源代码由嵌套标签组成。第一个标签是标题标签,<title>和结束标签</title>之间的文本用作页面标题。"
HTML 源代码中的下一个标签是 <div id="introduction">。div 是 "division" 的缩写,id="introduction" 表示该页面的作者将这一部分标注为引言。
我们在该标签下面的几行中可看到 </div>。这是 div 的结束标签,表示该段落代码嵌套在 div 中:
p 是 "段落" 的缩写。<p> 和其结束标签 </p> 之间的文本是提供 HTML 时,显示在屏幕上的内容。可以将该段落称为 div 标签(嵌套在其中)的 "子类"。同样,div 是段落的 "父类"。总而言之,这种父类标签和子类标签的排列创建了一个树结构。
词汇注释:术语 "标签" 和 "元素" 密切相关,有时可互换使用。标签是一个 HTML 源码,而元素是在浏览器呈现标签后用户可以看到的可视化组件。
在my website HTML页面中的第二个 div 更复杂。它还有一个作为子类的段落标签,该段落标签有自己的子类,img 和 a。这两个子类标签嵌套在 div 标签内,成为 div 的子标签。但它们不是 div 的子类,而是 'p` 标签的子类。
超链接标签
如需爬取网页,还需要了解一个标签类型,即超链接标签。在my website HTML页面中我们已经看到一个超链接标签:
超链接标签(用<a></a>表示,用于创建链接。在 href 属性中指定链接的地址。