（一）关于爬虫的初步了解（爬虫三步骤）

网页可分为三大部分——HTML（网页源代码）、CSS（样式）和JavaScript（交互、动画效果）。

爬虫就是获取网页并提取和保存信息的自动化程序，主要可分为以下三个步骤：

（1）获取网页源代码（向网站服务器发送一个请求，返回的响应体便是网页源代码）。用来请求源代码可使用的库：urllib、requests等；

（2）提取信息（分析网页源代码，提取信息）。用来提取信息的方式有：正则表达式、BeautifulSoup等；

（3）保存数据。用来保存数据的库有MySQL、MongoDB等。

Attention，Please！

JavaScript渲染界面：现在网页越来越多采用Ajax、前端模块化工具来构建，整个网页可能都是由JavaScript渲染出来的，也就是说原始的HTML代码就是一个空壳；

在网页查看页面源代码时，Elements选项卡中的源代码可能经过JavaScript操作而与原始请求不同，需要从Network选项卡部分查看原始请求得到的源码。

最后编辑于：2018.12.06 00:30:53

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。