(一)关于爬虫的初步了解(爬虫三步骤)

        网页可分为三大部分——HTML(网页源代码)、CSS(样式)和JavaScript(交互、动画效果)。


        爬虫就是获取网页并提取和保存信息的自动化程序,主要可分为以下三个步骤:

        (1)获取网页源代码(向网站服务器发送一个请求,返回的响应体便是网页源代码)。用来请求源代码可使用的库:urllib、requests等;

        (2)提取信息(分析网页源代码,提取信息)。用来提取信息的方式有:正则表达式、BeautifulSoup等;

        (3)保存数据。用来保存数据的库有MySQL、MongoDB等。


Attention,Please!

        JavaScript渲染界面:现在网页越来越多采用Ajax、前端模块化工具来构建,整个网页可能都是由JavaScript渲染出来的,也就是说原始的HTML代码就是一个空壳;

        在网页查看页面源代码时,Elements选项卡中的源代码可能经过JavaScript操作而与原始请求不同,需要从Network选项卡部分查看原始请求得到的源码。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容