B.Python爬取静态网页与动态网页的区别

静态网页与动态网页概念

静态网页

1、静态网页是HTML文件，一般以 .htm、.html或shtml为后缀，一个文件对应一个URL；写好后更新至服务器上，修改页面需再次上传代码覆盖原页面。
2、静态页面的访问流程：客户端使用浏览器，使用HTTP协议发送一个请求Request给服务器；服务器接收到请求后，从文件系统中取出对应内容，再返回给浏览器一个响应Response；客户端浏览器收代内容后，进行渲染展示。
（缺点是：客户端压力较大）

静态网页工作原理

动态网页

1、动态网页一般代码可不变动，页面内容可通过后台数据库交互进行数据传递，一般以 .php、.asp或.jsp为后缀。维护后台数据库内容即可，必要时再调整页面代码。常用有用户登录、注册等界面。（动态、静态网页可混合使用）
2、动态页面访问：客户端使用浏览器，使用HTTP协议发送一个请求Request给服务器；WEB服务器先获得请求后，判断该请求资源类型。

如果客户端请求的静态资源（.htm或html），则将转交给WEB服务器，执行静态页面访问流程；
如果客户端请求的动态资源（.jsp或.asp、*php等），则先将请求转交给WEB Container（WEB容器），WEB容器中连接数据库，把所有的展示内容交给WEB服务器，之后通过WEB服务器将内容发送给客户端浏览器进行解析执行。如图：

动态网页工作原理

爬取静态页面与动态页面的区别

静态页面

数据非结构化：HTML标签；
处理方式可以为：正则表达式、xpath、BeautifulSoup；
静态页面的数据都包含在响应中，可通过分析源代码获取对应节点；
名称/值，一般会在响应的URL中，以？代表URL结束。

动态页面

数据结构化：json、xml等；
可直接转化为python类型；
动态页面数据存储在json中，可通过响应内容获得json数据。

前几天写的发布不了，今天再试试~冲鸭！小野s

最后编辑于：2020.06.13 15:00:47

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。