静态网页与动态网页概念
静态网页
1、静态网页是HTML文件,一般以 .htm、.html或shtml为后缀,一个文件对应一个URL;写好后更新至服务器上,修改页面需再次上传代码覆盖原页面。
2、静态页面的访问流程:客户端使用浏览器,使用HTTP协议发送一个请求Request给服务器;服务器接收到请求后,从文件系统中取出对应内容,再返回给浏览器一个响应Response;客户端浏览器收代内容后,进行渲染展示。
(缺点是:客户端压力较大)
动态网页
1、动态网页一般代码可不变动,页面内容可通过后台数据库交互进行数据传递,一般以 .php、.asp或.jsp为后缀。维护后台数据库内容即可,必要时再调整页面代码。常用有用户登录、注册等界面。(动态、静态网页可混合使用)
2、动态页面访问:客户端使用浏览器,使用HTTP协议发送一个请求Request给服务器;WEB服务器先获得请求后,判断该请求资源类型。
- 如果客户端请求的静态资源(.htm或html),则将转交给WEB服务器,执行静态页面访问流程;
- 如果客户端请求的动态资源(.jsp或.asp、*php等),则先将请求转交给WEB Container(WEB容器),WEB容器中连接数据库,把所有的展示内容交给WEB服务器,之后通过WEB服务器将内容发送给客户端浏览器进行解析执行。如图:
爬取静态页面与动态页面的区别
静态页面
- 数据非结构化:HTML标签;
- 处理方式可以为:正则表达式、xpath、BeautifulSoup;
- 静态页面的数据都包含在响应中,可通过分析源代码获取对应节点;
- 名称/值,一般会在响应的URL中,以?代表URL结束。
动态页面
- 数据结构化:json、xml等;
- 可直接转化为python类型;
- 动态页面数据存储在json中,可通过响应内容获得json数据。
前几天写的发布不了,今天再试试~冲鸭!小野s