B.Python爬取静态网页与动态网页的区别

静态网页动态网页概念

静态网页

1、静态网页是HTML文件,一般以 .htm、.html或shtml为后缀,一个文件对应一个URL;写好后更新至服务器上,修改页面需再次上传代码覆盖原页面。
2、静态页面的访问流程:客户端使用浏览器,使用HTTP协议发送一个请求Request给服务器;服务器接收到请求后,从文件系统中取出对应内容,再返回给浏览器一个响应Response;客户端浏览器收代内容后,进行渲染展示。
(缺点是:客户端压力较大)

静态网页工作原理
动态网页

1、动态网页一般代码可不变动,页面内容可通过后台数据库交互进行数据传递,一般以 .php、.asp或.jsp为后缀。维护后台数据库内容即可,必要时再调整页面代码。常用有用户登录、注册等界面。(动态、静态网页可混合使用)
2、动态页面访问:客户端使用浏览器,使用HTTP协议发送一个请求Request给服务器;WEB服务器先获得请求后,判断该请求资源类型。

  • 如果客户端请求的静态资源(.htm或html),则将转交给WEB服务器,执行静态页面访问流程;
  • 如果客户端请求的动态资源(.jsp或.asp、*php等),则先将请求转交给WEB Container(WEB容器),WEB容器中连接数据库,把所有的展示内容交给WEB服务器,之后通过WEB服务器将内容发送给客户端浏览器进行解析执行。如图:
    动态网页工作原理

爬取静态页面与动态页面的区别

静态页面
  • 数据非结构化:HTML标签;
  • 处理方式可以为:正则表达式、xpath、BeautifulSoup;
  • 静态页面的数据都包含在响应中,可通过分析源代码获取对应节点;
  • 名称/值,一般会在响应的URL中,以?代表URL结束。
动态页面
  • 数据结构化:json、xml等;
  • 可直接转化为python类型;
  • 动态页面数据存储在json中,可通过响应内容获得json数据。

前几天写的发布不了,今天再试试~冲鸭!小野s

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。