2019-07-31

帮助客户安装agent

安装VMware

安装CentOs

了解网络爬虫

在爬取-一个网站之前,首先需要对目标站点的规模和结构进行一定程度的了解。网站自身的robots. txt和Sitemap文件都可以提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Google搜索和WHOIS。

robots. txt 给出了爬取该网站的限制

Sitemap文件可以帮助爬虫定位网站最新的内容,不过该文件经常缺失过期或者不完整.

目标网站的大小决定了爬取的方式。 如果是只有几百个URL的网站 , 效率并没有那么 重要:但如果是拥有数百万个网页的站点, 使用串行下载可能需要持续数月才能完成, 这时就需要使用分布式下载来解决了。

估算网站 大小的一个简便方法是检查Goo g le爬虫的结果,因为Goo g le很可能已经爬取过该网站 。 可以通过Google搜索 的site 关键词过滤域名结果, 从而获取该 信息。

构建网站所使用的技术类型也会对如何爬取产生影响。 有一个工具可以检查网站构建的技术类型一builtwith 模块。 该模块的安装方法如下。

pip install builtwith

该模块将URL作为参数,下载该URL并对其进行分析,然后返回该网站使用的技术。

网站使用了Python的Web2py 框架,另外还使用了一些通用的JavaScript 库,因此该网站的内容很有可能是嵌入 在HTML中的,相对而言比较容易抓取。

 而如果改用AngularJS 构建该网站 ,此时的网站内容就很可能是动态加载的。 

另外, 如果网站使用了ASP.NET ,那么在爬取网页时, 就必须要用到会话管理和表单提交了。

可以使用WHOIS协议查询域名的注册者是谁。Python中有一个针对该协议的封装库,我们可以通过 pip进行安装。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. git简介以及安装 什么是git?Git 是一个分布式版本控制系统安装 下载包后默认安装即可 官网地址 安装...
    dongshixiao阅读 525评论 0 2
  • 天空之城的美丽在于我爱你你和我的相遇也是冥冥注定当我第一次踏入这一片土地看到第一眼的你轮到山水开始回忆仿佛白驹过隙...
    安君窈阅读 3,661评论 0 3
  • 女性,作为社会上的弱势群体,却在拥有“母亲”这个身份之后,变得强大,无人可欺。 早在初中的时候,就跟朋友一起畅想未...
    芹馆阅读 414评论 0 1