2019-07-31

帮助客户安装agent

安装VMware

安装CentOs

了解网络爬虫

在爬取-一个网站之前，首先需要对目标站点的规模和结构进行一定程度的了解。网站自身的robots. txt和Sitemap文件都可以提供一定的帮助,此外还有一些能提供更详细信息的外部工具，比如Google搜索和WHOIS。

robots. txt 给出了爬取该网站的限制

Sitemap文件可以帮助爬虫定位网站最新的内容，不过该文件经常缺失过期或者不完整.

目标网站的大小决定了爬取的方式。如果是只有几百个URL的网站，效率并没有那么重要：但如果是拥有数百万个网页的站点，使用串行下载可能需要持续数月才能完成，这时就需要使用分布式下载来解决了。

估算网站大小的一个简便方法是检查Goo g le爬虫的结果，因为Goo g le很可能已经爬取过该网站。可以通过Google搜索的site 关键词过滤域名结果，从而获取该信息。

构建网站所使用的技术类型也会对如何爬取产生影响。有一个工具可以检查网站构建的技术类型一builtwith 模块。该模块的安装方法如下。

pip install builtwith

该模块将URL作为参数，下载该URL并对其进行分析，然后返回该网站使用的技术。

网站使用了Python的Web2py 框架，另外还使用了一些通用的JavaScript 库，因此该网站的内容很有可能是嵌入在HTML中的，相对而言比较容易抓取。

而如果改用AngularJS 构建该网站，此时的网站内容就很可能是动态加载的。

另外，如果网站使用了ASP.NET ，那么在爬取网页时，就必须要用到会话管理和表单提交了。

可以使用WHOIS协议查询域名的注册者是谁。Python中有一个针对该协议的封装库，我们可以通过 pip进行安装。