帮助客户安装agent
安装VMware
安装CentOs
了解网络爬虫
在爬取-一个网站之前,首先需要对目标站点的规模和结构进行一定程度的了解。网站自身的robots. txt和Sitemap文件都可以提供一定的帮助,此外还有一些能提供更详细信息的外部工具,比如Google搜索和WHOIS。
robots. txt 给出了爬取该网站的限制
Sitemap文件可以帮助爬虫定位网站最新的内容,不过该文件经常缺失过期或者不完整.
目标网站的大小决定了爬取的方式。 如果是只有几百个URL的网站 , 效率并没有那么 重要:但如果是拥有数百万个网页的站点, 使用串行下载可能需要持续数月才能完成, 这时就需要使用分布式下载来解决了。
估算网站 大小的一个简便方法是检查Goo g le爬虫的结果,因为Goo g le很可能已经爬取过该网站 。 可以通过Google搜索 的site 关键词过滤域名结果, 从而获取该 信息。
构建网站所使用的技术类型也会对如何爬取产生影响。 有一个工具可以检查网站构建的技术类型一builtwith 模块。 该模块的安装方法如下。
pip install builtwith
该模块将URL作为参数,下载该URL并对其进行分析,然后返回该网站使用的技术。
网站使用了Python的Web2py 框架,另外还使用了一些通用的JavaScript 库,因此该网站的内容很有可能是嵌入 在HTML中的,相对而言比较容易抓取。
而如果改用AngularJS 构建该网站 ,此时的网站内容就很可能是动态加载的。
另外, 如果网站使用了ASP.NET ,那么在爬取网页时, 就必须要用到会话管理和表单提交了。
可以使用WHOIS协议查询域名的注册者是谁。Python中有一个针对该协议的封装库,我们可以通过 pip进行安装。