通过网站日志,我们可以获知百度蜘蛛的一些行踪。从而有的放矢的来调整与优化网站。让蜘蛛更好的遍历我们的站点。那么,我们如何解读网站日志呢?
首先,对于普通企业站点而言,可以简单借助《光年SEO日志分析系统》,门户大站系列建议根据需求可以开发自己的日志分析系统。
其次,下载网站日志,借助光年软件分析网站日志。分析完毕后会输出一份结果。
最后,一起来学习下光年分析结果涉及到的一些知识:
概要分析:
(1)总抓取量:这里是指在某段时间内蜘蛛多次访问共抓取的网页总量
(2)访问次数:这里是指某段时间某个蜘蛛访问你网站的次数
(3)总停留时间:这里是指你所提交的某段时间的网站日志中某种蜘蛛的停留时间
通过这三者可以了解到以下2个数据(与网站性能有关):
(1)平均抓取页面数=总抓取量/访问次数(通过对比值,可以反应出网站是否有异常)
(2)每次抓取耗时=总停留时间/总抓取量(通过这个可以了解到网站服务器速度问题)
目录抓取
通过目录抓取可了解蜘蛛抓取分布情况,可根据这个数据反馈,综合调整。
页面抓取
通过页面抓取可以了解到哪些页面是蜘蛛重复抓取的,对于一些不重要页面又被蜘蛛重复抓取的话,可以针对性的来调整处理。
梳理完了以上的知识后,我们如何通过这些数据,做一些有效的决策呢?
首先,你得长期观察这些数据,通过对比,才能发现问题
如某位行业大牛每天会观察的一组数据:
某频道爬虫每日抓取量
某频道爬虫每日不重复抓取量
某频道爬虫单页下载时间
某频道网页响应速度
某频道每日爬虫到访次数
某频道Top目录
某频道收录比例抽查
某频道响应代码统计
其次,通过抓取量的表现,找出影响收录量的原因所在。
最后,进行调整优化,做好数据监控。