之前看到有朋友在问,有什么工具能把一个网站上所有url链接下载下来?换句话说,就是想爬取整站URL,或者叫整站URL提取工具,目的是将网页里面所有的url提取出来,便于后期做一些辅助性的SEO优化工作,比如最有用当属生成整站的sitemap网站地图了。
之前也分享过一个教程,关于用Xenu爬取整站URL然后制作sitemap网站地图的教程,(见“Xenu:sitemap网站地图生成神器!”),但Xenu有一个局限性,那就是它只能爬取规模比较小的站点,遇到量级稍微大一点的站点,爬取的效率就非常低,并且能提供的信息也不是很多,所以,今天给大家介绍一个可能大家不太熟悉,功能却非常强大的,只流传于SEO大神之间的一个工具:ScreamingFrogSEOSpider,ScreamingFrogSEOSpider官网&下载地址
ScreamingFrogSEOSpider功能简介
懒得自己一句句翻译,直接用有道网页翻译后COPY过来的:),E文好的同学直接看原文吧:)
ScreamingFrogSEOSpider搜索引擎蜘蛛爬行工具&报告如下:
HTTP错误代码——客户端错误等失效链接&服务器错误(5没有反应,4 xx,xx)。
重定向——永久或临时重定向(3 xx响应)。
外部链接,外部链接和他们的状态码。
协议- url是否安全(HTTPS)或不安全的(HTTP)。
URI问题——非ASCII字符,下划线,大写字符,参数,或长url。
重复的页面-散列值/ MD5checksums算法检查准确复制页面。
页面标题——失踪的,重复的,超过65个字符,短,像素宽度截断,h1一样,或多个。
元描述——失踪,重复,超过156个字符,短,截断或多个像素宽度。
元关键字——主要是供参考,因为他们没有使用谷歌、必应(Bing)或者雅虎。
文件大小——网址和图片的大小。
响应时间。
last – modified头。
页面深度的水平。
字数。
H1 -失踪、复制、超过70个字符,多个。
H2 -失踪、复制、超过70个字符,多个。
noindex元机器人——指数,效仿,nofollow,noarchive,nosnippet,noodp,noydir等等。
Meta刷新——包括目标页面和时间延迟。
规范link元素和规范的HTTP标头。
X-Robots-Tag。
rel = “下一个”和rel = “上一页”。
AJAX的SEO AJAX爬行蜘蛛遵循谷歌的计划。
Inlinks——所有页面链接到一个URI。
Outlinks——所有页面链接到URI。
锚文本,链接文本。Alt文本图像的链接。
遵循& Nofollow——在页面和链接(真/假)。
图像——所有uri与图像&所有图像从一个给定的页面的链接。图片大小超过100 kb,丢失的alt文本,alt文本超过100个字符。
用户代理切换器——Googlebot爬行,Bingbot,雅虎!发出声音,移动用户代理或您自己的自定义UA。
重定向链,发现重定向链和循环。
自定义源代码搜索——搜索引擎蜘蛛可以找到任何你想要在一个网站的源代码!无论是谷歌分析代码,具体的文本,或代码等。(请注意,这不是一个数据提取或刮特性。)
XML网站地图生成器——你可以创建一个XML站点地图和图像地图使用SEO蜘蛛。
ScreamingFrogSEOSpider使用方法
ScreamingFrogSEOSpider使用起来非常方便,只需要输入你网站首页的URL,然后点Start就行了,静待爬取完成,就可以看各种详细的数据了。
下图以提取我博客http://seofangfa.com的整站URL为例子,给大家展示一下效果:
红框1处这些选项卡,依次给大家翻译一下吧:内部链接、外部链接、HTTP协议(HTTP或者HTTPS)、HTTP状态码(200、3XX、4XX、5XX)、URI(注意不是URL,URI是Uniform Resource Identifier,统一资源标识符;URL:Uniform Resource Locator,统一资源定位符;想知道更多自己百度去)、页面title标签、页面description标签、页面keywords标签、页面H1标签、页面H2标签、站内图像、页面链接指向、使用了AJAX技术的链接、用户自定义的过滤规则。
红框2处:点击之后,会看到我们首页的一些信息,比如红框4处的,首页上的导入链接有哪些,红框3处,是ScreamingFrogSEOSpider提取到的整站的链接数量,结合site指令,就能知道我们网站的大概整站收录情况了。
通过上面的解释,相信你已经了解这个工具的强大之处了吧!那么接下来你关心的可能是这个工具是收费的还是免费的呢?
通 过官网的介绍,我们知道了,我们可以自由下载使用该软件,只不过免费版本只能爬取整站的500个URL,如果是小企业站,已经是足够了,如果是大站,可以 考虑购买一个,一年收费99英镑起,约合人民币972元(感谢seolabs留言指正:)),对于玩大站的朋友来说,简直是太便宜了,哈哈!
你以为文章写到这儿就该结束了是吗?如果你这样想,那就错了!方法博客只为分享有价值的文章而生,所以,今天就送一个价值694元的大礼给有幸看到这篇文章的朋友!那就是:(瞪大眼睛了!)
ScreamingFrogSEOSpider注册码!可以使用一年!
为方便大家COPY,我粘到这儿来:
Username:gn168
Licence Key:20D8E5C5AF-1467881526-81359030D5
以上注册码由光年论坛的热心朋友提供,大家可以顺便访问一下这个朋友的网站:http://1ksns.com,为他的无私奉献贡献一个我们的IP吧!:)
如果想下载一个完整的网站到本地,会有一个更好模拟搜索引擎爬虫工具,那就是国平曾经分享过的Httrack模拟搜索引擎爬虫工具,回头继续写文章给大家分享Httrack的用法!
文章写到这儿,真的该结束了,该说的我也都说完了,为了给大家分享这个好工具,已经码字到凌晨1点了,看我如此的勤劳为民,你既然都看到这儿了,如果不在下面的留言框给我点个赞,你好意思吗?:):):):):)
转载请注明:方法SEO顾问»【免费1年!】整站URL提取工具,爬取整站URL的神器:ScreamingFrogSEOSpider