robots.txt文件
robots.txt文件我们写过爬虫的就知道,这个文件是告诉我们哪些目录是禁止爬取的。但是大部分的时候我们都能通过robots.txt文件来判断出cms的类型
- 从wp路径可以看出这个是WordPress的CMS
WordPress
- 这个就比较明显了直接告诉我们是PageAdmin cms
PageAdmin CMS
- 有些robots.txt里面写得不是很清楚。我们看看织梦的
dedeCMS
从robots.txt不能直接看出来是什么cms,我们就直接把他复制到百度去查询
image
这样就找到是织梦CMS
通过版权信息进行查询
一般直接拉到底部查看版权信息,有些站点会显示出来,比如织梦这个
版权信息
通过查看网页源码的方式
有些站点没有robot.txt,也把版本信息改了,这时候首页查看网页源码可能找得到,如图
网页源码
通过比较网站MD5值
有些CMS扫描器就是用这个原理,先收集某个CMS的某个路径的文件的MD5,要求这个文件一般不会被使用者修改。然后访问这个网站同样的路径下是否存在这个文件,存在的话比较MD5值。相同能暴出CMS类型。这个需要收集好字典。