Github Pages 不被百度蜘蛛抓取的问题
由于之前的利用百度统计导致的针对Github的DDos攻击事件,Github屏蔽了百度蜘蛛对于Github Pages的爬取收录,这对国内使用Github Pages的用户无疑是一个巨大的打击。
我也不例外,这两天用尽了各种办法,Google大法还是不错的,昨天下午提交的sitemap,今天上午就都收录了。针对百度,也搜索了很多办法,主要有以下几种:
1. 利用CDN
经论证,并没有什么卵用
2. 利用镜像,针对百度蜘蛛,解析到镜像服务器上
- 1. 有自己的服务器或者
VPS的略过,别问为什么,因为我没有,哈哈哈。
PS:其实大致过程大差不差。 - 2. 由于我这个屌丝没钱买服务器,所以只能利用
coding.net进行托管,在百度蜘蛛爬取的时候,解析到coding pages - 有人说使用
Git cafe,偷偷告诉你,git cafe已经被coding给买了,所以,老老实实用coding吧 - 下面开始放大招
首先第一步,需要在
Github上新建一个项目,这个问题应该不大吧,既然都用Github Pages了,这一步就不重复赘述了。其次第二步,在
coding.net中从Github导入项目导入项目第三步,开启
coding的pages服务,coding的pages服务跟Github的pages服务的区别在于:coding使用的分支是master或coding-pages,Github使用的分支是master跟gh-pages,为了统一,建议使用master分支。设置分支
PS:coding的坑:
- 分支跟
github不一样- 自定义域名需要银牌会员以上才能开启,银牌会员需要完善自己的账号资料即可开启(注意:不管是不是必填都要填才可以开启银牌会员)
- 使用
coding的自定义域名,有一个问题,金牌及以上会员可以略过,如果是银牌会员,coding会先定向到一个coding提供的页面,之后才会重定向到你的自定义域名,除非。。。
除非你在底部加上Hosted by coding pages第四步,针对
git的push添加多个源
git remote set-url --add --push origin ****
将
****分别换成你自己对应的Github以及coding的项目地址
之后,使用git push origin master就可以将本地更改同步提交至Github跟coding至此,镜像网站部分应该都已经搞定了,如有遗漏,自己研究研究吧。嗯哼~
第五步,通过
DNSPod对域名进行解析添加
CNAME解析,针对百度解析值pages.coding.me,其余的解析到github.io。
可能有人要问,为啥不直接用coding pages呢?鉴于服务稳定性以及Github挺给力的cdn加速,暂时没有这方面的打算。
添加域名解析
之所以采用这个方案,也是对比了一下,觉得这个比较靠谱,说说我的比较过程吧
- 利用阿里云进行域名解析,不过针对百度的解析,好像支持的并不好,所以放弃了
- 七牛云等
cdn加速,由于域名未备案,所以直接就pass了- 百度云免费
cdn加速,效果也不太好,缓存设置略微有点坑爹,放弃,不挣扎了。
不知道有没有人懂这种心情,都快哭了。好了,就这样吧,观察几天看看有没有问题,没问题的话,此贴就可以终结了,如果还有问题,那估计过几天你们就看不到这张帖子了。笑哭。。。。🤣

百度抓取
本文首发于Yuri博客


