1、HTML语义化。
<h1>一级标题</h1>
<h2>二级标题</h2>
<h3>三级标题</h3>
<h4>四级标题</h4>
<h5>五级标题</h5>
<h6>六级标题</h6>
使用alt属性加以说明
<img src="logo.png" width="200px" height="200px" alt="说明文案" />
合理的设计title、description和keywords
title:当前页面的标题(强调重点即可,每个页面的 title 尽量不要相同)
description:当前页面的描述(列举几个关键词即可,不要过分堆积)
keywords:当前页面的关键词(高度概括网页内容)
<meta name="title" content="哈哈哈 & 啦啦啦 | 嘻嘻嘻">
<meta name="description" content="这里是SEO的详情内容">
<meta name="keywords" content="哈哈哈">
2、网站地图。做一个 XML sitemap,并放在网端的根下 /sitemap.xml
与/sitemap.html
.
3、接入使用Google Analytics (或是别的开源的网站分析工具,如: Piwik).
<script async src="https://www.googletagmanager.com/gtag/js?id=xxxx"></script>
<script>
window.dataLayer = window.dataLayer || [];
function gtag() {
dataLayer.push(arguments);
}
gtag('js', new Date());
gtag('config', 'xxxx');
</script>
4、使用robots.txt声明爬虫,搜索,网站信息。了解 robots.txt 和搜索引擎爬虫是如何工作的。
5、重定向请求 (使用 301 重定向网站) ,如果你要把www.cccc.com
定向到 cccc.com
(或是其它的变更) 这样可以防止Google的rank因为域名的变化发生改变。
6、并不是所有的爬虫都是好的,有些爬虫的行为并不好。比如向你的网站发大量的请求导致服务器性能下降。
# nginx反爬设置。禁止 Scrapy
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
# nginx反爬设置。禁止 UA
if ($http_user_agent ~ "Bytespider|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
return 403;
}
7、Lighthouse 性能优化工具