索引的处理过程是怎么样的呢?

  索引的处理过程是怎么样的呢?什么是索引呢?今天,为大家带来的是《索引的处理过程是怎么样的呢》。希望对大家有所帮助。

 一、索引是什么?

  ① 索引在搜索引擎优化简单解释

  指已经被收录且参与关键词排名的页面。

  ② 索引的通俗解释

  索引就像是图书的目录,根据目录中的页码快速找到所需内容。

  ③ 索引在百度百科中的解释

  在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。

 二、索引的作用

  ① 保证数据的准确性

  唯一的索引值对应着唯一的数据。

  ② 加快检索速度

  索引可以极大加快检索速度。

  ③ 提高系统性能

  索引可以有效提高系统性能。

 三、百度索引量——索引的处理过程

  ① 提取文字

  搜索引擎蜘蛛抓取页面之后,从HTML中找出单纯文字信息,JavaScript代码、HTML标记语言的普通标签对搜索引擎来讲是毫无意义的。

  除了提取普通文章外,还会提取图片或Flash的alt属性中的文字、以及链接锚文本等,同时,还有meta标签中的标题与页面描述信息。

  ② 中文分词

  中文分词:指的是将一个汉字序列切分成一个个单独的词。

  在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

  中文分词有三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

  字符匹配:它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配。

  理解法:这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

  统计法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。

  到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。

  了解完中文分词之后,对SEO有帮助吗?当然是有的。

  然而搜索“搜索引擎优化培训”这个词时,只显示一种颜色哦。词很长可能也是一个词,词很短,也可能会被分成多个词。

  每个搜索引擎都有不同的分词技术,可以利用快照的方式简单来了解,但快照仅仅是了解并非真正就是那样分词的。

  同时,例如将“搜索引擎优化培训”作为了一个词来看的话,尽量写文章的时候,多出现这个词的完美匹配,才更容易优化关键词排名。

  如果出现“培训搜索引擎优化”,或者“搜索引擎优化 培训”,可能都不能算作是完美匹配。

  ③ 消除噪声

  消除噪声是什么呢?

  ④ 去重处理

  去重处理是指同一网站或不同网站拥有了几乎相同的页面,搜索引擎蜘蛛在进行索引之前需要识别和删除这些内容。

  这种情况一般发生在采集站比较多,如果是高权重站点,有一些转载也是正常的,也是可以参与索引排序的。

  ⑤ 去停止词

  停止词就是指那些在文章中用的比较多的词,如“的”、“得”、“地”、“这”、“那”等,还有英文中的“the”、“of”、“or”等。

  ⑥ 正向索引

  正向索引就是将一个页面与多个关键词对应。

  一页面对应多关键词。

  例如首页可以有很多个关键词,其实文章页面也是如此。

  ⑦ 反向索引

  反向索引,是指某一关键词与多个页面对应。

  一关键词对应多页面。

  反向索引是利用了正向索引数据进行重新构造而成,这也就是用户搜索关键词之后,为什么能立刻找到所有包含这个关键词的页面的原因。

  ⑧ 链接算法

  链接算法让这些页面拥有了不同的网站权重与页面权重,也是让这些页面拥有不同排名的重要原因之一。

比如,在搜狐自媒体上发布一篇文章,可能就比一般小站点的权重高很多。这就是网站权重带来的文章页面的权重也随之提高。

  再比如,某一文章被很多网站引用并留下了链接,这篇文章的排名也会很好。

  常见链接算法:Google PR、THIS算法、李彦宏超链算法、TruskRank算法、Hilltop算法。

  ⑨ 质量与原创评估

  搜索引擎通过一定的算法可以评估文章的质量与是否为原创,百度熊掌号的原创保护功能就是最好的证明。

  同时,字数还需要至少在500字以上,老铁SEO建议优质的文章字数在800字以上。

  除了文字原创与数量的质量外,还有页面的打开速度、落地页是否符合规范等等,都是质量评估的重要因素。

  ⑩ 图片、视频、office等文件

  搜索引擎目前无法很好地识别与抓取这些文件中的内容,所以大部分都是以标题与描述来得知其内容,几乎只有大站的视频页面排名很高,一般的站点的页面假如只有视频,排名都不高。目前最好的方法是与百度搜索视频合作。

  文章来源:http://www.6ke.com.cn/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容