- 如有转载,要有声明。
- 由于时间和水平有限,难免有错漏。如果发现问题,请及时联系笔者。
信息检索
1. 简介
我们每天都需要进行检索,但是可能经常会遇到找不到自己想要的结果。但其实有一些技巧可以帮助我们。首先就是我们找不到自己想要的结果,通常是要么找到的结果太多,要么是压根没有相关的结果。而这通常是范围的把控的问题。很多时候我们需要适当地缩小或放大搜索的范围。或者用其他的方法。下面给出一些常用但是并不全面的检索技巧。
2. 放大搜索范围
逻辑或:or、+
首先是我们要把某个关键词的同义词、上位词、下位词都放上去,用+号连接,代表把每一个关键词的搜索结果加在一起,呈现出来。这样,检索的结果会大大增加。
3. 缩小搜索范围
1. 逻辑与:空格
很多时候,我们会搜索一个长句,但为了更加简练,其实我们可以把一些无意义的词去掉,然后把剩下的词用空格分开,这样效率会更高。
2. 逻辑非:not、-
逻辑非通常是我们搜索结果中想要去掉某些结果,我们用-号代表去掉。
3. 短语检索
当我们想要搜索一个专有名词,如一个机构的名称时,可以用双引号把检索词括起来,代表不用扩展。因为如果不这么做的话,搜索引擎会自动分词,比如“短语检索”,可能会被分成“短语”和“检索”,并且这两个词的位置可能会变。当然要保持两个关键词位置不变也是可以的,有兴趣的话可以去搜“位置检索”。
4. 搜索引擎命令
-
site
site命令用来通过搜索引擎强大的搜索功能来搜索某个网站的内容。因为一般的网站,搜索功能不可能和搜索引擎比。所以利用搜索引擎强大的搜索功能来代替网站内部的搜索。还有一个好处就是,搜索引擎有快照功能,这个后面会讲到。
-
inurl
site命令只能够指定网站,也就是域名。但是一个网站通常会有多级路由,为了节省时间如果我们知道这个路由的话,可以用inurl命令指定路由,更加精准地找到想要的内容。
-
filetype
用于搜索特定文件格式。我们肯定会有在网上找简历模板的时候。很多时候我们搜索出来的是word文档或百度文档之类的。但是有一些大牛的简历是用excel写的,我们想要找到这些简历的话,可以用filetype指定文件格式为Excel的简历。
-
intitle
该指令返回的结果是页面title包含关键词。
4. 使用特定的网站或者垂直搜索引擎
百度、谷歌等搜索引擎称为通用搜索引擎,它们的信息量大、综合性强,但是对于很多内容的挖掘深度不够。比如学术论文,用知网搜出来的肯定比百度好。搜图片,Pinterest(一个网站)肯定比谷歌图片好。所以善于去找一些相关的垂直搜索引擎或专门做某个内容的网站,会让我们的搜索效率大大增加。
但是有些网站,它的搜索功能不够强大。所以我们可以用site命令来利用通用搜索引擎来搞定。
5. 快照
搜索引擎在爬取网页时,会把网页缓存在服务器中,称为快照。当网页有更新或者失效时,搜索引擎依旧会保存这个网页的快照。当我们检索到这个网页时,万一它已经失效,有可能是这个网站删除了这个网页。但我们想要看到这个网页的内容时,可以使用快照功能。这也是上面讲site命令时,推荐用搜索引擎来查找网站的内容的原因。
6. 查找相似的网站
有些时候我们找到一个网站,觉得很好,但是还是有一丢丢不满意,这个时候,我们就可以使用一款chrome插件:SimilarSites,来查找相似的网站,看看有没有更好的。这要比我们在回到搜索引擎去检索效率要高哦。
7. 自建资源集合
其实从某种角度而言,我们还是会踩进同一条河流,遇到同一个问题。所以,把自己之前的搜索结果做些批注,保存下来,日后搜索相同的问题就可以先在自己的笔记中去找,效率会更高,况且有自己当初的批注,不用花时间在理解一遍。
这里推荐印象笔记和diigo,他们都可以保存网页,而且如果用了chrome插件的话,当我们在搜索引擎搜索的时候,旁边会出现印象笔记和diigo的搜索结果,相当方便。
搜索引擎工作过程
这里是为了让大家更加了解搜索引擎。
简单的来讲,搜索引擎的工作过程大体可以分成三个阶段。
1. 爬取
搜索引擎蜘蛛通过跟踪链接访问页面,获取页面 HTML 代码存入数据库。
这里要注意,搜索引擎蜘蛛的资源是有限的,所以有以下几点是影响蜘蛛注意力的因素。
- 网站和页面权重。质量高、热门的网站,尤其是一些官网,权重比较高,蜘蛛在这些网站上的页面爬行的更深,所以会有更多页面会被收录。
- 页面更新度。
- 导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取就必须有导入链接作为入口,进入页面,否则蜘蛛根本没有机会知道页面的存在。
2. 预处理
搜索引擎对抓取来的页面数据文字进行文字提取、分词、去停止词、索引等处理,以备排名程序调用。其实这里有一个点就是,去停止词。
- 无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。 这些词被称为停止词,因为它们对页面的主要意思没什么影响。英文中的常见停止词有 the,a,an,to,of 等。
- 搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。
- 所以我们在搜索的时候要尽量保持简约。一是那些感叹词之类的对搜索引擎而言只是增加了噪声,二是打字也能打少点嘛。
3. 排名
当用户输入搜索词后,搜索引擎调用索引库数据,计算相关性和价值,然后排序呈现给用户。
SEO
为什么要在讲信息检索的文章中讲SEO呢?确实,SEO和信息检索其实关系没有那么紧密。在这里讲SEO只是为了让大家对搜索引擎有另一个角度理解。还有就是,都了解了搜索引擎的工作流程了,顺带扩展一下知识面,因为这里讲的很简单很浅。
1. 简介
搜索引擎优化(Search Engine Optimization,简称 SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。
研究发现,搜索引擎的用户往往只会留意搜索结果最前面的几个条目,所以不少网站都希望通过各种形式来影响搜索引擎的排序。要影响排序就要让自己的网站可以更容易地被搜索引擎理解和接受,并让搜索引擎感兴趣,就有了SEO。
2. 原理
-
内容优化
上面说到搜索引擎使用蜘蛛通过跟踪链接访问页面,获取页面 HTML 代码存入数据库。所谓搜索引擎蜘蛛其实就是一个程序,程序不像人类那么复杂,它是有固定的模式的。相对而言,也没人类那么智能。所以,当搜索引擎蜘蛛爬取你的网站的页面时,在预处理的过程中,如果你对网站网页代码可以更好地帮助它对其分词、解析、建立索引的话。可以获得更好的结果。
-
增加外链
外链就是其他网站链接到目的网站的链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。
也就是说,这个网页应该有一个入口来让搜索引擎蜘蛛来爬取页面内容。网页的网址是一个入口,但是,如果你要让搜索引擎获得的网址的话,不能让它去猜吧。所以通常会在其他网站添加自己网站的链接,而自己网站的内链是可以遍历网站所有的页面的话,就很容易让搜索引擎蜘蛛爬取你的页面。
搜索引擎排序算法里边有一个步骤就是评估这个网页的价值,其中有一个因素就是看有多少、价值有多高的其他网站链接这个页面。这个就是可以提高搜索引擎对网站的兴趣或者注意力。
总结
- 搜索很多时候就是控制搜索范围,而这可以通过一些运算符和搜索引擎命令来实现。
- 保持搜索词的简洁。
- 快照有些时候,比如网页链接失效的时候,会帮到你。
- 记得批注、保存自己认为有价值的搜索结果(包括某些对你而言有价值的网站、垂直搜索引擎)。
- 善用插件。