为什么Google和百度能够根据关键词搜索出我们想要的内容呢?在简单利用信息论中的原理后,就非常容易明白。
首先大家要知道,Google和百度会将全世界所有的网页全都收录在自己的服务器上,全世界的网页也就上千亿个,而我们常用的网页也只有40亿个左右。40亿对应的信息量是log(40亿)=32,要从40亿个网页中挑选出符合你想要的网页的信息量只有32bit。
进一步,上面的32bit的前提是我们假设40亿个网页出现的概率是等可能的,但是事实上,这40亿个常用网页就绝对不是等可能出现的,总有网页出现的可能性非常高有些网页出现的可能性相对而言非常小。根据这一个现象,根据信息量的计算公式,可以大概计算出从40亿个网页中搜索出1个网页的信息量大概只有16bit。
再进一步,根据如果你使用的是英语,那你想搜索出的网页几乎也只可能是英文网页,所以,进一步减少了信息量,从16bit降低到了12bit。
平均一个英文单词的信息量是6-8bit,两个单词的信息量是12-16bit,这大于从40亿个网页中确定出1个的信息量。因此根据你所输入的信息是完全足够挑选出你需要的网页的!
同理,在中国,网上广告的中国类大概是12万个,从12万个中选出1个的信息量是log(12万)=17bit,而一个汉字的信息量是8-10bit,输入两个汉字能提供的信息量是16-20万个,所以你输入两个字也足够百度找到合适你的广告推送给你了。
这种搜索相比于随意的展示的效果是有明显提升的。在一个网页上随意展示一个广告,这样的广告收费,不会太高,通常每一千次广告的收费,也被称为RPM,不会超过3.5元。而Google的搜索广告由于更加精准,收费大概在210元,甚至350元。即使是百度也能够做到收费100元以上。收费的金额大概能提升两个数量级。