经常能看到某些站点会使用一些短链接,例如:t.cn/RyG7nlE这样形式的链接。
短链接有以下好处:
1、短小精悍,方便推广,记忆(实际应该没什么人去记忆吧);
2、可收集站点访问数据,用作数据分析等用途;
3、做了一层中转,可以做各种个性化定制,如设置链接开放日期等访问控制的逻辑判断;
4、节约空间,如微博会有字数限制;
短链接一般会有两种做法:
一、
自增序列算法,也叫永不重复算法,用到的其实就是多进制,让一个整型用多进制表示,根据这个id查找对应的长链接。
用数字100000000为例,以不同进制表示:
进制 | 结果 | 元素 |
---|---|---|
2 | 101111101011110000100000000 | [0-1] |
8 | 575360400 | [0-7] |
10 | 100000000 | [0-9] |
16 | 0x5f5e100 | [0-9a-f] |
26 | ikvozw | [a-z] |
36 | 1njchs | [0-9a-z] |
52 | nJkmW | [a-zA-Z] |
62 | 6LAze | [0-9a-zA-Z] |
62进制 [0-9a-zA-Z] 表示10000只需要3个字符,长度大大缩短。
可以估算一下,
232 < (25.5) 6 < 45.56 < 466 < 626,
264 < (210 * 22/3) 6 < 16266 < 19326 < (62 * 625/6) 6 < 6211
由此可见,32位二进制数字可用6位62进制字符表示,64位二进制数字可用11位62进制字符表示,264 = 9,223,372,036,854,775,807,就是9百京,这个数量就非常足够了。(原来比不上黄金弗利萨的战斗力,有一个垓)
缺点:根据自增id生成,长短可能会不一,这个也可以通过填充特定字符来解决。
二、
1、将长链接md5,获取32位字符串;
2、32位字符串按分8字节4份,循环处理,作为16进制数字和0x3fffffff(30个1)进行位与操作(超过30位忽略);
3、30位分6段,每5位数字作为一个索引获取集合[a-z0-9]中对应的字符,最后获得4个长度为6的字符串;
4、4个字符串中任意取一个作为短链接
缺点:
1、生成的短链接可能会产生碰撞,据说微博是使用这种算法(上面的文字是我搬运过来的,这个算法我不太懂它设计的原理。。。);
2、需要用字符串作为查询条件去获取长链接,容易数据库索引建立不连续,降低查询效率;
我使用的是第一种,恰好我们的长链接中的信息也都是整型,只要转化一下,再拼凑起来组成短链接就可以了,这样就连数据库hash表都可以不用建立。