在系统小时,唯一标识的产生,可以利用公用模块来处理,比如数据库表的唯一键、或者缓存的唯一id等等方式。但在分布式高并发的系统中,如果还是这样使用公共模块,就会产生很大的风险和瓶颈。网上也有相关推荐的,twitter的snowflake就能解决这个问题。
snowflake满足了以下个要求:
- 只用64位就能达到要求;而无需128的方式。
- 考虑到排序的要求,标识的排序跟时间上基本能保持一致。
- 满足了预期服务时间内的,即在多少年内此算法适用。
snowflake算法核心:
如图,64位。主要由3块构成:时间戳、工作机器id、序列号。
- 其中第一位不用,也可以理解作为正负数来使用,默认正数的。
- 随后41位表示时间戳,在实际使用时,可以当做时间差来使用,比如现在离2017-01-01 00:00:00的时间差。这样的话,时间范围就能达到: (2^41-1)/(1000606024365)=69.7年。
- 中间10位用于工作机器的。可以用于 2^10-1=1023台机器。
- 最后12位表示序列号,一个机器在一个毫秒时最大能产生 2^12-1=4095个。
在实际应用中,可能无需最大化的,比如时间戳只用30位就能达到要求的就无需41位,其他的同理。
工作机器ID,可以是进程级别。机器级别的话,可以使用机器的mac地址或ip地址经过算法;如果是进程级别的话,可以使用path+进程标识;也可以混编,列如前5位标识机器,后5位标识进程。
关于序列号有个注意点,如果一个毫秒内,序列号已经达到上限,就等到下一毫秒,同时序列号置零开始。