twitter的snowflake算法

snowflake算法是twitter提出的一个用来生成不重复ID的算法,用于解决ID冲突。适用于:先插数据,然后根据id更新数据。还有分布式多机同时取ID。

这个算法本身并不复杂,它的原理是根据时间(ms)来不断更新ID。ID由64bit组成,分为workerId、datacenterId、timestamp(ms)、sequence四部分。其中workerId占5个bit,datacenterId占5个bit,sequence占12个bit。为了不产生溢出,timestamp还要减去一个固定值。因为timestamp本身就是32位的数值,添加了毫秒以后位数就多了。减去一个固定值以后,可以有效的减少位数,而不产生冲突,保证重复性。

private[this] val workerIdBits = 5L
private[this] val datacenterIdBits = 5L
private[this] val maxWorkerId = -1L ^ (-1L << workerIdBits)
private[this] val maxDatacenterId = -1L ^ (-1L << datacenterIdBits)
private[this] val sequenceBits = 12L
private[this] val workerIdShift = sequenceBits
private[this] val datacenterIdShift = sequenceBits + workerIdBits
private[this] val timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits
private[this] val sequenceMask = -1L ^ (-1L << sequenceBits)

timestamp放在最左边,然后是datacenterId,接着是workerId,最后是sequence。sequence最大可以达到12位,也就是说每个毫秒对datacenterId+workerId可以产生4095个ID。我相信对每秒上万的qps的服务器也是足够用的了。下面的代码是生成算法,从twitter的源码拷出来的。

((timestamp - twepoch) << timestampLeftShift) |
      (datacenterId << datacenterIdShift) |
      (workerId << workerIdShift) | 
      sequence

这个算法我们已经用于统计HTTP请求,有一些业务需要记录请求的参数,以便查找和定位问题,这个记录要分为两步,每一步是请求进来的参数,如果请求处理完了,在返回前,还要把这个请求的结果再更新一把。

从目前的情况来看,运行效果良好。唯一要注意的是,这个算法必须是一个单例,否则每次sequence都从0开始会产生冲突。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 11,186评论 6 13
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,993评论 19 139
  • 序 本文主要来聊聊分布式id的生成方案。 目标 业务系统需要什么样的ID生成器中提出了几点目标: 唯一性 时间相关...
    go4it阅读 652评论 0 3
  • 本文主要介绍在一个分布式系统中, 怎么样生成全局唯一的 ID 一, 问题描述 在分布式系统存在多个 Shard 的...
    hanayona阅读 2,043评论 0 5
  • 从三月份找实习到现在,面了一些公司,挂了不少,但最终还是拿到小米、百度、阿里、京东、新浪、CVTE、乐视家的研发岗...
    时芥蓝阅读 42,375评论 11 349