es按日分表造成的数据不一致性

之前业务线上出现了es日表数据不一致的情况,我一开始一脸蒙蔽,后来请教同事也好,自己查阅资料也好,最后的问题其实是小到自己看不见的代码问题。最近是个空档期,记录一下血案。

业务场景描述:

业务项目中用户,股票,文章之间有着关联关系,线上数据越来越多时,采取的方案是数据首先落库,然后同步到es(elasticsearch)中,即是做缓存数据库,也方便了搜索业务需要。

后来随着用户和文章之间的关联关系数据量越来越大,决定对es按天分表,即每天会自动的产生一个天索引(这里的索引和mysql索引不一样),es中索引的概念可以类比与mysql中数据库db的概念,类似于库,索引是具有某些相似特征的文档的集合。我们用的es版本较高,所以一个索引下只有一个type(type好比关系型数据库中的table),type下有着大量的document。那出现的数据问题是什么呢?我们的业务逻辑代码是根据这个业务线中一条document中的publishTime字段来决定这条数据落到哪个索引中。比如这条数据中的publishTime为20191023,那它就会落到index_20191023这个索引中。但是现在居然在index_20191023这个索引中发现了其他天的数据,而且并没有规律可言,不同索引中有着很多不同日期的数据,造成了es数据的混乱。

主要从下面几个方面来排查:

1.es集群本身的问题,或许由于多节点,多分片造成的。

      一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。

2.线上环境数据量太大,当代码中有线程不安全的地方,会造成数据错乱

3.关系型数据库同步到es的方案机制是否有问题

不管是哪个方面问题,核心就是根据字段publishTime找到相对应的es索引,然后存储这个过程除了问题,我一开始一度怀疑是es研发部门的问题,,,,我在document中多加了一个字段index,index就是publishTime的一种拼接形式,如果所有数据中index和es索引名一致,那就不是人家es部门的问题,如果不一致,说明落到es库时出了问题。但是我加了一条日志后,在线上看到的index和es索引是一样的,于是第一种原因就排除了。

之后几天反复的看预发环境和线上环境的数据,发现新测试的数据在预发环境上是保持一致的,没有错误。在线上就会出问题,看来就是数据量一上来,就会造成数据混乱,这显然就是代码中有危险的地方,有线程不安全的地方。

于是就回去仔细看代码,当然核心还是publishTime前前后后各种格式的转换,终于发现了simpledateFormat这个类,它是线程不全的,如果非要用它,那就不要让所有线程共享,应把它设置成局部变量。当然还有其他的解决办法,比如设置成threadLocal类型,或者利用同步锁。当然这里如果要用threadLocal的话,也是有点不稳妥的,如果线程数过多,threadlocal要是常驻内存会有风险,我当时也不确定threadlocal会不会释放回收,可能会造成内存泄漏的问题。

经过查阅资料,发现threadlocal内部果然会有无法释放的部分,如下图,实现是强引用,虚线是弱引用

每个thread中都存在一个map, map的类型是ThreadLocal.ThreadLocalMap. Map中的key为一个threadlocal实例. 这个Map的确使用了弱引用,不过弱引用只是针对key. 每个key都弱引用指向threadlocal. 当把threadlocal实例置为null以后,没有任何强引用指向threadlocal实例,所以threadlocal将会被gc回收. 但是,我们的value却不能回收,因为存在一条从current thread连接过来的强引用. 只有当前thread结束以后, current thread就不会存在栈中,强引用断开, Current Thread, Map, value将全部被GC回收.


threadLocal生命相关引用

所以最后修改bug就显而易见了,即保证线程初始化的时候单独调用simpledateFormat,各自享用空间,或者在jdk1.8之后有代替它的线程安全的类。

这次修复es线上数据优化问题其实很多时候都是代码中我们很难发现的一些不安全问题,但更重要的是排查问题的定位与分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容

  • 不足的地方请大家多多指正,如有其它没有想到的常问面试题请大家多多评论,一起成长,感谢!~ String可以被继承吗...
    启示录是真的阅读 2,929评论 3 3
  • 包含的重点内容:JAVA基础JVM 知识开源框架知识操作系统多线程TCP 与 HTTP架构设计与分布式算法数据库知...
    消失er阅读 4,310评论 1 10
  • 一、基础知识:1、JVM、JRE和JDK的区别:JVM(Java Virtual Machine):java虚拟机...
    杀小贼阅读 2,373评论 0 4
  • 九种基本数据类型的大小,以及他们的封装类。(1)九种基本数据类型和封装类 (2)自动装箱和自动拆箱 什么是自动装箱...
    关玮琳linSir阅读 1,882评论 0 47
  • 一 基础篇 1.1 Java基础 面向对象的特征抽象:将一类对象的共同特征总结出来构建类的过程。继承:对已有类的一...
    essential_note阅读 690评论 0 0