自定义查询系统设计分析

自定义查询系统设计分析

背景

最近参与某新自定义查询系统开发,系统是锋哥设计的,核心代码也是锋哥写的。作为一个搬砖者自下而上的分析学习一下大神的系统设计。文中的谈到架构设计内容是根据对代码理解重新整理出来的,不代表系统的实际架构和实现。同时由于业务和技术的复杂性及其他原因,不对实现细节作说明。

设计场景

在该系统之前已经有两个自定义查询系统,一个为竞争对手的CS系统,一个为我司开发的BS系统。两个系统均用了MS SQLSERVER为数据存储和查询引擎,实现的业务功能很多,同时也有比较严重的性能问题。新系统的主要使命是用新技术提高自定义查询性能,改善可用性,同时对飙竞争对手的系统。因此也有很多设计上不合理但必须的功能。

必备知识

系统中用到了一些新技术,这些新技术或者非主流的技术是该系统实现的基石,这里做一个简单介绍。

  • ElasticSearch全文搜索引擎。需要对ES的DSL查询语言和数据模型有深入的理解。
  • FreeMarker 模板引擎。前端界面及大量的模型类和数据转换类使用该技术自动生成。
  • layui 前端UI组件。采用前后端分离设计,界面及一些重要的组件用此技术实现,并做了一些改造。
  • RocketMQ 消息队列,在该系统中做数据同步使用。

逻辑架构

系统的主要目的是将若干业务系统的数据信息,清洗转换汇聚到ES中,利用ES在查询方面的性能优势,来实现自定义查询。系统逻辑上大概可以分为以下几个模块:

在这里插入图片描述

数据模型

  • 什么是数据模型?
    数据模型出现的本质原因是RDBMS与ES的数据建模方式不同,需要一套对应规则将各业务系统的数据库表及数据对应到ES中。本系统中数据模型是什么呢?不是代码,是四张核心的excel。这四张excel是本系统的灵魂和精华所在,10万行代码本质上就是围绕这四张excel编写的,同时excel中的数据固化到元数据库中。

  • 数据模型解决了什么问题?

    • 数据从哪里来的问题
      定义了从哪些子系统中获取什么数据及数据的关联方式
    • 数据到哪里去的问题
      定义了在ES中数据存储到哪几个索引、类型和数据文档嵌套方式
    • 查什么数据的问题
      定义了系统中可以查询哪些字段和展示哪些数据字段
    • 怎么查数据的问题
      定义了数据字段在ES中的路径和不同字段类型在ES中使用的查询方式及结果集处理方式

数据同步

通过以下几个主要的步骤实现数据从业务库到ES中的同步:

  • 业务系统中埋点或者数据库触发器将要同步的元信息推送到MQ
  • 消费端(新自定义查询)将要同步的数据以任务的形式落库
  • 新自定义查询系统定时的根据任务从其他系统拉取数据
  • 将拉取的数据做清洗转换导入到ES集群
在这里插入图片描述

数据清洗

系统通过以下几个步骤实现数据的装载和转换:

  • 根据同步任务,各批量装载器实现业务数据的加载
  • 将数据转换的中间结果落盘
  • 从磁盘中读出中间数据,各转换器转换后,导入到ES。
在这里插入图片描述

查询引擎

  • 什么是查询引擎?
    查询引擎主要将前台页面选择的条件和展示字段、排序方式、分页方式、数据合并方式等在后台转换成ES的DSL查询语言并查询出结果。是系统最重要的模块,同时也是代码逻辑最复杂的模块。

  • 查询条件的组合方式
    从组合方式上来说,查询条件有与、或、非、异或、全或几种组合,分别对应着DSL的 must、should、must_not 和其组合。

  • 值的比较方式
    从值的比较方式上来说,主要有精确匹配、范围匹配、前缀匹配、模糊匹配等,分别对应着DSL的term、terms、range、prefix、wildcard等

  • ES的数据建模方式
    从ES的数据建模方式来看,查询主要可以分为嵌套查询、父子查询、子父查询、父子+嵌套查询等

系统主要以流水线得思想将一个复杂的查询拼装,分配给各组件完成,并统一组装,主要有嵌套查询流水线、父子查询流水线、子父查询流水线等

在这里插入图片描述

模板引擎

模板引擎主要将大量重复劳动或者需要灵活变动或者特殊对应关系的代码用模板生成,主要生成前端Html、pojo类,mapper映射和其他元数据磁盘缓存等。

在这里插入图片描述

对外服务

  • 对外服务主要提供了将ES中的数据以某种方式输出,提供给外部系统。

系统总结

首先,优点:

  • 实现了系统的使命,查询性能有很大提高,且由于ES的横向可扩展性,数据量增大也能保证基本查询性能。
  • 引入了新技术新模式,为解决类似问题提供了另外一条思路。且对ES的深入使用,应该是走到了研发中心各团队的前面。
  • 其设计思想和部分代码可以复用借鉴到其他项目。

其次,缺点:

  • 不仅要有新技术新模式,更要引入新思想新用法。还按照传统的方法去使用ES,引入了几个疑难问题,比如复杂排序问题和深分页问题(解决方法参见本人博客)。
  • 设计思想的执行和代码质量因为交付压力大打折扣,代码上有很强的业务耦合,比较难做到直接复用。
  • 数据同步设计有待商榷,比如数据同步的及时性和稳定性及对其他系统的压力。
  • 查询引擎代码有不少重复且后续逻辑有点混乱,耦合度高。
  • 对ES等新技术的特性研究还不够,掉入了一些坑里。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容