一种基于JSON语法的JSON数据转换器

1. 项目背景

最近产品研发中我们设计了一个算法集成规范,定义了一个统一的算法服务API接口,并通过产品的“模型管理”模块进行算法服务的配置,从而实现外部算法服务的灵活集成与扩展。

这个模式对于新开发的算法是没有问题的,按照定义的接口规范实现就可以轻松地集成。但是对于已有的算法,或者遇到客户比较强势不愿意改自己接口的时候,就比较尴尬了。有没有什么比较好的方式能够解决这个问题呢?

另外,网上有很多开放的API服务,可以非常方便地进行调用。但是尽管大部分API都采用JSON格式作为返回数据格式但却格式不同,如何能够方便进行利用呢?

2. 需求提炼

根据场景问题,我把需求进行了提炼,问题转化为:设计一个通用的工具,以JSON数据作为输入,根据指定的规则进行数据格式转换、数据提取,从而解决上述问题。

目前仅考虑支持JSON,主要是大部分线上API服务(我司全部后台服务)使用JSON作为返回值格式,甚至采用标准restful 形式。

那么,对于规则应该如何提炼、设计呢?初步考虑也采用JSON语法,JSON本身相对简单、容易理解,对于不太了解编程开发的人来说会比较友好。关于JSON语法规范,建议大家直接看JSON官网,非常好理解。

下一步就是对JSON规则进行设计

3. 规则设计

我目前先考虑几种简单情况。
(1)样例数据设计

{
  code: 20000,
  msg: "abcde",
  data: {
    ner: {
      name: "aaa",
      type: "person",
      start: 5,
      end: 7,
      info: ['abc']
    },
    events: [
      {type, subtype, trigger}
    ],
    ent_name: [
      "a", "b", "c"
    ],
    ent_type: [
      "person", "loc", "org"
    ]
  }
}

(2)单值规则

1. $ 代表顶层,即输入本身(当前处理的顶层)
2. x.field 表示x为JSON对象,获取x的field字段;支持特殊field:$len 表示字符串或数组长度;$keys 表示获取字典的key组成的数组
3. x[y] 表示x为JSON数组,获取x数组的第y项元素
4. 上述规则可以嵌套,从而支持任意层次的单值信息获取(除非获取元素本身为数组)

示例如下:

- $.code -> 20000
- $.data -> {ner, events }
- $.data.ner.name -> 'aaa'
- $.data.ner.info[0] -> 'abc'
- $.data.ner.$keys -> ['name', 'type', 'start', 'end', 'info']
- $.data.events.$length -> 1
- $.data.events

(3)对象规则

5. 对象规则,返回对象  { "a": "aaa" } 没有变量,返回规则本身;{ "a": "$.a[2].e"} 根据指定规则获得a的值
6. key为$root 用于指定当前访问的顶层节点
7. key为$val 用于将本规则返回值作为当前层级的值
8. key为$fun 用于提供一段脚本函数(例如js脚本,待定)进行执行,以函数返回值作为该字段的值,用于应对复杂情况

示例如下:

{
  "$root": "$"
  "data": {
    "$root": "$.data.events",
    "$val": "$"
  }
}
->
{
  "data": [
      {type, subtype, trigger}
  ]
}

(4)数组规则

9. 数据规则返回数组,数组中每个元素为一个新的规则

示例如下:

["$.data.ent_name[0]", "$.data.ent_type[0]"] 
->
["a", "person"]

(5)其他待考虑情况
基于目前了解到的API形式,还有以下需求上述规则未能很好覆盖:

  1. 对于对称的子树,如果自动进行匹配返回?例如示例数据中,需要对ent_name和ent_type进行配对返回:
 [["a", "person"], ["b", "loc"], ["c", "org"] ] 

这里的问题是数组长度是不定的,且横向的数量也是不定的(请大家想象一棵树,水平的多个子树)。另外对于对称的JSON对象节点又应该如何处理?

  1. 如何实现对获取值进行映射?比如上述NLP结果中返回的person(人物),需要转换成统一标识PER
  2. 如何实现根据业务逻辑进行获取?比如上述实例数据中如果code不等于20000,就应该返回错误
    这留待后续进行完善。

4. 程序设计

把规则描述清楚了,其实主要工作就结束了,因为这个问题就是树遍历+文本处理问题,类似SQL解析、模板消解或着编程课里面小儿科的“手写计算器”之类的问题。

说一下主要思想:

  1. 首先JSON值是一棵树,输入规则是JSON,所以也是一棵树,带着规则对树进行遍历,直到获取所有数据。由于是多叉树,所以一开始别想着用循环进行树遍历,那样太累了,直接上递归。在限定数据规划和栈层次的情况下,不会发生溢出,这一点我可以保证,信不信由你 ^^
  2. 根据当前规则的类型进行判断,如果是字符串,并且以$开头,那么肯定是简单规则,一撸到底
  3. 再看是否是对象规则,区分几种特殊key的情况:
    3.1 $root 这是相当于上下文跃迁,直接把当前数据节点定位到了指定的数据节点上了,甚至可以新建一个上下文 与原来的节点可以毫无干系

3.2 $val 是指定获取的值直接作为当前对象规则的返回值,所以要直接返回

3.3 $fun 是指定用函数进行评估,这个函数具体用什么语言(JS还是python),稍微有点复杂(例如跨语言)后面再考虑,但是基本可以确定需要传递给函数的是当前节点和当前规则

3.4 其他特殊key考虑,可能涉及调整优先级,目前暂无

3.5 进行对象遍历,相当于以输入为模板对象,进入下一层

  1. 再看是否是数组规则,目前比较简单粗暴,直接遍历数组,递归进入下一层,最后返回数组值

  2. 其他情况,直接返回当前数据节点

5. 简单规则解析

在上述思想框架下,剩下一个叶子节点问题,那就是对简单规则进行解析。直接点,上状态机:


image.png

状态转移矩阵:


image.png

在此状态图指引下,很容易写出相关程序,这里不再赘述。

初步效果如下:


image.png

6. 错误处理

如果规则不符合约定规范怎么办?这个时候肯定需要进行错误处理。程序里面唯一没有问题的就是总是有问题!

目前简单的想法就是在遇到错误的时候返回错误状态,但是解析过程会尽可能继续。

主要考虑的几种错误包括(再看一下状态图):

  1. 期待 .[ ,但遇到了其他字符,Invalid Start
  2. 期待其他字符,却遇到了.[,Invalid Token
  3. [开始的token,没有遇到],Dangling [
  4. " 开始的token,没有遇到结束的引号,Dangling "
  5. ]结束的token,发现不是数字 Invalid Index

7. 设计细节

  1. 把简单规则归纳为以$开头,包含0个或多个<操作, 参数>的列表,解析过程就是获取每一个操作及其参数,操作分为 .操作和index操作,分别对应对象和数组的访问
  2. 我利用了Python的生成器机制,符合条件的时候就yield返回,从而解析函数可以被当做迭代器来遍历
  3. 为了支持特殊符号的key,引入引号,凡是引号括起来的内容都是一个token
  4. 添加一个简单的校验函数,通过调用解析函数,发现错误即失败返回

8. 工程化设计应用

目前为止只是实现了一个工具,可以单独运行,但是不能很好地提供给别人使用。那么需要考虑几个方面:

  1. 服务化,基于Web框架,实现Web服务,支持接收数据和规则,返回解析结果。常见的Python Flask和Java SpringBoot都可以很方便地实现。
  2. 持久化,规则多了之后就需要管理,由于规则相对来说不变,优先考虑把规则存储起来,并分配一个ID,使用时,只需要传递数据和规则ID即可。常用的MySQL和MongoDB都可以推荐。使用MongoDB的时候,注意MongoDB的查询语法也是JSON,因此建议对规则进行JSON序列化,保存为一个String字段
  3. 服务集成,不仅要保存规则,还要保存服务相关的信息,基本信息包括API地址、请求方法、请求头固定参数、请求体固定参数等。请求服务时,由客户端指定服务ID、规则ID,以及请求头和请求体中变化的参数,基于服务基本信息封装成最后的请求后执行,对返回结果应用规则获取输出并返回给客户端。这里主要涉及HTTP的知识。常用的库requests、urllib、Apache HttpClient等
  4. 规模化调用,系统如果涉及大量的服务集成调用或大量规则需要分别执行,可以采用多线程、多进程、消息中间件等技术,实现任务调度。推荐使用消息中间件(如Kafka),将任务写入队列中,并启用多个消费者或流处理引擎(Spark 或 Flink)进行消费执行
  5. 自动化,基于触发或定时进行自动化调度。crontab就很好用。

9. 下一步考虑

  1. 完善规则设计和解析引擎,使得规则更加强大
  2. 算法服务集成的demo系统,提供简单前端界面进行配置
  3. 线上数据服务持续集成,实现特定领域数据快速获取和持续积累
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容