(一)atlas源码:源码架构

基本信息

Aparche Atlas是Hadoop数据治理与元数据框架,对元数据进行采集分类,提供高效的查询,还支持血缘关系的查询


代码模块介绍

根据架构图,我们从下至上介绍,我个人主要类比三层模型

数据库层(有点像DAO层)

由上面的图我们知道atlas数据存储模块使用的图数据库--janusgraph,而下图中graphdb的代码模块就是atlas对于这部分的封装,

首先需要知道的一点,在这个模块,我个人觉得,atlas在声明接口的时候有点DDD的味道

  • api: 定义了各个实体对象抽象,边界上下文等多个顶级接口,封装定义了图,顶点,边,边的方向,图的遍历器,图的索,图管理器等多个聚合根,聚合根只是定义了各个领域中的
  • common: 图数据库公共代码,主要是Tinkerpop图数据库和图计算框架,主要提供了图数据库查询表达式(例如and,has,in,or,orderby)和查询接口
  • janus: JanusGraph图数据库实现模块
    • graphson:主要提供GraphSON格式数据操作实用工具方法,主要工具方法和业务代码在AtlasGraphSONUtility类中,提供唯一的公共静态API方法:jsonFromElement,用于将图元素对象转化成json格式的GraphSON对象
    • migration包:数据迁移相关的代码包,主类是GraphDBGraphSONMigrator,用于导入旧数据,入口方法:importData
    • query包:查询相关的代码包,主要提供图计算查询构造器AtlasJanusGraphQuery
    • serializer包:序列化相关的的代码包,提供几种数据类型的序列化实现
    • 另外是一些图数据库操作相关的类

优点:良好的命名,良好的注释,大部分代码是在16年写的,风格非常好

仓库层(有点像service层)

跟我们的service层较相似,提供了对atlas中各种对象的增删查改逻辑,源码主要集中在repository模块中


  • discovery:提供text,entity,type等各种检索功能,这代码分为两层,一个接口层,一个实现层,先看接口描述,再看具体逻辑
  • entitytransform:实体转化处理相关的代码
  • glossary:提供元数据术语相关的操作服务
  • listener:type和entity变化的监听的接口定义
  • query:提供基于Gremlin图遍历语言和DSL(Domain Specific Search)语言的元数据查询服务
  • repository: Atlas元数据仓库核心服务
    • audit :提供元数据仓库操作日志审计功能
    • converters:Atlas各种数据类型格式转换处理
    • graph:提供图数据库服务
    • impexp:元数据导入导出处理
    • migration:数据迁移服务
    • ogm:各种数据传输对象DTO定义
    • patches:补丁管理服务
    • userprofile:用户Profile服务
  • services:提供统计度量服务
  • task: atlas底层任务的定义
  • store:Atlas元数据存储访问服务层
  • util:提供实用工具API
  • GraphTransactionAdvisor 图事务切面,GraphTransactionInterceptor图事务拦截器

集成层(类比controller层)

其中定可以分为三个部分,intg包,notification包,web-app包

intg

在接口,web UI中展示的大多数内容都定义在这里,type,entity等

  • bulkimport:批量导入的返回值

  • exception:atlas基础异常类

  • model:提供各种模型定义

  • security:提供安全相关的配置管理

  • type包:提供各种Atlas类型定义

  • typesystem.types:定义了一个atlas类型目录枚举类,GraphDB 中的顶点属性使用过程中引用了这个类型

  • utils包:提供Atlas实体处理的实用工具静态API方法、Kerberos认证的实用工具静态API方法

  • v1:提供V1版本的模型定义和类型操作API方法

  • ApplicationProperties和AtlasConfiguration提供Atlas属性参数管理

  • AtlasErrorCode和AtlasException:atlas的异常码定义和异常定义(这个地方有点疑问,为什么不放在exception包里面,单独拿出来有什么特别的意义吗)

  • DeleteType和SortOrder:删除枚举类(软删除和硬删除)和排序枚举类(升序和降序)

messaging

对应notification包,kafka消息的处理,hook 发送过来的消息就在这里处理,这里值得注意一点,atlas会在kafka中创建两个topic:ATLAS_ENTITIES和ATLAS_HOOK

ATLAS_HOOK:各个hook获取的元数据通过该topic发送给atlas。atlas中的小标题写的很好,Notifications to Apache Atlas

atlas中的原文:

Apache Atlas can be notified of metadata changes and lineage via notifications to Kafka topic named ATLAS_HOOK. Atlas hooks for Apache Hive/Apache HBase/Apache Storm/Apache Sqoop use this mechanism to notify Apache Atlas of events of interest.

ATLAS_ENTITIES:atlas将元数据信息通过该topic通知给其他应用。atlas中的小标题,Notifications from Apache Atlas

原文:

Apache Atlas sends notifications about metadata changes to Kafka topic named ATLAS_ENTITIES . Applications interested in metadata changes can monitor for these notifications. For example, Apache Ranger processes these notifications to authorize data access based on classifications.
API<HTTP/REST>

对应webapp包,这个包定义了web调用的api和client包中实际调用的api,跟我们平时使用的controller很像

  • examples:提供测试web api的例子,可以模仿着做快速的接口测试
  • notification:消息通知处理,就跟上面模块将的那样,这里主要进行ATLAS_ENTITIES中的消息的创建
  • util: 这个包只有一个类--CredentialProviderUtility,用于生成凭证提供程序的工具类
  • web:包含用户登陆访问数据接口,异常错误处理,登陆认证的过滤器,用户登录处理,用户属性的定义,参数定义,资源信息api接口,各种元数据相关的rest接口,安全事务处理,基础服务,web服务自动装配,工具包等内容
  • atlas类,单机服务启动的驱动等

数据入口(metadata sources)

对应代码的addons模块,这里主要定义了各个hook的桥接代码


这个主要使用了Apache Falcon,一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理。

主要相关代码是两个模块falcon-bridge和falcon-bridge-shim

剩下的模块就是hive,hbase等多种组件将元数据导入到atlas的桥接口扩展模块。

数据出口(apps)

对应的代码中的authorization,dashboardv2这些模块

authorization是atlas的鉴权模块,支持simple鉴权和ranger两种鉴权模式

dashboardv2是前端代码,就是web UI页面。

client是atlas对外提供的接口(openAPI)声明,有两个版本,目前主要使用v2版本

其他模块介绍

刚刚讲了atlas架构图上直观感受到的代码模块,还有一些代码模块没用提及到

common: 公共模块,主要提供启动和停止所有服务的功能、公共配置和高可用配置管理、公共注解接口、Groovy表达式定义

3party-licenses:第三方组件许可

build-tools:构建工具,主要是checkstyle的代码检查

dev-support:开发支持,主要跟docker开发相关的支持

distro:atlas分布式部署相关的配置文件,关于zk,hbase,solr等

docs:atlas的相关文档

plugin-classloader:加载atlas插件的加载类

test-tools:测试工具模块,本地运行solr

tools:工具模块,atlas索引修复,元数据导出等

写在最后的话

我在掘金平台也发了同样的文章,因为自己平时社交能力有限,很想通过写技术文章认识一些朋友,欢迎私信留言,交个朋友

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容