基本信息
Aparche Atlas是Hadoop数据治理与元数据框架,对元数据进行采集分类,提供高效的查询,还支持血缘关系的查询
代码模块介绍
根据架构图,我们从下至上介绍,我个人主要类比三层模型
数据库层(有点像DAO层)
由上面的图我们知道atlas数据存储模块使用的图数据库--janusgraph,而下图中graphdb的代码模块就是atlas对于这部分的封装,
首先需要知道的一点,在这个模块,我个人觉得,atlas在声明接口的时候有点DDD的味道
- api: 定义了各个实体对象抽象,边界上下文等多个顶级接口,封装定义了图,顶点,边,边的方向,图的遍历器,图的索,图管理器等多个聚合根,聚合根只是定义了各个领域中的
- common: 图数据库公共代码,主要是Tinkerpop图数据库和图计算框架,主要提供了图数据库查询表达式(例如and,has,in,or,orderby)和查询接口
- janus: JanusGraph图数据库实现模块
- graphson:主要提供GraphSON格式数据操作实用工具方法,主要工具方法和业务代码在AtlasGraphSONUtility类中,提供唯一的公共静态API方法:jsonFromElement,用于将图元素对象转化成json格式的GraphSON对象
- migration包:数据迁移相关的代码包,主类是GraphDBGraphSONMigrator,用于导入旧数据,入口方法:importData
- query包:查询相关的代码包,主要提供图计算查询构造器AtlasJanusGraphQuery
- serializer包:序列化相关的的代码包,提供几种数据类型的序列化实现
- 另外是一些图数据库操作相关的类
优点:良好的命名,良好的注释,大部分代码是在16年写的,风格非常好
仓库层(有点像service层)
跟我们的service层较相似,提供了对atlas中各种对象的增删查改逻辑,源码主要集中在repository模块中
- discovery:提供text,entity,type等各种检索功能,这代码分为两层,一个接口层,一个实现层,先看接口描述,再看具体逻辑
- entitytransform:实体转化处理相关的代码
- glossary:提供元数据术语相关的操作服务
- listener:type和entity变化的监听的接口定义
- query:提供基于Gremlin图遍历语言和DSL(Domain Specific Search)语言的元数据查询服务
- repository: Atlas元数据仓库核心服务
- audit :提供元数据仓库操作日志审计功能
- converters:Atlas各种数据类型格式转换处理
- graph:提供图数据库服务
- impexp:元数据导入导出处理
- migration:数据迁移服务
- ogm:各种数据传输对象DTO定义
- patches:补丁管理服务
- userprofile:用户Profile服务
- services:提供统计度量服务
- task: atlas底层任务的定义
- store:Atlas元数据存储访问服务层
- util:提供实用工具API
-
GraphTransactionAdvisor
图事务切面,GraphTransactionInterceptor
图事务拦截器
集成层(类比controller层)
其中定可以分为三个部分,intg包,notification包,web-app包
intg
在接口,web UI中展示的大多数内容都定义在这里,type,entity等
bulkimport:批量导入的返回值
exception:atlas基础异常类
model:提供各种模型定义
security:提供安全相关的配置管理
type包:提供各种Atlas类型定义
typesystem.types:定义了一个atlas类型目录枚举类,GraphDB 中的顶点属性使用过程中引用了这个类型
utils包:提供Atlas实体处理的实用工具静态API方法、Kerberos认证的实用工具静态API方法
v1:提供V1版本的模型定义和类型操作API方法
ApplicationProperties和AtlasConfiguration提供Atlas属性参数管理
AtlasErrorCode和AtlasException:atlas的异常码定义和异常定义(这个地方有点疑问,为什么不放在exception包里面,单独拿出来有什么特别的意义吗)
DeleteType和SortOrder:删除枚举类(软删除和硬删除)和排序枚举类(升序和降序)
messaging
对应notification包,kafka消息的处理,hook 发送过来的消息就在这里处理,这里值得注意一点,atlas会在kafka中创建两个topic:ATLAS_ENTITIES和ATLAS_HOOK
ATLAS_HOOK:各个hook获取的元数据通过该topic发送给atlas。atlas中的小标题写的很好,Notifications to Apache Atlas
atlas中的原文:
Apache Atlas can be notified of metadata changes and lineage via notifications to Kafka topic named ATLAS_HOOK. Atlas hooks for Apache Hive/Apache HBase/Apache Storm/Apache Sqoop use this mechanism to notify Apache Atlas of events of interest.
ATLAS_ENTITIES:atlas将元数据信息通过该topic通知给其他应用。atlas中的小标题,Notifications from Apache Atlas
原文:
Apache Atlas sends notifications about metadata changes to Kafka topic named ATLAS_ENTITIES . Applications interested in metadata changes can monitor for these notifications. For example, Apache Ranger processes these notifications to authorize data access based on classifications.
API<HTTP/REST>
对应webapp包,这个包定义了web调用的api和client包中实际调用的api,跟我们平时使用的controller很像
- examples:提供测试web api的例子,可以模仿着做快速的接口测试
- notification:消息通知处理,就跟上面模块将的那样,这里主要进行ATLAS_ENTITIES中的消息的创建
- util: 这个包只有一个类--CredentialProviderUtility,用于生成凭证提供程序的工具类
- web:包含用户登陆访问数据接口,异常错误处理,登陆认证的过滤器,用户登录处理,用户属性的定义,参数定义,资源信息api接口,各种元数据相关的rest接口,安全事务处理,基础服务,web服务自动装配,工具包等内容
- atlas类,单机服务启动的驱动等
数据入口(metadata sources)
对应代码的addons模块,这里主要定义了各个hook的桥接代码
这个主要使用了Apache Falcon,一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理。
主要相关代码是两个模块falcon-bridge和falcon-bridge-shim
剩下的模块就是hive,hbase等多种组件将元数据导入到atlas的桥接口扩展模块。
数据出口(apps)
对应的代码中的authorization,dashboardv2这些模块
authorization是atlas的鉴权模块,支持simple鉴权和ranger两种鉴权模式
dashboardv2是前端代码,就是web UI页面。
client是atlas对外提供的接口(openAPI)声明,有两个版本,目前主要使用v2版本
其他模块介绍
刚刚讲了atlas架构图上直观感受到的代码模块,还有一些代码模块没用提及到
common: 公共模块,主要提供启动和停止所有服务的功能、公共配置和高可用配置管理、公共注解接口、Groovy表达式定义
3party-licenses:第三方组件许可
build-tools:构建工具,主要是checkstyle的代码检查
dev-support:开发支持,主要跟docker开发相关的支持
distro:atlas分布式部署相关的配置文件,关于zk,hbase,solr等
docs:atlas的相关文档
plugin-classloader:加载atlas插件的加载类
test-tools:测试工具模块,本地运行solr
tools:工具模块,atlas索引修复,元数据导出等
写在最后的话
我在掘金平台也发了同样的文章,因为自己平时社交能力有限,很想通过写技术文章认识一些朋友,欢迎私信留言,交个朋友