南大通用GBase 8a MPP Cluster 产品技术简介(四)

原文链接:https://www.gbase.cn/community/post/4231

更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

今天给大家介绍下高级功能特性,如需查阅前文,请参考如下链接:

GBase 8a MPP Cluster产品基本介绍:https://www.gbase.cn/community/post/4209

单节点列存储数据库技术: https://www.gbase.cn/community/post/4218

MPP大规模并行计算技术: https://www.gbase.cn/community/post/4221

GBase 8a MPP Cluster高级特性

1.1 数据加载及集成

1.1.1数据加载

GBase 8a MPP Cluster中,集群加载功能直接集成在GBase 8a MPP Cluster内部,不需要额外部署外部加载工具。

数据加载具备如下一些特性和优点:

1)与集群高度集成;

2)面向用户的SQL接口方式更符合用户的使用习惯;

3)支持单表多数据源并行加载,支持多加载机对单表的并行加载,最大化提升加载性能;

4)支持从通用数据服务器拉取数据,支持ftp/sftp/hdfs/Kafka/http/https等多种文件传输协议;

5)支持普通文本、gzip压缩、snappy压缩、lzo压缩等多种格式数据文件;

6)支持普通文本、定长文本、宽松模式的加载;

7)支持用户自定义列分割符、行分隔符和日期时间格式;

8)支持错误数据溯源功能,可以准确定位错误数据在源文件中的位置;

9)加载性能可以随着集群规模的扩展而持续提升。

1.1.2kafka数据集成

数据同步系统通过Oracle Golden Gate(OGG)、GBase RTSync等工具复制Oracle、GBase 8s等数据库的业务数据,通过kafka同步到GBase 8a MPP Cluster,为了应对业务系统可能的峰值,在系统中加入Kafka消息队列作为缓冲区。总体流程如下:

OGG发送端(GoldenGate Extract)从Oracle的在线日志和归档日志中抽取事务信息,生成Trail文件。OGG接收端(GoldenGate Replicat)收到Trail文件抽取事务信息转换为目标格式,并生产事务消息到Kafka。Consumer从Kafka中消费事务消息,将数据更新到8a MPP Cluster中。

Kafka consumer的主要功能就是同步Kafka数据到8a MPP Cluster:

1)根据配置,可以指定需要同步的业务;

2)在同步过程中,提供同步状态查询功能;

3)实现数据同步的高可用性和事务数据一致性。

1.2 虚拟集群及镜像集群

1.2.1虚拟集群

虚拟集群以大规模集群为基础开发,一个集群中包含多个虚拟子集群(VC)。各VC在整个集群范围内独立运行,共享统一的入口。权限许可的情况下,各虚拟集群间可以相互访问。

支持Coordinator node(包含Gcluster node和Gcware node)和VC的data node在同一个物理节点上。

统一管理

在集群内部进行虚拟集群划分,在增强集群的扩展能力同时,提供统一的管理视图,集群可以达到千节点规模。

集群统一访问入口

用户选择Coordinator cluster(包含Gcluster调度集群和Gcware管理集群,通常将这两个集群部署在一起统称为Coordinator cluster)中的任意一个Coordinator node作为集群入口。Coordinator node根据用户确定默认VC。

注:coordinator节点存储了所有VC的database和表的元数据。

业务隔离

虚拟集群对集群进行垂直资源隔离,在实际的业务场景中,可以实现不同业务的资源物理隔离。

透明访问

虚拟集群提供统一的访问入口,应用对多个物理集群的访问对应用是透明的,对应用来说就是一个统一的集群。

1.2.2镜像集群

虚拟集群的镜像功能有以下特点: 

灵活的镜像配置:支持库级、表级镜像设置; 

数据实时同步:对具备镜像关系的库、表进行数据变更时两边实时同步。互为镜像的库下所有表都将自动创建镜像。库下所有函数、存储过程和视图都会同步在目标库下创建;

高可用:镜像关系为数据提供更多的冗余分片,具备更高的可用性;灾备:支持同城异地部署集群。

1.3数据安全

1.3.1数据加密

GBase 8a MPP Cluster数据加密是提供对数据库落地数据的加密功能,用来满足用户的安全需求,提高系统的安全性。数据加密按照数据文件中的DC数据块为最小单位进行,可以实现表级或者列级不同粒度的加密要求。

数据加密支持如下特性:

支持加密关键字encrypt建表

支持表级或者列级不同粒度的加密要求

支持表加密属性的查询

支持密钥证书管理

包括密钥证书的创建、打开、关闭、口令修改、密钥转换操作

支持密钥类型转换,即从明文密钥转换到密文密钥,或从密文密钥转换到明文密钥

明文密钥:无须用户口令,可随机生成也可手动输入

密文密钥:需用户输入口令,根据口令对随机生成的密钥加密存储

支持查询当前密钥证书状态

支持行存列加密

1.3.2数据脱敏

GBase 8a MPP Cluster提供动态数据脱敏的新特性,使得开发人员或者数据库管理员能够控制敏感数据的暴露程度,并且在数据库层面生成数据,大大简化了数据库应用层的安全设计和编码。

按权限及字段属性

用户可以通过sql语法的形式,给需要进行数据脱敏的字段添加脱敏属性,通过用户权限控制,决定是否对有查询要求的用户暴露原始数据。

内置规则

动态数据脱敏并不会真正改动表中存储的实际数据,只是在查询的时候应用该特性控制查询返回的数据,动态数据脱敏支持四种数据脱敏函数,包括默认脱敏default、随机脱敏random、自定义脱敏partial、哈希脱敏SHA和指定符号为起始位置脱敏keymask。动态数据脱敏是否启用受当前用户权限影响,拥有unmask权限的用户不受脱敏规则影响可以访问实际数据,没有unmask权限的用户受脱敏规则影响只能访问到脱敏后的数据。脱敏只对投影列有效。

1.4全文检索

GBase 8a MPP Cluster数据库支持全文检索,由于默认采用全单字索引方式,支持几乎所有的语种,并且可以保证100%的查询召回率。结合GBase 8a MPP Cluster独特的列存储,压缩和智能索引技术,适合面向海量数据的检索查询应用。

支持对外部存储文档建立全文索引并提供检索,支持的文档格式如txt、doc、XML、HTML、PDF、xls等。

主要功能包括:

1.建立索引与搜索

在GBase 8a MPP Cluster中内嵌全文检索引擎,支持表中所有文本类型字段的索引与查询。

支持参数化管理,索引建立、分词、索引维护、搜索等过程均可以通过GBase 8a MPP Cluster的标准配置文件进行方便的配置。

在GBase 8a MPP Cluster中内嵌文本分词器功能,以实现对文本列、搜索串的单字切分,并能保证两者的切分规则、切分结果的一致性,防止由上下文语境导致的切分不一致。

支持全文索引同步查询,在创建索引过程中可实现查询功能。新追加数据可分批创建索引,当索引数据缓冲区中数据处理完成到索引文件后,用户可立即搜索到这些已创建索引的新内容,而不是等所有新数据都建好索引之后才能查询。

支持数据库表中已建立全文索引列的词句逻辑表达式查询(AND、OR、NOT)、NEAR查询,并支持与非全文索引字段之间的逻辑组合查询。

2.支持DML

支持数据库表中字符数据类型列已建立全文索引的在线删除。

支持列数据Update后全文索引的同步更新。

3.支持DDL

支持数据库表在建立全文索引列被删除后,索引的自动失效。

支持数据库表重新命名后,索引不失效。

1.5库内挖掘

GBMLLib是GBase 8a MPP Cluster的数据挖掘和机器学习扩展库,以插件的形式添加到GBase 8a MPP Cluster中。通过其提供的机器学习算法,GBase 8a MPP Cluster可以对用户数据进行深层次的分析和挖掘,将用户数据转化为用户价值。

GBMLLib提供了基于SQL的机器学习算法,目前包括的算法有:回归算法(线性回归)、分类算法(Logistic回归、支持向量机)和聚类算法(K-Means)。同时也提供了一些数组操作和线性代数计算的基本函数。

GBMLLib具备以下技术特征:

SQL接口:GBMLLib提供了SQL方式的数据挖掘算法,模型的训练、评估和预测都通过SQL语句来执行,使得数据分析师非常容易掌握,并与其现有技能结合,充分发挥其创造力、提高工作效率;

In-database分析:不同于其他分析工具需要通过api或odbc把数据从数据库搬移到分析节点进行处理的方式,GBMLLib的分析算法以数据库udf/udaf的形式运行在GBase 8a MPP Cluster的线程内部,通过GBase 8a MPP Cluster的执行计划进行调度,最大程度的减少数据的搬移、提升运行速度;

方便扩展:GBMLLib以插件的形式添加到GBase 8a MPP Cluster中,并采用弹性灵活的软件架构,方便后续添加新的数据挖掘和机器学习算法。

GBase 8a MPP Cluster 产品的高级特性就先介绍这些,希望对大家有所帮助~

原文链接:https://www.gbase.cn/community/post/4231

更多精彩内容尽在南大通用GBase技术社区,南大通用致力于成为用户最信赖的数据库产品供应商。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容