2019-07-30

存储和成本管理

14.1数据压缩

在分布式文件系统中,为了提高数据的可用性与性能,通常会将数据存储3分,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。

archive压缩算法

14.2

数据重分布

14.4生命周期管理

1.周期性删除策略

2.彻底删除策略

3.永久保留策略

4.极限存储策略

5.冷数据管理策略

冷数据管理是永久保留策略的扩展。永久保留的数据需要迁移到冷数据中心进行永久保存,同时将MaxCompute中对应的数据删除。一般将重要且不可恢复的、占用存储空间大于100TB,且访问频次较低的数据进行冷备,例如3年以上的日志数据。

6.增量表merge全量表策略

14.4.2

通用的生命周期管理矩阵

1.历史数据等级划分

P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团KPI数据、IPO关联表。

P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。

P2:重要的业务数据和重要的应用数据,具有可恢复性,如重要的业务产品数据。

P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些SNS产品报表。

2.表类型划分

(1)事件型流水表(增量表)

事件型流水表(增量表)指数据无重复或者无主键数据,如日志。

(2)事件型镜像表(增量表)

事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。

(3)维表

(4)merge全量表

(5)ETL临时表

(6)TT临时数据

(7)普通全量表

14.5数据成本计量

将一个数据表的成本分为存储成本和计算成本。存储成本是为了计量数据表消耗的存储资源,计算成本是为了计量数据计算过程中的CPU消耗。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 区块链数字货币资产之钱包 今天给大家介绍的是在加密领域和你切身相关的产品—钱包。现实中钱包是放零钱的地方,更多的钱...
    领航者001阅读 322评论 0 0
  • 阴天的夜里格外清冷,天空中无月无星,世界陷入一片漆黑之中,再也没有比这更黑的夜色了,随之而来的是一种更加深沉的安静...
    范范子诗阅读 265评论 0 4
  • 米粒档案——真名米粒,网名也是米粒;年龄24岁;职业是广告公司小设计;性格嘛,有点小执着,有点小幻想;大学毕业二年...
    喵呜姐姐阅读 634评论 5 3
  • 阳春三月,常言春困的季节来到。 引起犯困的原因,大部分人第一时间会想到是睡眠不足。最常见的是提醒我们注意休息,保证...
    童学_02f2阅读 611评论 0 2
  • 盎然公益微课群自从上周开始互动问题以来,有的群友留言说感觉自己像小学生,希望快快长大;有的群友感觉自己成长...
    幸运的老师阅读 750评论 0 0