备份
常用备份拓扑
存储网络主要分为前端业务网以及后端的存储网络,业务网主要受理用户的请求,后端存储网主要用户数据的读取和写入,有一些企业出于成本的考虑,不会使用后端存储网,因此会涉及到备份的组网形式。
1.LAN-BASED
不存在后端存储网,备份的数据流和业务的数据流就需要在一个网络中进行传输,其优点是节省开销,但备份时,备份流量会占用业务带宽,影响整体的处理性能。
2.LAN-FREE
如果客户前端业务网和后端的存储网都有架设,那么备份时就可以使用后端的存储网络做备份,传输备份数据流,这样做就不会影响到前端业务的正常执行。
注:
LAN指业务网络
3.Server-Free
一般用于虚拟机备份,通过给主机创建临时虚拟机,将需要备份的数据创建快照,把快照挂载在备份设备上,备份设备通过读取临时虚拟机内的快照,然后进行数据的转存操作
(1)CS:备份服务器,通过备份服务器来控制整体的备份进程,执行相关的备份策略,是整体的控制服务器
(2)CA:备份的数据源(Agent),需要备份哪个服务器或存储的数据就将Agent安装在那个设备上
(3)MA:备份介质,备份的数据存储在哪一台设备上就在其之上的服务器安装Agent
备份策略内容
1.数据类型:文件、操作系统、数据库...
2.备份介质:磁盘阵列、磁带...
3.备份类型:全量备份(恢复时直接恢复,最快)、增量备份(每次备份和上次备份的差异部分,恢复时需要整合前几次备份的内容,耗时最长)、差量备份(每次备份和全量备份的差异部分,恢复时需要整合上一次全量+这次差量)
4.数据保留时间
5.备份周期
6.备份窗口:啥时候备份,备份多久
常见备份结构
1.DAD:磁盘-磁盘的数据备份,速度快,保存时间长,且不需要服务器,但成本高
2.D2T:磁盘-物理磁带库的数据备份,保存不方便,磁盘时间长容易消磁,不过便宜
3.D2V:磁盘-虚拟磁带库的数据备份
4.D2D2T:磁盘-虚拟磁带库-物理磁带的数据备份,最安全快速方便,但也最贵
备份开销计算
1.带宽开销:假如公司有8T数据,每天增长100G,备份时间为一小时,求带宽?
100G1000/(16060有效带宽%)
2.容量开销:假如公司200G数据,每天增长20G,每周一次全量备份,数据留一个月,则最小存储容量?
原 增 备份
第一周: 200 120 320
第二周: 520 120 640
第三周: 1160 120 1280
第四周: 2440 120 2560
注:
全量备份得把这一周备份的加上原来的,所以像第一周总共就是200+320
结果:一个月最少要5T容量
备份建议
每天做增量备份,每周一次全量备份,每月清除一次备份数据。
重复数据删除技术
基于上面全量备份可发现备份的容量开销实在太大了,所以就需要用到该技术,该技术就是为了解决数备份过程中由于数据量过大占用大量存储空间的情况。由于备份时很多数据都是重复,所以空间就会重复占用,重删技术首先会在存储介质的后台创建一个指纹数据库,该指纹数据库在未备份时是空的,开始备份后首先会将文件切分成数据块,给数据块通过哈希算法计算指纹值,然后和指纹数据库作对比,第一个数据库对比时由于指纹数据库是空的所以比对不上,也就是当前该数据块是唯一的,所以将该数据按照原有的计划写入,并且将自己的地址和指纹信息添加进指纹数据库中,后边的数据块会进行数据库比对,按照上面的方式,如果比对到了指纹数据库,那么该数据就不会再拷贝到备份介质,而是将指纹数据库中的比对到的地址添加到一个映射到该数据库的位置。
重删的分类
1.全局重删
2.本地重删:针对多个重删源使用几个指纹库
3.源端重删:备份端重删
4.目标端重删:服务器做重删,华为就是用这种
5.在线重删:消耗资源
6.后处理重删:消耗存储空间
7.文件级重删
8.块级重删
重删关键指标
1.重删率:能节省多少空间
2.重删性能:多久能删完
3.数据可靠性:是否数据可靠,是否可随时恢复
4.复制性能:容灾场景下需要多久才DR-Ready
5.恢复性能:一旦数据丢失需要多久找回
压缩
靠压缩算法实现(重删靠切块比对,实现保留唯一数据)
1.空格压缩:将多个空格压缩成一个代码
2.游长压缩:比如AAAAAAAAAA就变成A.&10
3.定长压缩:比如AAAAAAAAAA就变成A5.A5
4.关键字压缩:自定义关键字压缩为特定字符
5.哈夫曼压缩法
注:
重删的删减率比压缩大,重删会破坏数据,而压缩不会,所以建议先做重删再做压缩,从而保证数据量缩减时可以达到最大化。
容灾
容灾分类
1.业务级容灾
2.应用级容灾
3.数据级容灾
容灾系统衡量指标/核心参数
1.RPO恢复点目标
灾难发生后,系统和数据必须恢复到的时间点要求,也就是说数据丢失的时间量,比如8点备份,9点故障恢复到8点的样子,那么RPO=1h。
2.RTO恢复时间目标
灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求,也就是说故障的恢复时间,比如9点业务故障,9点半恢复,则RTO=30min。
注:
确保容灾业务的高可靠性和可用性,一般要求RPO<=10S,RTO<=3min。
容灾系统建设国际标准
1级:Tier1-PTAM,将数据进行拷贝然后运输到异地做冷备(数据),RPO:一周,RTO:一周
2级:Tier2-PTAM加热备站点,将数据拷贝然后在热备站点进行留存(数据),RPO:几天,RTO:几天
3级:电子链接传输,通过网络进行数据传输和数据备份(数据),RPO:2-4天,RTO:12h左右
4级:批量/在线数据库镜像或日志传输(应用),RPO:几小时,RTO:4-8h
5级:两地间两阶段提交(交易完整性),通过远程复制等形式进行数据的备份(应用),RPO:1-3h,RTO:1-4h
6级:几乎0数据丢失,远程数据竞选保证数据完整性和一致性,通过两地站点进行业务的数据保障(业务),RPO:>=0,RTO:>=0
7级:华为自己出的,在6级基础上多了自动化系统接管,无人值守自动切换,RPO:>=0,RTO:>=0
容灾测试
搭建一个虚拟环境来测试当故障出现后能不能正常使用。
容灾演练
模拟出现故障的情况进行实际的业务切换以及故障处置操作。
故障切换
发生真实故障之后,执行业务的切换和拉起。
典型容灾解决方案
两地三中心:3个站点——主站点、同城灾备站点、远程灾备站点。