曾于何时,数据量小的时候 ,时间从来都不是问题,空间也不是大家所担心的。大数据 到底有多大,反正 到大你想象,没有 最大只有 更大,话说 到 2020年 全世界的硬盘数据 将达到 1*10^9 PB,真的好吓人.
当然数据量上来了,就是 云计算 ,数据量小的时候 一个wordcount 可能只是一眨眼的功夫,数据量上来了, 可能单单基数统计 ,bitmap hyperloglog bloom Filter 都不尽完美。
集群的空间就那么大,买不起 新机器,只能不断的压缩老数据 ,删除 原始数据,每一次 删除都在滴血,一个人做数据时,可能一不小心 就删除了重要数据,还无法挽回。压缩数据时高性能 但是还是有
部分内容存在 丢失 或者 压缩失败
数据转码 ,有时不可逆的转变 ,真担心 转码后格式 有问题 对数据内容的伤害, 一夜回到解放前。
修补数据时,各种遭罪,有时候不能脚本自动化 批量化完成 就想 摔键盘
数据 中转 机器 真的好脆弱 ,稍微不注意 scp 的定时任务就宕机,数据传来空数据
1.hadoop 集群一定要设置回收站
2.数据中转机器 一定要独立 不受外界干扰
- 传输脚本 要有 检测 数据是否 拉取成功的判断,失败则 继续 拉,否则 报警
- 删除原始数据一定要 检测 是否 数据全部压缩 ,是否有遗漏 或者 压缩失败为空者
5.数据相关 尽量避免只有一个人,应该有人负责 审核 查验
6.数据需要 每天 检查 防止意外