《大数据架构师指南 》摘抄

ETL系统

一.数据存储规模与数据类型
存储规模将大致确定大数据平台的建设规模,而数据类型将决定所需要的所使用的技术以及复杂度。
二.数据来源与数据质量
在项目规划初期,需要对相关数据源进行识别,并甄别出有风险的数据源,在项目规划初期即上升至决策层进行决策。而且要考虑后期运营过程中,如何对数据源通过技术手段进行质量评估,并且对数据源的质量辅以相应的考核机制。只有针对数据质量形成闭环反馈,才有可能在未来的运营中逐步提高数据质量;而没有数据质量控制的大数据系统,在运营过程中很可能会逐渐退化,甚至最终失败。
三.业务特征
从业务处理的实时性的角度来划分,系统可以分为实时处理系统和批处理系统。实时系统更加关心响应时间和并发度。批处理系统更关心处理能力。
从系统功能角度划分,系统可分为侧重数据保存的存储型系统、侧重数据分析的密集计算型系统以及需求大量内存的内存计算系统。存储行系统需要考虑在磁盘IO读写方面进行优化处理,数据分析密集计算型系统需要对cpu的选型进行重点考虑,内存计算型系统需要考虑系统内存消耗等。
四. 经济可行性
大数据之所以能提升社会生产效益,其本质是提升人类生产活动的准确性,减少了相关的浪费。大数据本身并不能带来直接效益,它不能吃也不能穿,但是它可以消除浪费。
大数据项目的效益主要体现在三个方面:
1、系统轻载。对于需要存储大量历史数据的企业来说,在生产系统存储历史数据,不仅会代价高昂,而且会影响生产系统的稳定性。所以系统轻载是一种”接近于本能的刚需“,例如,银行/证劵等企业仅仅将历史交易查询系统迁移到大数据平台中,就可以极大地减轻生产系统的负载,提升生产系统的稳定性。
2、闭环应用。大数据平台通过收集生产系统中产生的业务过程数据,以及对业务数据进行建模,对当前生产系统提出改进建议与分析报告,去除或改进现有系统中不合理的环节,提高系统生产效率,降低成本。例如,通过收集无限网络的网络覆盖相关信息,可以对现网的网规网优工作进行指导,与传统依靠路测进行网规网优的模式相比,无论是资金成本还是时间成本,都将急剧降低。还有电子商务的推荐系统,通过电子商务网站产生的数据,分析用户的属性与标签,形成推荐结果后反馈给电子商务网站,以促进电子商务网站销售,形成闭环反馈。
3、开环应用。主要是通过第三方实现数据变现,例如,利用电信运营商的数据进行道路规划、人流密集度预测,或通过数据的经营与交互产生相应的收益。由于开环应用较难形成稳定的收入,数据产生的最终价值由于缺上反馈也较难衡量,较难形成形影的闭环。
一般来说,项目建设的初期,可以考虑先选择较易产生经济效益的闭环应用进行建设,使项目形成经济的自我造血功能,然后在依托所积累的数据,进行开环应用的拓展。这样的建设顺序,将有助于提升项目的成功的慨率。
五.运维管理要求
大数据运维管理系统,需要考虑如下的问题或因素。
1.对于上百台深知上万台的服务器、网络设备、存储设备等,如何让这些设备稳定地运行在生产环境中,不会因为硬件损坏、系统升级而引发业务系统故障?一旦故障发生,运维人员如何评估故障对业务的影响有多大?需要多少时间和工作量恢复?
2.如何应对系统规模与业务规模的快速膨胀?如何预防新上线大规模作业队集群性能造成的冲击,甚至让整个集群崩溃失效?
3.不同的应用、甚至不同的计算框架在同一集群下运行,如何对各类作业、资源、数据进行管理,并满足安全性要求。
六.安全性要求
大数据时代的数据安全比传统数据安全更加复杂,企业部署大数据面临的数据安全风险体现在如下几个方面:
1.大量数据的集中存储增加了大数据泄露风险,大数据中心往往存储海量的客户信息、客户的隐私和行为轨迹,这些数据的集中存储增加了数据泄漏风险。
2.海量数据本身就蕴藏着价值。
3.敏感数据的所有权和使用权并没有被明确界定,敏感数据的共享与隔离存在风险,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题,未考虑敏感数据屏蔽。
4.大数据对数据完整性、可用性和秘密性带来挑战,被滥用和被破坏的风险很高。
5.海量数据的集中存储涉及如何防止数据丢失或者被误删除,同时数据容灾、数据的备份与数据的恢复等引入了新的技术难题。
6.随着大数据存储规模不断扩大,集群冷热数据分布会更加不均匀,如何管理数据生命周期也是一个挑战。
7.如何进行大数据安全访问控制、安全审计、安全监控也是一个难题。
大数据时代的应用安全比传统IT应用安全问题更加突出,具体天灾如下几个方面:
1.大数据集群上线后往往运行各种类型的应用程序(统称作业),同时这些作业将访问集群各类软硬件资源,如CPU/硬盘/内存以及各类业务数据等,在同一集群下数据、作业、资源的安全访问以及隔离是一个巨大的挑战。
2.同一个集群可能多计算框架并存,保证不同应用、相同/不同计算框架间的安全更佳困难。
3.具体到作业权限管理,如何实现从客户端接入、作业提交、作业执行、作业监控、作业资源管理等端到端全流程权限控制。
4.大数据服务众多,如何打通各个组件间的权限控制,对服务进行安全管理是必须解决的问题。
5.大数据业务访问控制,如数据与应用访问控制、集群管理访问控制、Web访问控制,如何对访问审计等。
6.大数据用户的认证、授权及企业已有权限系统与大数据权限控制结合也是个难题
7.数据传递安全管理,保证数据传递过程的安全性。
七.部署要求
1.首先明确大数据的发展战略以及定位问题
2.其次软件规划考虑上线的服务类型
3.再次,硬件规划需要结合现状以及资金投入计划进行规划
4.最后容灾问题是最容易忽略的关键问题
八.系统边界
大数据系统系统边界主要从系统交互界面与系统交割界面两方面进行考虑。
1.系统的数据安全
2.系统交互的流量
3.系统交互的接口
4.系统交互的周期性
5.项目执行边界的界定
大数据系统与其他系统进行对接与交割时,需要考虑如下几个方面:
1.数据备份
2.业务容忍中断时常和切换时间
3.迁移效率
4.系统兼容性
5.数据安全性
6.系统稳定性
7.数据正确性

图片发自简书App
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容