设计思想

优先级:功能--》可读性--》维护-->扩展 --》性能

用设计优化 代替 代码复杂度,降低 维护


可读性:

1.编码规范;
2.日志规范

维护:

1.多级配置:(xml,json)xml 可读性;json解析方便;xml统一解析接口;json多模块、对外传递信息
2.多级日志:logging;log4j
3.多级测试:单元测试;集成测试;回归测试
4.用python封装所有hive hadooop streaming hbase细节
5.多态、封装、java:用设计解决竞态条件,多线程隔离
6.hadoop hbase 与业务隔离
7.技术选型:java hadoop < python +hadoop streaming < hive (map结构;udf 都解耦;性能优化);

扩展:

1.平行扩展;模块解耦
2.结构统一:doc /query 结构化;
3.section 平行扩展
4.特征平行扩展
5.hive join 管理sectiion与特征

性能:

1.全流程考虑,衡量性能
2.只在瓶颈优化性能

监控:

1.多粒度监控
2.可视化
3.报警

语言选型:

shell 管调度
python管输入,输出,配置;
python +java 计算;
分布式用 hadoop streaming /hive(xml json schema)/hbase
使用python隔离、封装hadop stareaing, hive,hbase,配置接口

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容