这个月我主要想回答这么几个问题:如果要建立一个技术栈来做大数据的处理和分析,市场上都有哪些开源产品可用?大概都需要一些什么样的组件?这些产品的理论依据和实现方法是什么?各有什么样的利弊?这是我给自己找的书单,不一定全,不过在补充中。
参考书单:
- http://muratbuffalo.blogspot.co.uk/2016/11/my-distributed-systems-seminars-reading.html
- http://dsrg.pdos.csail.mit.edu/papers/
- https://dancres.github.io/Pages/
HDFS
评论:还行,不推荐看(推荐看简介)。HDFS的概述现在已经很普遍了,个人觉得原论文并没有比大多数博客和简介更多的内容。主要应该理解Name Node, Data Node, Rebalancing,和备份的概念应该差不多了。个人觉得具体去装一个HDFS的系统自己拿来玩一玩会更有用。市场上纯粹的裸hdfs/hadoop已经没有了吧,现在基本都是什么YARN+Spark外加一堆别的数据整理和分析的工具,所以HDFS本身,出了理解基本概念之外应该不需要研究太多的理论。
HDFS Architecture pdf
Analysis of HDFS Under HBase: A Facebook Messages Case Study pdf
YARN
评论:这篇文章还挺有用的,推荐看。
Phoenix
没啥论文可看……有doc……
Elasticsearch
Paxos
Client response
Proposer
Acceptor
Learner (executes request, sends response to client)
Zookeeper
The life and times of a zookeeper Abstract, Paper
Terminology
ZAB: High-performance broadcast for primary-backup systems pdf
Cassandra
Cassandra: a decentralized structured storage system (2010) acm
TAO
TAO: how facebook serves the social graph (2012) acm, pdf