大数据平台的主流架构大体就是通过flume来获取数据,然后可以存贮到hdfs中,也可以发送到kafka进行storm的实时计算,存储到hdfs中的数据可以进行mapreduce进行清洗,然后可以选择存储到hive和hbase,在hive和hbase进行mapreduce或者spark计算,然后实现数据的分析进而通过sqoop导入到mysql或oracle数据库中通过web进行可视化。
大数据呢,通过数据产生价值,提高自己的产业竞争力,最好能实现双赢,双赢最好的例子呢就是我印象中QQ,他能根据你的好友来推荐一些好友,他通过我的一些小学同学的好友,通过我们有几个共同的好友来判断这个是我的同学进而通过海量的交集构建出一个小学我们班的一个好友目录推荐给我,也正是这样我联系到了更多我的小学同学,这就是一个双赢的例子。而优化自身的就更多了,淘宝的实时推荐等等,还有就是一些离线的数据分析,通过一段时间的数据进行分析,例如一个制片人,他要考虑这个影片的收视率,他可以通过分析收视率找出某类影片的收视率正在上涨,在这这些收视率正在上涨的影片类型中选择,这样在我们拍摄完成成功上映的时候正式这类影片的一个峰值,这些都不是空穴来风,你可能只看到了成功而木有看到这些背后所做的一些预算和分析。
大数据的架构就如同一个软件一样,需要做的就是前期的规划,这个项目需要做实时处理吗,需要做以这个什么样的数据库,一些硬件或者网络的配置,需要实现的功能,并且需要根据具体的数据来进行设计,只是因为使用量没有软件那么大,没有形成一个类似软件工程的一套模式。
更多想了解大数据的小伙伴可以到科多官网进行详细了解
http://www.keduox.cn/?service=Personage.index