文章标题:From Databases to Big Data
链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6188576
—————————————————————————————————————
Sam Madden 描述了目前Database和Big data的关系。主要讲解了:
1,什么是大数据?
- too big:数据很多,PB级别
- too fast:快速处理需求
- too hard:处理起来很难
2,现有数据库
- 处理数据很快
- 由于数据很规整,处理起来很方便
- 但难扩展
- 先导入,再查询的机制导致并行处理数据流的能力差
- MapReduce:扩展性强,但需要有统一的管理文件,运行速度慢
3,现有数据处理工具的局限
- R,matlab:只能处理一台机器上的数据
- MapReduce:缺少数据库的管理能力(为啥非得要数据库的管理能力?)
- 对人要求高
4,Database应该怎么发展?
- 利用DB的优势:可视化,规范,清晰。可以可视化ML的结果,进行数据管理,有利于理解算法表现。
- 我感觉:数据库想实现一种规范的固定的有效的ML模式,避免人们浪费时间写太多重复的处理数据/分析数据的脚本。