1.Apache beam 是google和其合作伙伴开源的新的流式大数据分析模式,目前支持如下的引擎:
2.执行过程
1.选择自己喜欢的编程语言编写程序提交
2.该编程语言必须对应相应beam的sdk
3.转换成beam可以识别的格式以便于执行
4.在分布式环境中支持beam的数据处理管道
5.在beam的管道中处理所有的应用
6.创建一个高阶的数据处理管道
ps:目前beam提供的sdk有java 和 python。
3.安装
直接在github或者本地git下来beam工程,然后进行mvn打包,如下图:
运行word-count程序得到输出结果:
得到输出结果