Streamsets介绍

前言

自毕业以来，开发、运维streamsets也差不多半年左右，对streamsets的使用也积累了一些经验，也踩了不少的坑，在此，为大家分享一下自己浅显经验。现阶段，我们主要在Streamsets进行实时数据同步、实时ETL、实时宽表等工作，使用Streamsets来实现实时宽表是非常简单、舒服的。

在这里，我将从Streamsets入门（介绍数据怎么在Streamsets流通的）、实时数据同步、实时宽表等方面介绍我们的工作

Streamsets介绍

Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：1、可视化界面操作，可以直观排查错误；2、内置监控，可是实时查看数据流传输的基本信息和数据的质量；3、强大的整合力，对现有常用组件全力支持。

对于Streamsets来说，最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)、执行器(Executor)。

具体的介绍，请参考：https://streamsets.com/documentation/datacollector/3.9.x/help/index.html

官方论坛：https://ask.streamsets.com/questions/

Streamsets安装

整体来说，安装Streamsets非常简单

1、下载安装包

下载链接：https://streamsets.com/products/dataops-platform/open-source/

这里，我用的是Streamsets-3.9.1（文件名：streamsets-datacollector-3.9.1.tar）

2、安装

安装前准备：安装jdk

系统环境：centos7

 解压：tar -zxvf streamsets-datacollector-3.9.1.tar

3、启动

我们先不改Streamsts参数，直接启动

cd streamsets-datacollector-3.9.1/bin
前端启动：./streamsets dc
后端启动: nohup ./streamsets dc &

4、登录

Streamsets默认端口号：18630

所以访问链接为：http://host:18630 http://localhost:18630

密码：admin/admin

首页

实时数据同步管道，我们现在主要是将postgresql的数据同步到snappydata中。目前，我将实时数据分成了三部分（数据采集、数据过滤、操作数据库），以项目为单位创建管道（一个项目一个管道）

数据过滤

这是我们现在在用的实时宽表(real-time wide table)管道，后续我将详细介绍实时宽表的思路、实现过程

实时宽表

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Streamsets介绍

Streamsets介绍

前言

Streamsets介绍

Streamsets安装

相关阅读更多精彩内容

友情链接更多精彩内容