DataSphere Studio——数据分析平台

基础环境准备

JDK

Yum源安装的jdk无法正常启动DSS-FRAMEWORK-ORCHESTRATOR-SERVER-DEV服务,因此需要使用手动安装的JDK。

  1. 登录 Oracle官网 下载JDK1.8_301的版本。

    image

  2. 解压到linux服务器的/usr/local/java目录中。

  3. 然后修改/etc/profile,最后加入下面的代码

export JAVA_HOME=/usr/local/java/jdk1.8.0_301
export JRE_HOME=/usr/local/java/jdk1.8.0_301/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
  1. 执行source /etc/profile命令,然后再执行java -version,确认可以返回Java版本信息。
    image

MySQL

MySQL必须安装5.6以上的版本,否则安装时,部分sql语句将执行失败。此处以安装5.7为例。

  1. 下载并安装MySQL官方的 Yum Repository ,并导入。
wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpmyum -y install mysql57-community-release-el7-10.noarch.rpm
  1. 执行下面的命令安装。
yum -y install mysql-community-server
  1. 设置开机启动以及开启服务。
systemctl start mysqld
systemctl enable mysqld
  1. 运行mysql的安装引导,设置root密码等。
mysql_secure_installation
  1. 检查3306端口是否正常开启,以及是否可以正常登录mysql数据库。
  2. 创建下面2个数据库
create database dss;
create databae hive;

其他

通过yum命令安装以下程序

yum install -y telnet dos2unix unzip expect nginx rsync

安装Hadoop

参考 官方文档,安装Hadoop2.10.1版本。

主要使用伪分布式的方式安装,确保最后可以执行hdfs命令,同时namenode和datanode正常启动。

安装Hive

参考官方文档,安装Hive2.3.9版本,安装比较简单。安装的机器必须支持执行hive -e "show databases"命令

安装Spark

参考官方文档,安装Spark3.1.2版本,安装也比较简单。最后可以执行spark-sql -e "show databases"命令即可。

安装DSS_Linkis一键安装包

  1. 创建hadoop用户。
useradd hadoop
  1. 为hadoop用户创建sudo的root权限。
vi /etc/sudoershadoop  ALL=(ALL)       NOPASSWD: NOPASSWD: ALL
  1. 将root用户.ssh目录下的文件都拷贝到hadoop用户下,确保hadoop用户也可以免密登录本机。
cp ~/.ssh/* /home/hadoop/.ssh/
chown hadoop:hadoop /home/hadoop/.ssh
su - hadoop
ssh hadoop@localhost
  1. 后续操作均使用hadoop用户进行操作。
  2. /home/hadoop目录下载dss_linkis一键部署包。
wget https://osp-1257653870.cos.ap-guangzhou.myqcloud.com/WeDatasphere/DataSphereStudio/1.0.0/DSS-Linkis全家桶20210831.zip
  1. 解压缩并进入conf目录。
  2. 修改db.sh文件,将上面安装的mysql数据库信息填入。
  3. 修改config.sh文件,修改下列内容。
HADOOP_CONF_DIR=/home/hadoop/hadoop-2.10.1/etc/hadoop
HIVE_CONF_DIR=/home/hadoop/apache-hive-2.3.9-bin/conf
SPARK_CONF_DIR=/home/hadoop/spark-3.1.2-bin-hadoop3.2/conf
  1. 创建下列目录。
mkdir -p /appcom/tmp/dss
mkdir -p /tmp/linkis
  1. 在dss_linkis目录执行下面的命令进行安装。
sh bin/install.sh
  1. 根据提示进行安装,其中记得选2,删除数据库中的数据并重新创建初始化数据。
  2. 安装完成后,执行下面的命令,启动dss和linkis的所有服务。
sh sbin/start-all.sh
  1. 确认服务均启动成功,然后启动nginx,在安全组暴露8088端口,通过EIP+8088的方式进行访问,检查是否存在异常。
  2. 如果存在异常,也可以将eureka的服务暴露,然后看下注册的服务是否达到14个。如果有注册失败的,可以在{$DSS_Linkis_Base_DIR}/dss/log或者{$DSS_Linkis_Base_DIR}/linkis/log下进行查看。

参考文档

  • DSS_Linkis官网部署文档

备注信息

  • 单独控制某个服务的命令:
sh /home/hadoop/dss_linkis/dss/sbin/dss-daemon.sh start dss-framework-project-server
sh /home/hadoop/dss_linkis/dss/sbin/dss-daemon.sh stop dss-framework-project-server
  • 安装后的DSS后台地址,用户名密码默认都是hadoop,即安装时的用户名。
http://x.x.x.x:8088/#/workspaceHome?workspaceId=224
  • 安装后的Eureka地址:
http://x.x.x.x:8087/
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容