前不久我们的Azure Data Lake在Mooncake也已经上线了,想要使用数据湖搭建HDInsight大数据集群的同学们可以尝试起来了。
大家知道我们的Data Lake是有了POSIX权限支持,首先我们要创建一个User Assigned Managed Identity,用来给HDInsight集群访问 Azure Data Lake Gen2 中的文件。下面两图为如何创建User Assigned Managed Identity.
接下来我们开始创建Storage Account,下图是创建Storage Account的界面,第一步和创建普通的Storage account没有什么区别,按图选好选项点下一步Next: Advanced
注意这个下图把Data Lake Storage Gen2勾上,点击创建即可
创建好了Storage Account,需要给刚才的Managed Identity加到Data Lake文件的Owner权限里,在Storage Account里点击Access Control(IAM)
点击Add a role assignment添加权限配置
按照下图,选上刚刚创建的Managed Identity.
至此Data Lake创建配置成功。
接下来开始配置创建SQL Database用来做Hive和Oozie的Metadata的数据库。
准备工作做好了接下来开始创建HDInsight,按照下图所示选好集群类型
存储账号里面选择刚刚创建的Data Lake
Metastore选择刚刚创建好的SQL Database
集群大小按照需要选择
点击创建
等10几分钟半小时,就能看到创建好的集群啦