【Druid】Druid 离线数据导入小试

本次操作时参考Druid官网离线文件数据导入指导进行:http://druid.io/docs/0.10.0/tutorials/tutorial-batch.html

首先准备了一份json格式的数据文件,Druid-quickstart为用户准备了一份测试数据,我从中截取了100条数据,方便测试,保存为json文件:wiki-sample.json。

接下来编辑索引任务(indexing task)文件,文件中配置了很多任务信息。
其中两个地方需要注意:

  1. paths字段
    如果Druid是部署在Hadoop上的,需要先把文件上传到HDFS上,paths字段为HDFS路径,有多个文件用逗号分隔;
  2. jobProperties字段
    加入"mapreduce.job.user.classpath.first" : "true",否则会包下图错误:
    image.png

任务提交命令:

curl -X 'POST' -H 'Content-Type:application/json' -d @wikiticker-index.json OVERLORD_IP:8090/druid/indexer/v1/task

可以通过页面监控任务:http://OVERLORD_IP:8090/console.html
通过Druid DataSource页面查看新增的DataSource: http://Coordinator_IP:8081/#/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。