本次操作时参考Druid官网离线文件数据导入指导进行:http://druid.io/docs/0.10.0/tutorials/tutorial-batch.html
首先准备了一份json格式的数据文件,Druid-quickstart为用户准备了一份测试数据,我从中截取了100条数据,方便测试,保存为json文件:wiki-sample.json。
接下来编辑索引任务(indexing task)文件,文件中配置了很多任务信息。
其中两个地方需要注意:
- paths字段
如果Druid是部署在Hadoop上的,需要先把文件上传到HDFS上,paths字段为HDFS路径,有多个文件用逗号分隔; - jobProperties字段
加入"mapreduce.job.user.classpath.first" : "true"
,否则会包下图错误:
任务提交命令:
curl -X 'POST' -H 'Content-Type:application/json' -d @wikiticker-index.json OVERLORD_IP:8090/druid/indexer/v1/task
可以通过页面监控任务:http://OVERLORD_IP:8090/console.html
通过Druid DataSource页面查看新增的DataSource: http://Coordinator_IP:8081/#/