【Druid】Druid 离线数据导入小试

本次操作时参考Druid官网离线文件数据导入指导进行：http://druid.io/docs/0.10.0/tutorials/tutorial-batch.html

首先准备了一份json格式的数据文件，Druid-quickstart为用户准备了一份测试数据，我从中截取了100条数据，方便测试，保存为json文件:wiki-sample.json。

接下来编辑索引任务（indexing task）文件，文件中配置了很多任务信息。
其中两个地方需要注意：

paths字段
如果Druid是部署在Hadoop上的，需要先把文件上传到HDFS上，paths字段为HDFS路径，有多个文件用逗号分隔；
jobProperties字段
加入"mapreduce.job.user.classpath.first" : "true"，否则会包下图错误：

image.png

任务提交命令：

curl -X 'POST' -H 'Content-Type:application/json' -d @wikiticker-index.json OVERLORD_IP:8090/druid/indexer/v1/task

可以通过页面监控任务：http://OVERLORD_IP:8090/console.html
通过Druid DataSource页面查看新增的DataSource: http://Coordinator_IP:8081/#/