1. 借鉴
使用ElasticSearch在bulk导入json数据时,The bulk request must be terminated by a newline [\n]
Curl命令的data, data-ascii, data-binary, data-raw和data-urlencode选项详解
tmdb movie
2. 开始
以后有关该系列的数据准备都会在这里指明
如何导入数据
到数据的当前目录,使用curl发送post请求到es,使用bulk api进行批量操作,但是需要注意文件的格式,否则会出现我借鉴部分提示的\n问题。以下是可执行的curl
curl -X POST -H "Content-Type:application/json" http://localhost:9200/_bulk --data-binary @tmdb_movie.txt
注意以下的点:
- 加载json文件时如果使用普通的-d方法加载文件会造成空行被忽略,–data-binary数据二进制格式的加载方式
- 书写文件路径时,须以@开头
所有的数据都在github上:elasticsearch7.x-data,以下则是对这个仓库的数据说明
【数据1:tmdb_movies】
感谢tmdb开源的数据,再次感谢。我将数据做了整理,只保留了overview,id,title三列,对我们来说足够了,数据可以从下面这个链接下载
【数据2:notes】
note索引是自建用来测试function score的
【数据3:store_sugguest】
store_sugguest文件,是自建用来测试Suggester API的
【数据4:aggs_order】
aggs_order文件,里面除了order还有hotel,user_envelope等索引,用来测试aggregation的
【数据5:rebuild_index】
rebuild_index文件,里面是索引重建部分的样例。
【数据6:pipeline_hotel】
pipeline_hotel文件,里面是pipeline章节的索引。
3. 大功告成
to be continued