本文翻译自:https://www.elastic.co/guide/en/elasticsearch/reference/current/_exploring_your_data.html
本文是Elasticsearch的入门文档,将会用实际的数据引出ElasticSearch中关于数据集的相关操作。
探索数据
简单数据集
现在我们已经看了一下基础知识,我们来试一下更逼真的数据集。我已经准备了客户银行帐户信息的虚构JSON文档示例。每个文档具有以下模式:
{
"account_number": 0,
"balance": 16623,
"firstname": "Bradshaw",
"lastname": "Mckenzie",
"age": 29,
"gender": "F",
"address": "244 Columbus Place",
"employer": "Euron",
"email": "bradshawmckenzie@euron.com",
"city": "Hobucken",
"state": "CO"
}
对于好奇,我从www.json-generator.com/生成了这些数据,所以请忽略数据的实际值和语义,因为这些都是随机生成的。
加载简单数据集
你可以从这里下载示例数据集(accounts.json)。将其提取到我们当前的目录,并将其加载到我们的集群中,如下所示:
curl -H "Content-Type: application/json" -XPOST 'localhost:9200/bank/account/_bulk?pretty&refresh' --data-binary "@accounts.json"
curl 'localhost:9200/_cat/indices?v'
返回如下:
health status index uuid pri rep docs.count docs.deleted store.size pri.store.size
yellow open bank l7sSYV2cQXmu6_4rJWVIww 5 1 1000 0 128.6kb 128.6kb
这意味着我们刚刚成功地将1000个文档批量索引到银行索引(在帐户类型下)。
查询API
现在我们来开始一些简单的搜索。运行搜索有两种基本方法:一种是通过REST请求URI发送搜索参数,另一种是通过通过REST请求体发送参数。请求体方法允许你的想法更具表现力,并且还可以使用可读性的JSON格式进行搜索。我们将尝试一个请求URI方法的示例,但是在本教程的其余部分中,我们将专门使用请求体方法。
用于搜索的REST API可以从_search端点访问。此示例返回银行索引中的所有文档:
GET /bank/_search?q=*&sort=account_number:asc&pretty
我们首先剖析搜索请求。我们在银行索引中搜索(_search endpoint),而*q = 参数指示Elasticsearch匹配索引中的所有文档。 sort = account_number:asc参数指示使用每个文档的account_number字段按升序对结果进行排序。pretty参数再次告诉Elasticsearch返回优雅打印的JSON结果。
请求的相应如下(部分显示):
{
"took" : 63,
"timed_out" : false,
"_shards" : {
"total" : 5,
"successful" : 5,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : 1000,
"max_score" : null,
"hits" : [ {
"_index" : "bank",
"_type" : "account",
"_id" : "0",
"sort": [0],
"_score" : null,
"_source" : {"account_number":0,"balance":16623,"firstname":"Bradshaw","lastname":"Mckenzie","age":29,"gender":"F","address":"244 Columbus Place","employer":"Euron","email":"bradshawmckenzie@euron.com","city":"Hobucken","state":"CO"}
}, {
"_index" : "bank",
"_type" : "account",
"_id" : "1",
"sort": [1],
"_score" : null,
"_source" : {"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}
}, ...
]
}
}
对于响应,我们看到以下部分:
- took - Elasticsearch执行搜索的时间(毫秒)
- timed_out - 告诉我们搜索是否超时
- _shards - 告诉我们搜索了多少个分片,以及一个成功/失败的搜索碎片的总数
- hits - 搜索结果
- hits.total - 匹配我们的搜索条件的文档总数
- hits.hits - 搜索结果的实际数组(默认为前10个文档)
- hits.sort - 结果的排序键(如果按得分排序)
- hits._score和max_score - 命中得分“目前暂时忽略这些字段”
现在以上是使用备用请求体方法相同的精确搜索:
GET /bank/_search
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
]
}
这里的不同之处在于,我们不会在URI中传递*q = **,而是向_search API发布一个JSON样式的查询请求体。我们将在下一节讨论这个JSON查询。
重要的是要明白,一旦你获得了搜索结果,Elasticsearch就完成了该请求,并且不会保留任何类型的服务器端资源或在你的搜索结果中打开游标。这与许多其他平台(如SQL)形成鲜明对比,如果使用这种平台,你可能最初会先获取查询结果的部分子集,然后如果要获取(或浏览)其余部分,则必须不断返回到服务器的结果使用某种有状态的服务器端游标。