Elasticsearch requête pour renvoyer tous les enregistrements

J'ai une petite base de données dans Elasticsearch et à des fins de test désirez extraire tous les enregistrements en arrière. Je suis d'essayer d'utiliser une URL de la forme...

http://localhost:9200/foo/_search?pretty=true&q={'matchAll':{''}}

Quelqu'un peut me donner l'URL que vous utiliseriez pour ce faire, s'il vous plaît?

...où "foo" est le nom de l'index que vous souhaitez afficher tous les enregistrements pour.

InformationsquelleAutor John Livermore | 2012-01-12

656

Je pense que lucene en charge la syntaxe de la sorte:

http://localhost:9200/foo/_search?pretty=true&q=*:*

taille par défaut est de 10, de sorte que vous pouvez aussi avoir besoin &size=BIGNUMBER pour obtenir plus de 10 articles. (où BIGNUMBER est égal à un nombre que vous croyez est plus grand que votre dataset)

MAIS, elasticsearch documentation suggère pour les grands ensembles de résultats, l'utilisation du scanner, type de recherche.

Par exemple:
```
curl -XGET 'localhost:9200/foo/_search?search_type=scan&scroll=10m&size=50' -d '
{
    "query" : {
        "match_all" : {}
    }
}'
```
et puis garder demandant que par la documentation lien ci-dessus suggère.

EDIT: scan Obsolète dans 2.1.0.

scan ne fournit pas de prestations sur une régulière scroll demande triés par _doc. lien élastique docs (repéré par @christophe-roussy)
- Merci. C'était le dernier, je suis venu avec que renvoie ce dont j'ai besoin pour l'instant...localhost:9200/foo/_search?size=50&jolie=true&q=*:*
- L'ajout de @Steve réponse, vous pouvez trouver une liste des paramètres qui elasticsearch comprend dans ce lien elasticsearch.org/guide/reference/api/search/uri-request
- Est-il possible d'exécuter un scan de recherche avec une requête d'autre qu'un match_all requête?
- u devrait poser une question, se cachent pas dans les commentaires. mais la réponse courte, oui. elasticsearch.org/guide/reference/api/search/query
- Merci @Steve pour votre réponse. Je ne pense pas que c'était assez important pour une nouvelle question. Il n'était pas explicitement indiqué nulle part, alors j'ai pensé que je voudrais poser ici juste pour vérifier.
- Vous devriez vraiment utiliser le scan+défilement des demandes. Si vous n'utilisez size=BIGNUMBER, notez que Lucene alloue de la mémoire pour les scores de ce nombre, afin de ne pas rendre excessivement grande. 🙂
- Avez-vous vraiment voulu utiliser -d avec -XGET?
- J'étais pas au courant de la ?size=<N> paramètre de chaîne de requête jusqu'à ce que votre réponse, @SteveCasey. Merci donc beaucoup pour cet affichage. Mon cas d'utilisation, il suffit de m'liste tous les documents dans un petit index (général <200 éléments), ajoutant ?size=1000 à la requête fait feu à droite vers le haut.
- hey @SteveCasey j'ai du mal à trouver cette réponse. Pourriez-vous s'il vous plaît aider moi - stackoverflow.com/questions/34481152/...
- Scan a été dépréciée en déprécié en 2.1.0: élastique.co/guide/fr/elasticsearch/de référence/de courant/...
- merci, ont ajouté le modifier pour répondre
- Idéalement ES doit répondre avec quelque chose de spécial: stackoverflow.com/questions/13884141/..., un autre problème intéressant ...
- Voir l'analyse est obsolète, cela doit-il être mis à jour pour utiliser de défilement?
- Oui. Un scan est un type de défilement. La réponse ne doit pas inclure le 'search_type=scan" du paramètre. Vous n'en avez pas besoin, et c'est déconseillé.
- En fait, j'ai juste remarqué "search_type:scan" n'est pas seulement obsolète. Il a été enlevé dans elasticsearch version 5.0: élastique.co/guide/fr/elasticsearch/de référence/5.0/...
InformationsquelleAutor Steve Casey
122
```
http://127.0.0.1:9200/foo/_search/?size=1000&pretty=1
                                   ^
```
Remarque la taille des param, ce qui augmente les résultats affichés par défaut (10) à 1000 par fragment.

http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-request-from-size.html
- Une chose à garder à l'esprit que même si (à partir de Elasticsearch docs): à Noter qu'à partir de + la taille ne peut pas être plus que l'indice.max_result_window index paramètre dont la valeur par défaut de 10 000.
- Ce sera le retour de 1000, pas tous, user3078523 est droit, cette méthode a une limite de max_result_window
- Il a un maximum, et aussi (si vous avez plusieurs milliers d'enregistrements à obtenir), il est plutôt noddy lourds approche de l'être à partir de ce maximum. Au lieu de cela, vous devez utiliser un "arrêt" de la requête.
InformationsquelleAutor lfender6445
30

elasticsearch(ES) prend en charge un GET ou un POST de demande pour l'obtention des données de l'ES cluster index.

Quand nous faire un GET:
```
http://localhost:9200/[your index name]/_search?size=[no of records you want]&q=*:*
```
Lorsque l'on fait un POST:
```
http://localhost:9200/[your_index_name]/_search
{
  "size": [your value] //default 10
  "from": [your start index] //default 0
  "query":
   {
    "match_all": {}
   }
}   
```
Je suggère d'utiliser une INTERFACE utilisateur plugin avec elasticsearch http://mobz.github.io/elasticsearch-head/
Cela vous aidera à obtenir une meilleure sensation des indices vous créez et testez aussi vos indices.
- Tant qu'un autre utilisateur mentionné: from + size ne peut pas être plus que le index.max_result_window index paramètre dont la valeur par défaut de 10 000
- Cette approche a un maximum, et aussi (si vous avez plusieurs milliers d'enregistrements à obtenir), il est plutôt noddy lourds approche de l'être à partir de ce maximum. Au lieu de cela, vous devez utiliser un "arrêt" de la requête
InformationsquelleAutor Prerak Diwan
23

Remarque: La réponse se rapporte à une ancienne version d'Elasticsearch 0.90. Les Versions publiées depuis une mise à jour de la syntaxe. Veuillez vous référer à d'autres réponses qui peuvent fournir une réponse plus précise à la dernière réponse que vous cherchez.

La requête ci-dessous serait de retour le NO_OF_RESULTS vous souhaitez être retourné..
```
curl -XGET 'localhost:9200/foo/_search?size=NO_OF_RESULTS' -d '
{
"query" : {
    "match_all" : {}
  }
}'
```
Maintenant, la question qui se pose ici est que vous voulez tous les enregistrements à renvoyer. Alors, naturellement, avant d'écrire une requête, vous ne saurez la valeur de NO_OF_RESULTS.

Comment savons-nous combien d'enregistrements existent dans votre document? Il suffit de taper la requête ci-dessous
```
curl -XGET 'localhost:9200/foo/_search' -d '
```
Ce serait vous donner un résultat qui ressemble à celui ci-dessous
```
 {
hits" : {
  "total" :       2357,
  "hits" : [
    {
      ..................
```
Le résultat total vous indique le nombre de données sont disponibles dans votre document. Donc, c'est une belle façon de connaître la valeur de NO_OF RÉSULTATS
```
curl -XGET 'localhost:9200/_search' -d ' 
```
De recherche tous les types de tous les indices
```
curl -XGET 'localhost:9200/foo/_search' -d '
```
De recherche de tous types dans les foo indice
```
curl -XGET 'localhost:9200/foo1,foo2/_search' -d '
```
De recherche de tous types dans le toto1 et foo2 indices
```
curl -XGET 'localhost:9200/f*/_search
```
De recherche de tous types dans tous les indices de début avec f
```
curl -XGET 'localhost:9200/_all/type1,type2/_search' -d '
```
Types de recherche de l'utilisateur et de tweet dans tous les indices
- Par défaut ES de retour de 10 résultats, à moins qu'une taille de param est inclus dans la requête de base.
- La réponse précédente était de trois ans. Mise à jour à un cours.
InformationsquelleAutor vjpandian

C'est la meilleure solution que j'ai trouvé à l'aide de python client

  # Initialize the scroll
  page = es.search(
  index = 'yourIndex',
  doc_type = 'yourType',
  scroll = '2m',
  search_type = 'scan',
  size = 1000,
  body = {
    # Your query's body
    })
  sid = page['_scroll_id']
  scroll_size = page['hits']['total']

  # Start scrolling
  while (scroll_size > 0):
    print "Scrolling..."
    page = es.scroll(scroll_id = sid, scroll = '2m')
    # Update the scroll ID
    sid = page['_scroll_id']
    # Get the number of results that we returned in the last scroll
    scroll_size = len(page['hits']['hits'])
    print "scroll size: " + str(scroll_size)
    # Do something with the obtained page

https://gist.github.com/drorata/146ce50807d16fd4a6aa

À l'aide de java client

import static org.elasticsearch.index.query.QueryBuilders.*;

QueryBuilder qb = termQuery("multi", "test");

SearchResponse scrollResp = client.prepareSearch(test)
        .addSort(FieldSortBuilder.DOC_FIELD_NAME, SortOrder.ASC)
        .setScroll(new TimeValue(60000))
        .setQuery(qb)
        .setSize(100).execute().actionGet(); //100 hits per shard will be returned for each scroll
//Scroll until no hits are returned
do {
    for (SearchHit hit : scrollResp.getHits().getHits()) {
        //Handle the hit...
    }

    scrollResp = client.prepareSearchScroll(scrollResp.getScrollId()).setScroll(new TimeValue(60000)).execute().actionGet();
} while(scrollResp.getHits().getHits().length != 0); //Zero hits mark the end of the scroll and the while loop.

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-search-scrolling.html

Merci Mark, c'est exactement ce que je cherchais! Dans mon cas (ELK 6.2.1, python 3), le search_type argument n'était pas valable et le document_type n'est pas nécessaire non plus depuis le WAPITI 6.0
La solution parfaite! Merci. J'ai été en utilisant elasticsearch_dsl==5.4.0 et il fonctionne sans search_type = 'scan',.
ES 6.3. Cet exemple rend mon Elasticsearch service de crash, en essayant de faire défiler 110k documents avec size=10000, à quelque part, du 5 au 7 itérations. avec status=127, main ERROR Null object returned for RollingFile in Appenders, main ERROR Unable to locate appender "rolling" for logger config "root" Pas de journaux dans /var/log/elasticsearch/elasticsearch.log
Pour l'enregistrement, le python des clients met en œuvre un scan des aides qui ne le rouleau sous le capot (depuis la version 5.x.x au leat)
search_type = 'scan' est obsolète. Le même code fonctionne sans que, bien qu'il existe quelques différences intéressantes qui sont bien enterré dans le vieux de la documentation. élastique.co/guide/fr/elasticsearch/de référence/1.4/... En particulier, lors de la migration de ne pas utiliser search_type=scan, qui est le premier de la "recherche" de la requête qui va venir avec le premier lot de résultats pour les traiter.

InformationsquelleAutor Akira Sendoh

10

utilisation server:9200/_stats également d'obtenir des statistiques sur tous vos alias.. comme la taille et le nombre d'éléments par alias, c'est très utile et fournit des informations utiles
- Mais, d'après ce que je me souviens, ES seul permettant d'obtenir les 16000 données par demande. Donc, si les données sont au-dessus de 16000, cette solution n'est pas assez.
InformationsquelleAutor TheEnglishMe

Si vous voulez tirer plusieurs milliers de dossiers, puis... un peu de gens ont donné la bonne réponse de à l'aide de défilement (Note: Certaines personnes ont aussi suggéré d'utiliser "search_type=scan". C'était obsolète, et en v5.0 supprimées. Vous n'en avez pas besoin)

Commencer avec une "recherche" de la requête, mais la spécification d'un défilement de paramètre (ici, je suis à l'aide d'une 1 minute de délai d'attente):

curl -XGET 'http://ip1:9200/myindex/_search?scroll=1m' -d '
{
    "query": {
            "match_all" : {}
    }
}
'

Qui comprend votre première "batch" de hits. Mais nous ne sommes pas fait ici. La sortie de la ci-dessus commande curl serait quelque chose comme ceci:

{"_scroll_id":"c2Nhbjs1OzUyNjE6NU4tU3BrWi1UWkNIwvnbzw43bxv3zzs1mzc3okhuq0g3vgllu2fhemjvnlm5d2t0ale7nti2mjo1ti1tcgtalvraq0hzu0flbjdtdxdnozuznzg6sfrdsdduawvtywf6ylu2uzl3a3rquts1mjyzojvolvnwa1otvfpdsfltqwvun211d2c7mtt0b3rhbf9oaxrzojiynjaxmzu3ow==","took":109,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":22601357,"max_score":0.0,"hits":[]}}

Il est important d'avoir _scroll_id à portée de main car ensuite, vous devez exécuter la commande suivante:

    curl -XGET  'localhost:9200/_search/scroll'  -d'
    {
        "scroll" : "1m", 
        "scroll_id" : "c2Nhbjs2OzM0NDg1ODpzRlBLc0FXNlNyNm5JWUc1" 
    }
    '

Cependant, le passage de la scroll_id autour n'est pas quelque chose conçu pour être effectué manuellement. Votre meilleur pari est d'écrire le code pour le faire. par exemple en java:

    private TransportClient client = null;
    private Settings settings = ImmutableSettings.settingsBuilder()
                  .put(CLUSTER_NAME,"cluster-test").build();
    private SearchResponse scrollResp  = null;

    this.client = new TransportClient(settings);
    this.client.addTransportAddress(new InetSocketTransportAddress("ip", port));

    QueryBuilder queryBuilder = QueryBuilders.matchAllQuery();
    scrollResp = client.prepareSearch(index).setSearchType(SearchType.SCAN)
                 .setScroll(new TimeValue(60000))                            
                 .setQuery(queryBuilder)
                 .setSize(100).execute().actionGet();

    scrollResp = client.prepareSearchScroll(scrollResp.getScrollId())
                .setScroll(new TimeValue(timeVal))
                .execute()
                .actionGet();

Désormais en BOUCLE sur la dernière commande utiliser SearchResponse pour extraire les données.

InformationsquelleAutor Somum

7

Simple! Vous pouvez utiliser size et from paramètre!
```
http://localhost:9200/[your index name]/_search?size=1000&from=0
```
que vous modifiez la from progressivement jusqu'à ce que vous obtenez toutes les données.
- ne jamais utiliser cette méthode si les données contiennent de nombreux documents... à Chaque fois que vous aller à la page suivante" Élastique sera plus lent et plus lent! Utilisation SearchAfter au lieu
- Par ailleurs, cette solution ne fonctionnera pas si l'ensemble de la taille des données est supérieure à 10 000. L'option taille=1000&de=10001 serait un échec.
- En effet échoue. Paramètres from + size ne peut pas être plus que l'indice.max_result_window index paramètre dont la valeur par défaut de 10 000
- Si les données contiennent plusieurs milliers de documents, la réponse correcte est d'utiliser un défilement de la requête.
InformationsquelleAutor Aminah Nuraini
7

Elasticsearch obtiendrez significative de plus si vous venez d'ajouter un peu de grand nombre que la taille, la méthode à utiliser pour obtenir tous les documents à l'aide d'analyse et de défilement id.

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html
- Cette réponse a besoin de plus de mises à jour. search_type=scan est maintenant obsolète. Donc, vous devez retirer, mais le comportement a changé un peu. Le premier lot de données de revient de la recherche initiale d'appel. Le lien que vous fournissez ne montrer la bonne façon de le faire.
- Mon commentaire était vraiment de noter que vous ne pouvez pas ajouter n'importe quel nombre de taille, car il serait beaucoup plus lent. J'ai donc enlevé l'exemple de code et les gens peuvent suivre le lien pour obtenir le code est correct.
InformationsquelleAutor WoodyDRN
6

La meilleure façon de régler la taille à l'aide de la taille de l'=nombre en face de l'URL
```
Curl -XGET "http://localhost:9200/logstash-*/_search?size=50&pretty"
```
Remarque: la valeur maximale qui peut être défini dans cette taille est de 10000. Pour toute valeur au-dessus de dix mille il attend de vous que vous utilisez les fonctions de défilement qui permettrait de minimiser les risques d'impacts sur les performances.
- Depuis quelle version max taille se produire?
- Que peut être la "meilleure" façon jusqu'à un certain point, mais un peu oui-oui vraiment. Si vous avez plusieurs milliers de dossiers, alors le meilleur moyen est un "arrêt" de la requête.
InformationsquelleAutor akshay misra
5

http://localhost:9200/foo/_search/?taille=1000&jolie=1

vous aurez besoin de spécifier la taille de la requête de paramètre par défaut est de 10
- ça fonctionne merci
- vous êtes les bienvenus @hamzeh.hanandeh.....content que cela a aidé quelqu'un d'autre
InformationsquelleAutor Edwin Ikechukwu
5

Vous pouvez utiliser le _count API pour obtenir la valeur de la size paramètre:
```
http://localhost:9200/foo/_count?q=<your query>
```
Retourne {count:X, ...}. Extraire de la valeur " X " et ensuite faire la requête:
```
http://localhost:9200/foo/_search?q=<your query>&size=X
```
- Réglage de la taille de X comme ça, pourrait avoir un surprenant de simultanéité glitch: voyons ce qui se passe si un enregistrement est ajouté entre faire le décompte et le réglage de la taille de votre requête suivante... mais aussi si vous avez plusieurs milliers de dossiers à obtenir, alors c'est la mauvaise approche. Au lieu de cela, vous devez utiliser un "arrêt" de la requête.
InformationsquelleAutor Daniel
3

taille param augmente les résultats affichés à partir de la valeur par défaut(10) à 500.
```
http://localhost:9200/[indexName]/_search?jolie=true&size=500&q=*:*
```
Changer le de étape par étape pour obtenir toutes les données.
```
http://localhost:9200/[indexName]/_search?size=500&de=0
```
InformationsquelleAutor Prasanna Jathan

Pour Elasticsearch 6.x

Demande: GET /foo/_search?pretty=true

Réponse: En Hits-> total, donner le nombre de docs

    {
      "took": 1,
      "timed_out": false,
      "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
      },
      "hits": {
        "total": 1001,
        "max_score": 1,
        "hits": [
          {

InformationsquelleAutor Anurag

curl -X GET 'localhost:9200/foo/_search?q=*&pretty'

InformationsquelleAutor Dhruv Sharma

2

Par défaut Elasticsearch retour 10 dossiers de taille doit être prévu expressément.

Ajouter la taille avec une demande pour obtenir désir certain nombre de dossiers.

http://{host}:9200/{index_name}/_search?jolie=true&size=(nombre de dossiers)

Note :
Max taille de la page ne peut pas être plus que l'indice.max_result_window index paramètre dont la valeur par défaut de 10 000.

InformationsquelleAutor Satyendra Sharma
2

La documentation officielle fournit la réponse à cette question! vous pouvez le trouver ici.
```
{
  "query": { "match_all": {} },
  "size": 1
}
```
Il vous suffit de remplacer la taille (1) avec le nombre de résultats que vous voulez voir!
- L'auteur de la question a été poser pour "tous" les résultats, et non un pré-définis quantité de résultats. Alors qu'il est utile de publier un lien vers les docs, les docs ne décrivent pas comment faire, ni votre réponse.
InformationsquelleAutor christouandr7

De Kibana DevTools son:

GET my_index_name/_search
{
  "query": {
    "match_all": {}
  }
}

InformationsquelleAutor belostoky

1

Le maximum de résultat, qui sera de retour en elasticSearch est 10000 en fournissant la taille
```
curl -XGET 'localhost:9200/index/type/_search?scroll=1m' -d '
{
   "size":10000,
   "query" : {
   "match_all" : {}
    }
}'
```
Après cela, vous devez utiliser le Défilement de l'API pour obtenir le résultat et obtenir le _scroll_id valeur et de mettre cette valeur dans scroll_id
```
curl -XGET  'localhost:9200/_search/scroll'  -d'
{
   "scroll" : "1m", 
   "scroll_id" : "" 
}'
```
InformationsquelleAutor RAHUL JAIN

De retourner tous les enregistrements à partir de tous les indices que vous pouvez faire:

curl -XGET http://35.195.120.21:9200/_all/_search?size=50&pretty

De sortie:

  "took" : 866,
  "timed_out" : false,
  "_shards" : {
    "total" : 25,
    "successful" : 25,
    "failed" : 0
  },
  "hits" : {
    "total" : 512034694,
    "max_score" : 1.0,
    "hits" : [ {
      "_index" : "grafana-dash",
      "_type" : "dashboard",
      "_id" : "test",
      "_score" : 1.0,
       ...

InformationsquelleAutor exceltior

0
```
curl -XGET '{{IP/localhost}}:9200/{{Index name}}/{{type}}/_search?scroll=10m&pretty' -d '{
"query": {
"filtered": {
"query": {
"match_all": {}
}}'
```
- Alors que cet extrait de code, peut-être de résoudre la question, y compris une explication aide vraiment à améliorer la qualité de votre post. Rappelez-vous que vous répondez à la question pour les lecteurs dans l'avenir, et ces personnes pourraient ne pas connaître les raisons de votre code suggestion.
InformationsquelleAutor aditya
0

Aucun, à l'exception @Akira Sendoh a répondu à comment obtenir TOUS les docs. Mais même cette solution se bloque mon ES 6.3 service sans journaux. La seule chose qui a fonctionné pour moi, en utilisant le faible niveau elasticsearch-py bibliothèque a été par le biais de analyse helper qui utilise scroll() api:
```
from elasticsearch.helpers import scan

doc_generator = scan(
    es_obj,
    query={"query": {"match_all": {}}},
    index="my-index",
)

# use the generator to iterate, dont try to make a list or you will get out of RAM
for doc in doc_generator:
    # use it somehow
```
Cependant, le moyen le plus propre de nos jours semble être dans elasticsearch-dsl de la bibliothèque, qui offre plus abstrait, plus propre des appels, des e.g: http://elasticsearch-dsl.readthedocs.io/en/latest/search_dsl.html#hits

InformationsquelleAutor chefarov
0

Si encore quelqu'un est à la recherche de toutes les données récupérées à partir d'Elasticsearch comme moi, pour certains usecases, voici ce que j'ai fait. En outre, toutes les données, tous les indices et tous les autres types de documents. J'utilise Elasticsearch 6.3
```
curl -X GET "localhost:9200/_search?pretty=true" -H 'Content-Type: application/json' -d'
{
    "query": {
        "match_all": {}
    }
}
'
```
Elasticsearch référence

InformationsquelleAutor Santosh Kumar Arjunan

Une solution simple en utilisant le paquet python elasticsearch-dsl:

from elasticsearch_dsl import Search
from elasticsearch_dsl import connections

connections.create_connection(hosts=['localhost'])

s = Search(index="foo")
response = s.scan()

count = 0
for hit in response:
    # print(hit.to_dict())  # be careful, it will printout every hit in your index
    count += 1

print(count)

Voir aussi https://elasticsearch-dsl.readthedocs.io/en/latest/api.html#elasticsearch_dsl.Search.scan .

InformationsquelleAutor asmaier

0

c'est la requête pour accomplir ce que vous voulez,
(Je suggère d'utiliser Kibana, car elle aide à comprendre les requêtes de mieux en mieux)
```
GET my_index_name/my_type_name/_search
{
   "query":{
      "match_all":{}
   },
   size : 20,
   from : 3
}
```
pour obtenir tous les enregistrements que vous avez à utiliser "match_all de la requête".

est la taille de l'absence de dossiers que vous souhaitez récupérer (sorte de limite).
par défaut, ES retournera seulement les 10 enregistrements

est comme sauter, sauter les 3 premiers enregistrements.

Si vous voulez vous procurer exactement tous les enregistrements, il suffit d'utiliser la valeur de "total" champ
à partir du résultat une fois que vous frappez cette requête à partir de Kibana et l'utiliser avec "taille".

InformationsquelleAutor niranjan harpale
-5

Vous pouvez utiliser la taille=0 pour revenir tous les documents
exemple
```
curl -XGET 'localhost:9200/index/type/_search' -d '
{
   size:0,
   "query" : {
   "match_all" : {}
    }
}'
```
- Ceci renvoie une accumulé de l'information, mais pas les résultats eux-mêmes
- désolé, je downvote pour trompeuses
InformationsquelleAutor premkumar

Vous devez vous connecter pour publier un commentaire.