Modifier la valeur par défaut de la cartographie de la chaîne de “ne pas analyser” dans Elasticsearch

Dans mon système, l'insertion de données se fait toujours par le biais de fichiers csv via logstash. Je n'ai jamais de pré-définir la cartographie. Mais chaque fois que j'en entrée une chaîne de caractères, il est toujours analyzed, suite à une entrée comme hello I am Sinha est divisé en hello,I,am,Sinha. Est-il de toute façon je pouvais changer le répertoire par défaut/une cartographie dynamique de elasticsearch, de sorte que toutes les chaînes, quel que soit l'indice, quel que soit le type sont prises pour être not analyzed? Ou est-il un moyen de la mettre au .conf fichier? Dire que mon conf fichier ressemble à

input {  
      file {
          path => "/home/sagnik/work/logstash-1.4.2/bin/promosms_dec15.csv"
          type => "promosms_dec15"
          start_position => "beginning"
          sincedb_path => "/dev/null"
      }
}
filter {

    csv {
        columns => ["Comm_Plan","Queue_Booking","Order_Reference","Multi_Ordertype"]
        separator => ","
    }  
    ruby {
          code => "event['Generation_Date'] = Date.parse(event['Generation_Date']);"
    }

}
output {  
    elasticsearch { 
        action => "index"
        host => "localhost"
        index => "promosms-%{+dd.MM.YYYY}"
        workers => 1
    }
}

Je veux que toutes les chaînes soient not analyzed et je n'ai pas l'esprit étant le paramètre par défaut pour toutes les futures données à insérer dans elasticsearch soit

InformationsquelleAutor Sagnik Sinha | 2014-12-15

20

Vous pouvez interroger l' .raw version de votre domaine. Ceci a été ajouté dans Logstash 1.3.1:

La logstash indice modèle nous fournir ajoute un “.cru” champ pour chaque champ d'index. Ces “.cru” les champs sont définies par logstash comme “not_analyzed”, de sorte qu'aucune analyse ou la segmentation prend place – notre valeur d'origine est utilisé comme tel!

Donc, si votre champ est appelé foo, vous feriez requête foo.raw pour retourner le not_analyzed (pas de split sur délimiteurs) version.
- le foo.cru les champs sont vides alors que les foo champs sont remplis. Je ne comprends pas
- Kofler Avez-vous de savoir pourquoi ils étaient vides?. J'ai le même problème
- tout ce que je peux rappelez-vous qu'il est prévu de cette façon. Une sorte de hack. De plus je ne me souviens pas
- C'est une donnée que tout le monde sur cette question à l'aide de logstash?
- eh bien oui et non. Je suis tombé en arrière sur ma réponse l'autre jour, lorsque vous n'utilisez PAS logstash. Je ne pouvais pas le zeste de l' .raw champ et réalisé que c'était quelque chose de logstash créé pour moi, donc, ma réponse ici, n'est pas utile. 🙂 Cependant, la question est balisé et se réfère à logstash, donc de sens que ma réponse est acceptée, un. Il y a d'autres SI les questions et les réponses sur la création de not_analyzed champs avec de la vanille Elasticsearch qui peuvent être portés sur.
- Logstash 5.x avec Elasticsearch 5.x modifie la cartographie de .raw à .keyword - élastique.co/guide/fr/logstash/actuel/...
InformationsquelleAutor Banjer
28

Il suffit de créer un modèle. exécuter
```
curl -XPUT localhost:9200/_template/template_1 -d '{
    "template": "*",
    "settings": {
        "index.refresh_interval": "5s"
    },
    "mappings": {
        "_default_": {
            "_all": {
                "enabled": true
            },
            "dynamic_templates": [
                {
                    "string_fields": {
                        "match": "*",
                        "match_mapping_type": "string",
                        "mapping": {
                            "index": "not_analyzed",
                            "omit_norms": true,
                            "type": "string"
                        }
                    }
                }
            ],
            "properties": {
                "@version": {
                    "type": "string",
                    "index": "not_analyzed"
                },
                "geoip": {
                    "type": "object",
                    "dynamic": true,
                    "path": "full",
                    "properties": {
                        "location": {
                            "type": "geo_point"
                        }
                    }
                }
            }
        }
    }
}'
```
- Ce que fait exactement cette ne? Comment est-il travail? Pouvez-vous élaborer un peu plus sur ce que ce modèle est et comment il s'applique à la question?
- comme vous pouvez le voir ici, à l'intérieur de dynamic templates et properties, le index est défini comme not analyzed. En conséquence, si nous sommes à l'entrée d'une chaîne hello, I am Sinha, elle sera traitée comme une chaîne de caractères et non pas divisé en hello I am Sinha
- quel est le nom de l'index que cette cartographie s'applique?
- il s'applique à tous les indices @AbtPst
- ok, ça a du sens. que faire si je ne veux appliquer à certains champs de l'index. disons que j'ai un indice de ind. le nombre de champs dans les données d'entrée n'est pas fixe, mais pour sûr il y aura un champ de type chaîne ded. Je ne veux terrain d être analysés et tous les autres champs de type chaîne pour ne pas être analysés.
- qu'est-ce exactement votre font à goutte ".cru" les champs de chacun des champs? Vouliez-vous dire " tomber "champs" paramètre dans le fichier de mappage drop ".première" partie de chaque champ et d'économiser 50% de l'espace? J'ai mappage de fichier dans lequel j'ai des "champs" de paramètre pour chaque champ je suis extraction de journal.
InformationsquelleAutor Sagnik Sinha
13

Faire une copie du répertoire lib/logstash/sorties/elasticsearch/elasticsearch-modèle.json de votre Logstash de distribution (éventuellement installé comme /opt/logstash/lib/logstash/sorties/elasticsearch/elasticsearch-modèle.json), de le modifier en remplaçant
```
"dynamic_templates" : [ {
  "string_fields" : {
    "match" : "*",
    "match_mapping_type" : "string",
    "mapping" : {
      "type" : "string", "index" : "analyzed", "omit_norms" : true,
      "fields" : {
        "raw" : {"type": "string", "index" : "not_analyzed", "ignore_above" : 256}
      }
    }
  }
} ],
```
avec
```
"dynamic_templates" : [ {
  "string_fields" : {
    "match" : "*",
    "match_mapping_type" : "string",
    "mapping" : {
      "type" : "string", "index" : "not_analyzed", "omit_norms" : true
    }
  }
} ],
```
et point template pour vous de la sortie du plugin dans votre fichier modifié:
```
output {
  elasticsearch {
    ...
    template => "/path/to/my-elasticsearch-template.json"
  }
}
```
Vous pouvez toujours remplacer cette valeur par défaut pour un champ particulier.
- Qui ne semble pas me donner les résultats souhaités... j'ai un champ nommé State qui a une instance appelée West Bengal. Quand j'ai tracé un graphique à barres, je reçois 2 différentes légendes à savoir west et bengal qui est faux. Le problème est toujours là
- Est-ce dans un nouvel indice? Gardez à l'esprit que la modification de l'indice de modèle ne fera pas une différence pour les données existantes.
- J'ai supprimé l'indice précédent, rafraîchi, et puis de nouveau inséré. Oui, dans un nouvel indice
- Intéressant. Que faire si vous obtenir la cartographie de l'index et avoir un regard sur le réel de cartographie utilisé?
- Il montre {"promosms-16.12.2014":{"mappings":{"promosms_dec15":{"properties":{..............,"State":{"type":"string"},.........}}}}} il n'y a aucune information quant à savoir si il est analysé ou pas
- J'ai déclaré la chose comme un modèle et cela a fonctionné. J'ai mis "template" : "*"
InformationsquelleAutor Magnus Bäck
1

Je pense que la mise à jour de la cartographie est une mauvaise approche juste pour manipuler un champ à des fins de reporting. Tôt ou tard, vous voudrez peut-être capable de rechercher sur le champ de jetons. Si vous mettez à jour le champ "not_analyzed" et souhaitez rechercher foo à partir d'une valeur "foo bar", vous ne serez pas en mesure de le faire.

Plus gracieux solution est d'utiliser kibana agrégation des filtres au lieu de termes. Quelque chose comme ci-dessous sera à la recherche pour les termes ivr04 et ivr02. Donc dans votre cas, vous pouvez avoir un filtre "Bonjour, je suis Sinha". Espérons que cette aide.

InformationsquelleAutor Arslan Mehboob

Vous devez vous connecter pour publier un commentaire.