Solr: expression exacte de la requête avec un EdgeNGramFilterFactory

Dans Solr (3.3), est-il possible d'en faire un terrain de lettre-par-lettre consultable par le biais d'un EdgeNGramFilterFactory et également sensible à l'expression des requêtes?

Par exemple, je suis à la recherche d'un terrain qui, si contenant "contrat informatique", si l'utilisateur tape:

contrat
informatique
contr
informa
"contrat informatique"
"contrat d'info"

Actuellement, j'ai fait quelque chose comme ceci:

<fieldtype name="terms" class="solr.TextField">
    <analyzer type="index">
        <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <tokenizer class="solr.LowerCaseTokenizerFactory"/>
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    </analyzer>
    <analyzer type="query">
        <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <tokenizer class="solr.LowerCaseTokenizerFactory"/>
    </analyzer>
</fieldtype>

...mais il a échoué sur les requêtes de phrase.

Quand je me regarde dans le schéma de l'analyseur dans solr admin, je trouve que le "contrat informatique" a généré les jetons suivants:

[...] contr contra contrat in inf info infor inform [...]

De sorte que la requête fonctionne avec "contrat de" (consécutifs jetons), mais pas de "contrat inf" (car ces deux jetons sont séparés).

Je suis sûr que tout type d'enrayer pouvez travailler avec les requêtes de phrase, mais je ne peux pas trouver le bon générateur de jetons de filtre à utiliser avant le EdgeNGramFilterFactory.

InformationsquelleAutor Xavier Portebois | 2011-09-30

5

Phrase exacte recherche ne fonctionne pas en raison de requête slop paramètre = 0 par défaut.
Pour rechercher une phrase '"Hello World", " il en recherches pour les termes avec les positions séquentielles.
Je souhaite EdgeNGramFilter avait un paramètre de sortie de contrôle de positionnement, cela ressemble à un vieux question.

Par le réglage de paramètre qs pour certains de très grande valeur (plus de distance maximale entre les ngrams), vous pouvez obtenir des phrases en arrière. Cela résout partiellement le problème en permettant à des phrases, mais elle n'est pas exacte, permutations sera trouvé.
Pour que la recherche pour "contrat informatique" pourrait correspondre à un texte comme "...contrat abandonnée. Informatique..."

À l'appui de exacte requête de phrase, je me retrouve à utiliser des champs séparés pour les ngrams.

Étapes nécessaires:

Définir les types de champ distincts à l'index régulière des valeurs et de l'grammes:
```
<fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

<fieldType name="ngrams" class="solr.TextField" omitNorms="false">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>
```
Dire solr pour copie de champs lors de l'indexation:

Vous pouvez définir séparé ngrams réflexion pour chaque champ:
```
<field name="contact_ngrams" type="ngrams" indexed="true" stored="false"/>
<field name="product_ngrams" type="ngrams" indexed="true" stored="false"/>
<copyField source="contact_text" dest="contact_ngrams"/>
<copyField source="product_text" dest="product_ngrams"/>
```
Ou vous pouvez mettre tous les ngrams dans un champ:
```
<field name="heap_ngrams" type="ngrams" indexed="true" stored="false"/>
<copyField source="*_text" dest="heap_ngrams"/>
```
Noter que vous ne serez pas en mesure de séparer les boosters dans ce cas.

Et la dernière chose à faire est de spécifier ngrams des champs et des boosters dans la requête.
Une façon est de configurer votre application.
Une autre façon est de spécifier "ajoute" params dans le solrconfig.xml
```
   <lst name="appends">
     <str name="qf">heap_ngrams</str>
   </lst>
```
InformationsquelleAutor Grimmo
2

Comme hélas je n'arrivais pas à utiliser un PositionFilter droit comme Jayendra Patil a suggéré (PositionFilter rend toute requête OU requête booléenne), j'ai utilisé une approche différente.

Toujours avec le EdgeNGramFilter, j'ai ajouté le fait que chaque mot que l'utilisateur a tapé dans l'est obligatoire, et désactivé toutes les phrases.

Donc, si l'utilisateur demande "cont info", elle se transforme en +cont +info. C'est un peu plus permissif qu'un véritable expression, mais il a réussi à faire ce que je veux (et ne retourne pas de résultats avec un seul terme de la deux).

Le seul con à l'encontre de cette solution est que les termes peuvent être permutated dans les résultats (donc un document avec "informatique contrat" sera également trouvé), mais c'est pas une grosse affaire.
- Salut, Xavier. Pouvez-vous nous expliquer comment vous transformer "cont info" +suite+info est-il hors de la boîte util classe pour cela ? Ou est-ce juste d'identifier le double de devis et de les transformer manuellement ? Je suis en train de résoudre ce problème : stackoverflow.com/questions/37033381/...
- C'était une opération manuelle, à la recherche de double citations et en ajoutant le signe plus. Je n'ai pas trouver quelque chose qui pourrait automatiser cela pour moi :-/
- Merci pour la réponse, xavier, Pour moi aussi, après l'analyse autant de contenu ne trouve pas de solution. J'ai pensé que je vais réinventer la roue et de le faire manuellement. Mais je suppose que de le faire manuellement est la seule option disponible 😐
InformationsquelleAutor Xavier Portebois
1

Ici est ce que je pensais -

Pour les ngrams pour être membre de phrase correspondait à la position des jetons générés pour chaque mot doit être la même.

J'ai vérifié pour le bord grammes filtre et on incrémente le jetons, et n'ai pas trouvé de paramètre pour l'en empêcher.

Il y a une position de filtre disponibles et cela maintient les jetons de la position de la même manière que pour le début.

Donc, si la configuration suivante est utilisée tous les jetons sont à la même position et il correspond à l'expression de la requête (même les postes sont appariés comme des phrases)

Je l'ai vérifié à travers l'analyse de l'outil et les requêtes de correspondance.

De sorte que vous pourriez vouloir essayer l'astuce :-
```
<analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory" />
    <charFilter class="solr.MappingCharFilterFactory" 
            mapping="mapping-ISOLatin1Accent.txt" />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" 
            generateNumberParts="1" catenateWords="1" catenateNumbers="1" 
            catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory" />
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" 
            maxGramSize="15" side="front"/>
    <filter class="solr.PositionFilterFactory" />
</analyzer>
```
- L'idée est soigné, mais ne semble pas fonctionner quand même :-/ Même si j'ai eu des matches grâce à l'admin de l'outil d'analyse, une vraie requête ne retourne rien (probablement parce que, dans l'outil d'analyse, la façon dont il met en évidence les jetons ne vous embêtez pas avec des phrases). Aussi, PositionFilter en fait la requête boolean comme l'a dit sur le wiki, donc "contrat informatique" ou encore "+contrat +informatique" les retours de documents avec "contrat", mais aussi sans "informatique" comme l'opérateur par défaut est un OU. Une alternative possible serait de transformer la requête en +contrat +informatique, je pense.
InformationsquelleAutor Jayendra

J'ai fait un correctif à EdgeNGramFilter afin de positions au sein d'un jeton ne sont pas incrémenté plus:

    public class CustomEdgeNGramTokenFilterFactory extends TokenFilterFactory {
    private int maxGramSize = 0;

    private int minGramSize = 0;

    @Override
    public void init(Map<String, String> args) {
        super.init(args);
        String maxArg = args.get("maxGramSize");
        maxGramSize = (maxArg != null ? Integer.parseInt(maxArg)
                : EdgeNGramTokenFilter.DEFAULT_MAX_GRAM_SIZE);

        String minArg = args.get("minGramSize");
        minGramSize = (minArg != null ? Integer.parseInt(minArg)
                : EdgeNGramTokenFilter.DEFAULT_MIN_GRAM_SIZE);

    }

    @Override
    public CustomEdgeNGramTokenFilter create(TokenStream input) {
        return new CustomEdgeNGramTokenFilter(input, minGramSize, maxGramSize);
    }
}

public class CustomEdgeNGramTokenFilter extends TokenFilter {
private final int minGram;
private final int maxGram;
private char[] curTermBuffer;
private int curTermLength;
private int curGramSize;
private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);
private final OffsetAttribute offsetAtt = addAttribute(OffsetAttribute.class);
private final PositionIncrementAttribute positionIncrementAttribute = addAttribute(PositionIncrementAttribute.class);
/**
* Creates EdgeNGramTokenFilter that can generate n-grams in the sizes of the given range
*
* @param input   {@link org.apache.lucene.analysis.TokenStream} holding the input to be tokenized
* @param minGram the smallest n-gram to generate
* @param maxGram the largest n-gram to generate
*/
public CustomEdgeNGramTokenFilter(TokenStream input, int minGram, int maxGram) {
super(input);
if (minGram < 1) {
throw new IllegalArgumentException("minGram must be greater than zero");
}
if (minGram > maxGram) {
throw new IllegalArgumentException("minGram must not be greater than maxGram");
}
this.minGram = minGram;
this.maxGram = maxGram;
}
@Override
public final boolean incrementToken() throws IOException {
while (true) {
int positionIncrement = 0;
if (curTermBuffer == null) {
if (!input.incrementToken()) {
return false;
} else {
positionIncrement = positionIncrementAttribute.getPositionIncrement();
curTermBuffer = termAtt.buffer().clone();
curTermLength = termAtt.length();
curGramSize = minGram;
}
}
if (curGramSize <= maxGram) {
if (!(curGramSize > curTermLength         //if the remaining input is too short, we can't generate any n-grams
|| curGramSize > maxGram)) {       //if we have hit the end of our n-gram size range, quit
//grab gramSize chars from front
int start = 0;
int end = start + curGramSize;
offsetAtt.setOffset(start, end);
positionIncrementAttribute.setPositionIncrement(positionIncrement);
termAtt.copyBuffer(curTermBuffer, start, curGramSize);
curGramSize++;
return true;
}
}
curTermBuffer = null;
}
}
@Override
public void reset() throws IOException {
super.reset();
curTermBuffer = null;
}
}

InformationsquelleAutor user1645736

Vous devez vous connecter pour publier un commentaire.