BLEU score de la mise en œuvre de la peine de similarité de détection
J'ai besoin de calculer BLEU score pour déterminer si les deux phrases sont similaires ou non.J'ai lu certains articles qui sont pour la plupart sur BLEU score pour la Machine de Mesure de la précision d'une traduction.Mais je suis dans le besoin d'un BLEU score de trouver la similarité entre les phrases dans une même langue[anglais].(j'.e) les Deux phrases sont en anglais).Merci d'avance.
OriginalL'auteur KNsiva | 2011-03-22
Vous devez vous connecter pour publier un commentaire.
Bien, si vous voulez juste pour calculer le score de BLEU, c'est simple. Traiter une phrase comme la référence de la traduction et de l'autre comme le candidat de la traduction.
OriginalL'auteur ealdent
Pour la phrase comparaisons, l'utilisation lissé BLEU
Le standard BLEU score utilisé pour la traduction automatique de l'évaluation (BLEU:4) n'est vraiment significatifs dans le corpus, car une peine qui n'a pas au moins un de 4 grammes de match sera donné un score de 0.
Cela se produit parce que, à la base, le BLEU est vraiment juste la la moyenne géométrique de la de n-gramme précisions qui est mis à l'échelle par un souci de concision pénalité pour éviter de très courtes phrases avec certains assortie d'être donné de façon inappropriée des scores élevés. Depuis la moyenne géométrique est calculé en multipliant tous les termes à inclure dans la moyenne, ayant un zéro pour tout de la n-gramme compte des résultats dans l'ensemble de la score de zéro.
Si vous souhaitez appliquer BLEU de phrases, il est préférable d'utiliser lissé BLEU (Lin et Och 2004 - voir sec. 4), dans laquelle vous ajoutez 1 à chaque n-gramme compte avant de calculer le n-gramme de précisions. Cela permettra d'éviter que des n-grammes de précisions à partir de zéro, et donc entraînera une valeur non-nulle, même quand il n'y a plus de 4 grammes de matchs.
Java Mise En Œuvre
Vous trouverez une implémentation de Java à la fois BLEU et lisse BLEU dans le Stanford machine de traduction paquet À particule.
Alternatives
Andreas déjà mentionné, vous pourriez voulez utiliser une autre notation métrique comme Levenstein dans la chaîne de modifier la distance. Cependant, un problème avec l'utilisation de la traditionnelle Levenstein chaîne de modifier la distance de comparer des phrases, c'est qu'il n'est pas explicitement conscient des limites de mots.
D'autres solutions comprennent:
OriginalL'auteur dmcer
Ici, vous allez: http://code.google.com/p/lingutil/
OriginalL'auteur Mohamed Ibrahim
Peut-être l' (Levenstein) distance d'édition est également une option, ou la distance de Hamming. De toute façon, le BLEU, le score est également appropriée pour le travail; il mesure la similarité d'une phrase à l'encontre d'une référence, de sorte que n'a de sens que lorsqu'ils sont dans la même langue, comme avec votre problème.
OriginalL'auteur Andreas
Vous pouvez utiliser Moïse multi-bleu script, où vous pouvez également utiliser plusieurs références: https://github.com/moses-smt/mosesdecoder/blob/RELEASE-2.1.1/scripts/generic/multi-bleu.perl
OriginalL'auteur brlaranjeira