Est-il un tutoriel sur le sujet de giza++?
L'Url dans son fichier 'readme' n'est pas valide (http://www.fjoch.com/mkcls.html et http://www.fjoch.com/GIZA++.html). Est-il un bon tutoriel sur giza++? Ou est-il une des solutions de rechange qui ont une documentation complète?
- Le deuxième lien est mort. La Question est un peu argumentatif (qu'est ce qu'un "bon" tutoriel?), trop. Vous devriez essayer de l'améliorer avant qu'il soit fermé.
- les deux liens sont morts...
- Voir stackoverflow.com/questions/21955792/...
- Aussi, voir github.com/alvations/usaarhat-repo
Vous devez vous connecter pour publier un commentaire.
Le texte suivant est extrait d'un tutoriel, je suis en train de mettre ensemble pour une classe. (NB: Ceci suppose que vous avez installé avec succès GIZA++-v2 sur un *nix système.)
De l'échantillon 1 -
train.en
De l'échantillon 2 -
train.fr
plain2snt.out
pour obtenir de la cible et la source du vocabulaire des fichiers (*.vcb
) ainsi que d'une paire de phrases fichier (*.snt
).De l'GIZA++ répertoire, exécutez:
où
TEXT1
etTEXT2
sont les fichiers de données décrits dans l'étape 1.Ce produit quatre fichiers dans le même répertoire que
TEXT1
etTEXT2
(en supposant qu'ils sont dans le même répertoire):Le vocab fichiers contiennent un unique (entier) numéro d'identification pour chaque mot dans le texte (NB: pas de sous/lemmatisés), le mot et la corde, et le nombre de fois que la chaîne s'est produite. Ceux-ci sont séparés par un seul espace.
La phrase de fichiers contiennent des nombres. Pour chaque paire de phrases, il y a trois lignes: la première est de compter le nombre de fois que la paire se produit dans le corps et le deuxième et le troisième sont une chaîne de (séparées par un espace) des numéros correspondant aux entrées des mots dans le vocabulaire des fichiers. Basé sur la convention de nommage pour
*.snt
fichiers, le premier fichier est supposé être la source, et la deuxième est supposé être la langue cible. Par exemple, dans le fichierTEXT1_TEXT2.snt
, la première ligne sera un décompte du nombre de fois que la première phrase de la paire est produite dans le corpus, la deuxième ligne sera une chaîne de nombres correspondant aux mots dans leTEXT1.vcb
fichier, et la troisième ligne sera une chaîne de nombres correspondant aux mots dans leTEXT2.vcb
fichier.TEXT1.vcb
,TEXT2.vcb
, et que l'une des deux*.snt
fichiers peuvent être utilisées comme entrée à GIZA++ pour produire un alignement.Par exemple:
Mais notez que lorsque j'ai essayé de l'exécuter, j'ai dû renommer
TEXT1_TEXT2.snt
à quelque chose sans un trait de soulignement dans le nom afin d'obtenir toute la bonne sortie.Ce Powerpoint tutoriel a fonctionné pour moi: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
Ce un peut-être ?
http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1
Plein source : http://code.google.com/p/giza-pp/issues/detail?id=8
Celui-ci est très utile :
http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/
De l'IIT-B savants ont mis en place de nice et de présentations détaillées pour GIZA++ et MOÏSE d'installation et d'utilisation.
Certains d'entre eux sont :
http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-gizeh-mozes-jan2013.pdf
http://www.cse.iitb.ac.in/~anoopk/publications/présentations/moses_giza_intro.pdf
http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf
Il y a un supplément à une explication de comment format des fichiers d'entrée et comment exécuter GIZA++ ici:
http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt