Est-il un tutoriel sur le sujet de giza++?

L'Url dans son fichier 'readme' n'est pas valide (http://www.fjoch.com/mkcls.html et http://www.fjoch.com/GIZA++.html). Est-il un bon tutoriel sur giza++? Ou est-il une des solutions de rechange qui ont une documentation complète?

Le deuxième lien est mort. La Question est un peu argumentatif (qu'est ce qu'un "bon" tutoriel?), trop. Vous devriez essayer de l'améliorer avant qu'il soit fermé.
les deux liens sont morts...
Voir stackoverflow.com/questions/21955792/...
Aussi, voir github.com/alvations/usaarhat-repo

InformationsquelleAutor Intelligence Gear | 2011-04-22

giza++machine-translation nlp

37

Le texte suivant est extrait d'un tutoriel, je suis en train de mettre ensemble pour une classe. (NB: Ceci suppose que vous avez installé avec succès GIZA++-v2 sur un *nix système.)
1. Commencer avec deux fichiers de données contenant parallèle des phrases qui ont été segmentées, une phrase par ligne. Par exemple, une paire de parallèle anglais-français de fichiers pourrait se lire comme suit.
De l'échantillon 1 - train.en
```
I gave him the book . 
He read the book . 
He loved the book .
```
De l'échantillon 2 - train.fr
```
Je lui ai donne/le livre .
Il a lu le livre .
Il aimait le livre .
```
1. D'exécuter ces fichiers par le biais de plain2snt.out pour obtenir de la cible et la source du vocabulaire des fichiers (*.vcb) ainsi que d'une paire de phrases fichier (*.snt).
De l'GIZA++ répertoire, exécutez:
```
./plain2snt.out TEXT1 TEXT2
```
où TEXT1 et TEXT2 sont les fichiers de données décrits dans l'étape 1.

Ce produit quatre fichiers dans le même répertoire que TEXT1 et TEXT2 (en supposant qu'ils sont dans le même répertoire):
- TEXT1_TEXT2.snt
- TEXTE1.vcb
- TEXT2_TEXT1.snt
- TEXTE2.vcb
Le vocab fichiers contiennent un unique (entier) numéro d'identification pour chaque mot dans le texte (NB: pas de sous/lemmatisés), le mot et la corde, et le nombre de fois que la chaîne s'est produite. Ceux-ci sont séparés par un seul espace.

La phrase de fichiers contiennent des nombres. Pour chaque paire de phrases, il y a trois lignes: la première est de compter le nombre de fois que la paire se produit dans le corps et le deuxième et le troisième sont une chaîne de (séparées par un espace) des numéros correspondant aux entrées des mots dans le vocabulaire des fichiers. Basé sur la convention de nommage pour *.snt fichiers, le premier fichier est supposé être la source, et la deuxième est supposé être la langue cible. Par exemple, dans le fichier TEXT1_TEXT2.snt, la première ligne sera un décompte du nombre de fois que la première phrase de la paire est produite dans le corpus, la deuxième ligne sera une chaîne de nombres correspondant aux mots dans le TEXT1.vcb fichier, et la troisième ligne sera une chaîne de nombres correspondant aux mots dans le TEXT2.vcb fichier.
1. Maintenant TEXT1.vcb, TEXT2.vcb, et que l'une des deux *.snt fichiers peuvent être utilisées comme entrée à GIZA++ pour produire un alignement.
Par exemple:
```
./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt
```
Mais notez que lorsque j'ai essayé de l'exécuter, j'ai dû renommer TEXT1_TEXT2.snt à quelque chose sans un trait de soulignement dans le nom afin d'obtenir toute la bonne sortie.
- merci pour votre longue réponse complète et!:)
- Si vous avez une erreur du type: "ERREUR: PAS de COOCURRENCE FICHIER DONNÉ!", vous devez produire une coocurrence fichier avec "snt2cooc.hors du train.fr.vcb train.fr.vcb corpus.snt > cooc.cooc" et puis "GIZA++ -S train.fr.vcb-T train.fr.vcb-C corpus.snt-CoocurrenceFile cooc.cooc"
- Dans quelques tutoriels que j'ai trouvé qu'ils disent, vous pouvez générer un *.vcb.les classes de fichier mais je ne trouve aucune info sur ce qu'il est, ou pourquoi vous avez besoin de l'un. Pourriez-vous peut-être des précisions à ce sujet?
InformationsquelleAutor dmh
3

Ce Powerpoint tutoriel a fonctionné pour moi: http://www.tc.umn.edu/~bthomson/wordalignment/GIZA.ppt
- N'était plus disponible.
InformationsquelleAutor Reed G. Law
2

Ce un peut-être ?

http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1

Plein source : http://code.google.com/p/giza-pp/issues/detail?id=8
- Les liens sont en bas maintenant
InformationsquelleAutor Spyros
1

Celui-ci est très utile :
http://fabioticconi.wordpress.com/2011/01/17/how-to-do-a-word-alignment-with-giza-or-mgiza-from-parallel-corpus/

De l'IIT-B savants ont mis en place de nice et de présentations détaillées pour GIZA++ et MOÏSE d'installation et d'utilisation.

Certains d'entre eux sont :
http://www.cse.iitb.ac.in/~pb/cs712-2013/potpouri/kashyap-gizeh-mozes-jan2013.pdf

http://www.cse.iitb.ac.in/~anoopk/publications/présentations/moses_giza_intro.pdf

http://www.cfilt.iitb.ac.in/Moses-Tutorial.pdf

InformationsquelleAutor user2238884
0

Il y a un supplément à une explication de comment format des fichiers d'entrée et comment exécuter GIZA++ ici:

http://www.tc.umn.edu/~bthomson/wordalignment/GIZAREADME.txt
- N'était plus disponible.
InformationsquelleAutor inquiryqueue

Vous devez vous connecter pour publier un commentaire.