Quelqu'un a analysé le Wiktionnaire?

Wiktionnaire est un wiki dictionnaire qui couvre de nombreuses langues. Il y a même des traductions. Je serais intéressé à l'analyse et à jouer avec les données, quelqu'un a fait quelque chose comme ça avant? Est-il une bibliothèque que je peux utiliser? (De Préférence Python.)

en.wiktionary.org/wiki/Wiktionary:Parsing

InformationsquelleAutor Rory | 2010-07-29

20

Wiktionnaire s'exécute sur MediaWiki, qui a une API.

L'un des sous-pages de la documentation de l'API est Code Client, qui répertorie certaines bibliothèques Python.

InformationsquelleAutor Amber
23

J'ai eu à la fois téléchargé une wiktionnaire dump, en essayant de rassembler des mots et des définitions pour les langues slaves. Je me suis approché à l'aide de elementtree de passer par le fichier xml qui est le dump. Je voudrais éviter d'essayer de gratter ou de parcourir le site, et il suffit de télécharger l'image xml que wikimedia offre pour le wiktionnaire. Aller à la wikimedia téléchargements, regardez pour les anglais wiktionnaire dumps (enwiktionary) et aller à la sauvegarde la plus récente. Vous voudrez probablement les pages des articles.xml.fichier bz2, qui est juste le contenu de l'article, pas de l'histoire ou des commentaires. Analyser ce avec quoi que ce soit de traitement xml bibliothèques que vous préférez dans python. Personnellement, je préfère elementtree. Bonne chance.
- Comment avez-vous utilisé elementtree? Aussi loin que je peux voir, la plupart des données n'est pas marqué xml, c'est à dire, vous avez tout sous <texte>: <text xml:space="preserve">==anglais== ===Étymologie 1=== {{rfe}} ====Prononciation==== * {{enPR|fēt}}, {{IPA|/fiːt/|lang=en}} * {{audio|fr-fr-pieds.ogg|Audio (US)|lang=en}} * {{comptines|iːt|lang=en}} * {{homophones|lang=fr|exploit}} ====Noun==== {{fr-nom pluriel}}
InformationsquelleAutor razzmataz
15

wordnik a fait un bon travail d'analyse-des définitions, etc
et ils ont un grand api

comme les autres l'ont mentionné, le wiktionnaire est un formatage de la catastrophe, et n'a pas été construit pour être lisible par ordinateur
- Merci, wordnik fonctionne parfaitement pour moi. J'ai un thin client Python pour obtenir des définitions et des exemples pour un mot.
- Reconnaissez-vous que la décharge de wikimedia est volontairement partielle? En fait, il est aussi malicieusement partielle en ce que le dump manque de base et souvent des mots tout en contenant beaucoup de mots, beaucoup d'entre nous ne savons même pas exister.
- Lien pour "intentionnellement partielle", s'il vous plaît. Si vous avez trouvé une page qui est présent sur le wiki, mais pas dans les décharges, avez-vous a rapporté le bogue?
InformationsquelleAutor spencercooly
10

Oui, beaucoup de gens analysé le Wiktionnaire. Vous pouvez généralement trouver des expériences passées dans le Wiktionnaire-l archives des listes de diffusion.

Un projet n'est pas mentionné par d'autres réponses est de DBPedia est Wiktionnaire RDF extraction.

Des dizaines d'autres projets de recherche analysé Wiktionnaire: vous pouvez trouver quelques exemples dans un récent Wiktionnaire spécial et dans d'autres questions de la Wikimedia bulletin de recherche.

Récemment quelqu'un a également fait une Anglais Wiktionnaire API REST qui comprend un quelconque sous-ensemble de Wiktionary données; les plans d'avenir pour la chose ne sont pas encore connus.

InformationsquelleAutor
9

J'ai eu une fissure à l'analyse de l'allemand wiktionnaire. J'ai fini par écrire que c'était trop difficile, mais j'ai mis mon (pas du tout rangé) code jusqu'à https://github.com/benreynwar/wiktionary-parser avant j'ai renoncé. Bien qu'il existe des conventions utilisées par les éditeurs, ils ne sont pas appliquées par autre chose que par les pairs de la surveillance. La diversité des modèles utilisés avec toutes les fautes de frappe dans les pages qui rend l'analyse très difficile.

Je pense que le problème est qu'ils ont utilisé le même système que pour le wiktionnaire qui est excellent pour la facilité d'utilisation par les éditeurs, mais n'est pas approprié pour le beaucoup plus structurée du contenu du wiktionnaire. C'est une honte parce que si wiktionnaire pourrait facilement être analysé, il serait extrêmement utile de ressources.
- Viens de voir cela quand on regarde les autres slashdot wiktionnaire questions. Il pourrait être utile. en.wikipedia.org/wiki/...
- Ce projet est maintenant hébergé à l'adresse github.com/benreynwar/wiktionary-parser. Il reste négligé.
InformationsquelleAutor Ben Reynwar
4

Je viens de faire une liste de mots à partir de l'allemand vider comme ça:
```
bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*::' > words
```
- Je pense que la question portait sur l'analyse du contenu du wiki, pas le XML.
InformationsquelleAutor benroth
4

Vous êtes les bienvenus pour jouer avec MySQL analysé le Wiktionnaire base de données.
Il existe deux bases de données (Wiktionnaire anglais et russe Wiktionnaire) créé par l'analyseur écrit en Java: http://wikokit.googlecode.com

Si vous aimez PHP, alors vous êtes les bienvenus pour jouer avec piwidict - PHP API pour cette lisibles à la machine Wiktionnaire Deux
- Ce peut être la plus prometteuse de l'option de tous les écrits à ce jour. +1
InformationsquelleAutor Andrew Krizhanovsky
3

Vous pouvez être intéressé par dbnary projet, pas de python, mais intéressant.
Demandes de support d'analyse pour les 21 langues et pouvoirs wikdict.
- WikDict également fournir des téléchargements de traduction de données qui a été transformé pour le rendre plus facile à utiliser. Voir wikdict.com/page/about .
InformationsquelleAutor yota
1

Il est également JWKTL qui fait un bon travail pour l'analyse et l'extraction de données structurées à partir de wiktionnaire. Il est écrit en Java et a le soutien pour l'anglais, l'allemand et le russe éditions.
- Je pense qu'il ne prend pas en charge le français, mais l'allemand
- merci, corrigé.
InformationsquelleAutor Jan Berkel
0

Cela dépend de fond que vous devez analyser. Si vous avez juste besoin d'obtenir tout le contenu d'un mot dans une langue (la définition, l'étymologie, la prononciation, la conjugaison, etc.) alors c'est assez facile. Je l'avais fait avant, bien que en Java à l'aide de jsoup

Toutefois, si vous avez besoin d'analyser à différents éléments du contenu (par exemple, juste obtenir les définitions d'un mot), alors il sera beaucoup plus difficile. Une Wiktionnaire entrée d'un mot dans une langue n'a pas de modèle prédéfini, donc un en-tête peut être quelque chose de <h3> à <h6>, l'ordre des sections peut être mélangé, ils peuvent être répétitives, etc.

InformationsquelleAutor Chin
-1

J'ai écrit une primitive analyseur pour l'allemand Wiktionnaire dump en Java, seulement des extraits de noms et de leurs articles, ainsi que leur traduction en arabe, sans aucune dépendance. L'exécution prend du temps, alors soyez prévenus. Si il y a un intérêt/besoin d'analyser plus ou d'autres données, s'il vous plaît dites-moi, je pourrais le regarder comme le temps le permet.

InformationsquelleAutor skreutzer

Vous devez vous connecter pour publier un commentaire.