Quelqu'un a analysé le Wiktionnaire?
Wiktionnaire est un wiki dictionnaire qui couvre de nombreuses langues. Il y a même des traductions. Je serais intéressé à l'analyse et à jouer avec les données, quelqu'un a fait quelque chose comme ça avant? Est-il une bibliothèque que je peux utiliser? (De Préférence Python.)
Vous devez vous connecter pour publier un commentaire.
Wiktionnaire s'exécute sur MediaWiki, qui a une API.
L'un des sous-pages de la documentation de l'API est Code Client, qui répertorie certaines bibliothèques Python.
J'ai eu à la fois téléchargé une wiktionnaire dump, en essayant de rassembler des mots et des définitions pour les langues slaves. Je me suis approché à l'aide de elementtree de passer par le fichier xml qui est le dump. Je voudrais éviter d'essayer de gratter ou de parcourir le site, et il suffit de télécharger l'image xml que wikimedia offre pour le wiktionnaire. Aller à la wikimedia téléchargements, regardez pour les anglais wiktionnaire dumps (enwiktionary) et aller à la sauvegarde la plus récente. Vous voudrez probablement les pages des articles.xml.fichier bz2, qui est juste le contenu de l'article, pas de l'histoire ou des commentaires. Analyser ce avec quoi que ce soit de traitement xml bibliothèques que vous préférez dans python. Personnellement, je préfère elementtree. Bonne chance.
wordnik a fait un bon travail d'analyse-des définitions, etc
et ils ont un grand api
comme les autres l'ont mentionné, le wiktionnaire est un formatage de la catastrophe, et n'a pas été construit pour être lisible par ordinateur
Oui, beaucoup de gens analysé le Wiktionnaire. Vous pouvez généralement trouver des expériences passées dans le Wiktionnaire-l archives des listes de diffusion.
Un projet n'est pas mentionné par d'autres réponses est de DBPedia est Wiktionnaire RDF extraction.
Des dizaines d'autres projets de recherche analysé Wiktionnaire: vous pouvez trouver quelques exemples dans un récent Wiktionnaire spécial et dans d'autres questions de la Wikimedia bulletin de recherche.
Récemment quelqu'un a également fait une Anglais Wiktionnaire API REST qui comprend un quelconque sous-ensemble de Wiktionary données; les plans d'avenir pour la chose ne sont pas encore connus.
J'ai eu une fissure à l'analyse de l'allemand wiktionnaire. J'ai fini par écrire que c'était trop difficile, mais j'ai mis mon (pas du tout rangé) code jusqu'à https://github.com/benreynwar/wiktionary-parser avant j'ai renoncé. Bien qu'il existe des conventions utilisées par les éditeurs, ils ne sont pas appliquées par autre chose que par les pairs de la surveillance. La diversité des modèles utilisés avec toutes les fautes de frappe dans les pages qui rend l'analyse très difficile.
Je pense que le problème est qu'ils ont utilisé le même système que pour le wiktionnaire qui est excellent pour la facilité d'utilisation par les éditeurs, mais n'est pas approprié pour le beaucoup plus structurée du contenu du wiktionnaire. C'est une honte parce que si wiktionnaire pourrait facilement être analysé, il serait extrêmement utile de ressources.
Je viens de faire une liste de mots à partir de l'allemand vider comme ça:
Vous êtes les bienvenus pour jouer avec MySQL analysé le Wiktionnaire base de données.
Il existe deux bases de données (Wiktionnaire anglais et russe Wiktionnaire) créé par l'analyseur écrit en Java: http://wikokit.googlecode.com
Si vous aimez PHP, alors vous êtes les bienvenus pour jouer avec piwidict - PHP API pour cette lisibles à la machine Wiktionnaire Deux
Vous pouvez être intéressé par dbnary projet, pas de python, mais intéressant.
Demandes de support d'analyse pour les 21 langues et pouvoirs wikdict.
Il est également JWKTL qui fait un bon travail pour l'analyse et l'extraction de données structurées à partir de wiktionnaire. Il est écrit en Java et a le soutien pour l'anglais, l'allemand et le russe éditions.
Cela dépend de fond que vous devez analyser. Si vous avez juste besoin d'obtenir tout le contenu d'un mot dans une langue (la définition, l'étymologie, la prononciation, la conjugaison, etc.) alors c'est assez facile. Je l'avais fait avant, bien que en Java à l'aide de jsoup
Toutefois, si vous avez besoin d'analyser à différents éléments du contenu (par exemple, juste obtenir les définitions d'un mot), alors il sera beaucoup plus difficile. Une Wiktionnaire entrée d'un mot dans une langue n'a pas de modèle prédéfini, donc un en-tête peut être quelque chose de
<h3>
à<h6>
, l'ordre des sections peut être mélangé, ils peuvent être répétitives, etc.J'ai écrit une primitive analyseur pour l'allemand Wiktionnaire dump en Java, seulement des extraits de noms et de leurs articles, ainsi que leur traduction en arabe, sans aucune dépendance. L'exécution prend du temps, alors soyez prévenus. Si il y a un intérêt/besoin d'analyser plus ou d'autres données, s'il vous plaît dites-moi, je pourrais le regarder comme le temps le permet.