Des idées pour le Traitement de la Langue Naturelle du projet?

Je dois faire un projet de fin d'informatique linguistique de la classe. Nous avons été à l'aide de OCaml tout le temps, mais j'ai aussi de la familiarité avec Java. Nous avons étudié la morphologie, de la Fsm, la collecte d'analyser les arbres, CYK de l'analyse, tente, refoulement des automates, expressions régulières, théorie des langages formels, sémantique, etc.

Voici quelques idées que j'ai trouvé. Avez-vous tout ce que vous pensez serait cool?

  1. Un script qui scanne Facebook threads pour l'odieux* commentaires et silencieusement les cache avec JS (ce serait de fonctionner avec le consentement de l'utilisateur, évidemment)

  2. Une analyse d'un morceau de l'écriture à l'aide de la sémantique, la syntaxe, la ponctuation, l'utilisation, et d'autres mesures, pour essayer de les "empreintes digitales" de l'auteur. Il pourrait être utilisé pour déterminer si les deux œuvres sont probablement écrit par le même auteur. Ou, quelqu'un pourrait la mettre dans un tas de l'écriture, il est fait au fil du temps, et avoir une idée de son style a changé.

  3. Un chat bot (moins intéressant/original)

J'ai peut être autorisée à utiliser les bibliothèques existantes pour ce faire. N'importe existent pour OCaml? Sans bibliothèque/toolkit, ces trois idées sont probablement infaisable, à moins de me limiter à un très spécifique dans le domaine.

Niveau inférieur idées:

  1. Opérations sur des machines à états finis - la réduction, de la composition de transducteurs, prouvant qu'un FSM est dans un minimum d'état possible. Je suis très intéressé par la théorie des graphes, de sorte que tout chevauchement avec les Smqs pourrait être un bon endroit pour explorer. (Ce que je peux faire avec Smqs?)

  2. Quelque chose de cool avec la regex?

  3. Quelque chose de cool avec CYK?

Quelqu'un d'autre avez des idées de génie?

*odieux défini comme étant la suite de certains modèles typiques de jeunes lycéens. L'imprécision de ce terme n'est pas un problème; pour le crédit, je pourrais définir ce que je veux et la cible qu'.

  • Bien que personnellement, j'aime la question beaucoup de choses, j'ai l'impression que c'est pas de "constructive" par le soi définition :/
  • Je n'ai simplement marquer un enfant de 3 ans question pour un examen? Tête->Bureau. Putain vous, les devoirs de la balise de nettoyage!
InformationsquelleAutor Nick Heiner | 2009-11-24