Extraction de table PDF

J'ai (même) les données qui sont enregistrées en tant que fichier image GIF et en tant que fichier PDF et je veux l'analyser au format HTML ou XML. Les données sont en fait le menu de mon université et de la cafétéria. Cela signifie qu'il ya une nouvelle version du fichier qui doit être analysé chaque semaine!
En Général, les fichiers contiennent quelques-uns d'en-tête et pied de page de texte, ainsi que d'une table avec plein d'autres données entre les deux.
J'ai lu quelques posts sur stackoverflow et j'avais aussi commencé quelques tentatives pour analyser les données de la table en HTML/XML:

PDF

  • PDFBox || iText (Java)
  • Google Docs Importation
  • PDF2HTML || PDF2Table

GIF

  • Tesseract-OCR

J'ai obtenu le meilleur résultat de l'analyse du fichier PDF avec PDFBox, mais encore (comme le menu change chaque semaine), il n'est pas assez fiable. Le code HTML que je reçois comprend parfois plus, parfois moins "paragraphes" (<p>), de sorte que je ne suis pas en mesure d'analyser les données precice assez.

C'est pourquoi je voudrais savoir si il y a une autre façon de faire?

source d'informationauteur Vilius