Extraire le texte d'un fichier pdf à l'aide de javascript
Je veux extraire le texte d'un fichier pdf à l'aide de Javascript dans le côté client sans l'aide du serveur. J'ai déjà trouvé un code javascript dans le lien suivant: extraire le texte d'un pdf en Javascript
puis dans
http://hublog.hubmed.org/archives/001948.html
et dans:
https://github.com/hubgit/hubgit.github.com/tree/master/2011/11/pdftotext
1) je voulez s'il vous plaît de savoir quels sont les fichiers qui sont nécessaires à l'extraction à partir de la précédente.
2) je ne sais pas exactement comment adapter ces codes dans une application, pas dans le web.
Toute réponse est la bienvenue. Merci.
OriginalL'auteur Coccinelle | 2013-07-02
Vous devez vous connecter pour publier un commentaire.
ici un bel exemple de comment l'utiliser pdf.js pour extraire le texte:
http://git.macropus.org/2011/11/pdftotext/example/
bien sûr, vous devez supprimer un grand nombre de code pour votre but, mais elle doit le faire
U ne connais aucun moyen d'extraire du texte et de garder leur sémantique? L'exemple qui vient d'empoigne tout le texte sans tenir compte des sauts de ligne, des paragraphes, des titres, etc.
Comment avez-vous obtenu les sauts de ligne? - Je l'atteindre?
OriginalL'auteur Allanon
J'ai fait une méthode plus simple qui n'a pas besoin de poster des messages entre les iframes à l'aide de la même bibliothèque (à l'aide de la dernière version), à l'aide de pdf.js.
L'exemple suivant, extrait de tout le texte, uniquement à partir de la première page du PDF:
Lire l'article sur le sujet ici. @Xarxziux mentionné, la bibliothèque a changé depuis la première solution a été publié (il ne devrait pas fonctionner avec la dernière version de pdf.js plus). Cela devrait fonctionner pour la plupart des cas.
Bare à l'esprit les fichiers Pdf ne connaissent pas le format ou le même ordre du texte. Vous avez de la chance que vous pouvez obtenir le texte à tous. Le format d'exportation peuvent même être contradictoires. C'est pourquoi la démo originale remplacé tous les espaces avec un seul espace. Au moins un peu de garde au format cohérent.
PDFDocumentInstance.pdfInfo.numPages
devrait maintenant êtrePDFDocumentInstance.numPages
vous avez raison. Pour de meilleurs résultats, utilisez l'OCR (reconnaissance optique de caractères) à la place.
Je pense qu'une approche combinée qui est le mieux personnellement. OCRs tendance à avoir beaucoup de caractères incorrects de mon expérience. En combinant ces 2 techniques susceptibles de produire de meilleurs résultats. Vous ne savez pas si il existe des bibliothèques pour cela ou non.
OriginalL'auteur Carlos Delgado