Extraire le texte d'un fichier pdf à l'aide de javascript

Je veux extraire le texte d'un fichier pdf à l'aide de Javascript dans le côté client sans l'aide du serveur. J'ai déjà trouvé un code javascript dans le lien suivant: extraire le texte d'un pdf en Javascript

puis dans

http://hublog.hubmed.org/archives/001948.html

et dans:

https://github.com/hubgit/hubgit.github.com/tree/master/2011/11/pdftotext

1) je voulez s'il vous plaît de savoir quels sont les fichiers qui sont nécessaires à l'extraction à partir de la précédente.
2) je ne sais pas exactement comment adapter ces codes dans une application, pas dans le web.

Toute réponse est la bienvenue. Merci.

OriginalL'auteur Coccinelle | 2013-07-02

12

ici un bel exemple de comment l'utiliser pdf.js pour extraire le texte:
http://git.macropus.org/2011/11/pdftotext/example/

bien sûr, vous devez supprimer un grand nombre de code pour votre but, mais elle doit le faire

Note pour les futurs Googlers: l'officiel pdf.js le projet semble avoir changé de mains plusieurs fois depuis les liens ci-dessus ont été publiées, mais il réside actuellement dans Mozilla GitHub page - github.com/mozilla/pdf.js
U ne connais aucun moyen d'extraire du texte et de garder leur sémantique? L'exemple qui vient d'empoigne tout le texte sans tenir compte des sauts de ligne, des paragraphes, des titres, etc.
Comment avez-vous obtenu les sauts de ligne? - Je l'atteindre?

OriginalL'auteur Allanon

J'ai fait une méthode plus simple qui n'a pas besoin de poster des messages entre les iframes à l'aide de la même bibliothèque (à l'aide de la dernière version), à l'aide de pdf.js.

L'exemple suivant, extrait de tout le texte, uniquement à partir de la première page du PDF:

/**
 * Retrieves the text of a specif page within a PDF Document obtained through pdf.js 
 * 
 * @param {Integer} pageNum Specifies the number of the page 
 * @param {PDFDocument} PDFDocumentInstance The PDF document obtained 
 **/
function getPageText(pageNum, PDFDocumentInstance) {
    //Return a Promise that is solved once the text of the page is retrieven
    return new Promise(function (resolve, reject) {
        PDFDocumentInstance.getPage(pageNum).then(function (pdfPage) {
            //The main trick to obtain the text of the PDF page, use the getTextContent method
            pdfPage.getTextContent().then(function (textContent) {
                var textItems = textContent.items;
                var finalString = "";

                //Concatenate the string of the item to the final string
                for (var i = 0; i < textItems.length; i++) {
                    var item = textItems[i];

                    finalString += item.str + " ";
                }

                //Solve promise with the text retrieven from the page
                resolve(finalString);
            });
        });
    });
}

/**
 * Extract the test from the PDF
 */

var PDF_URL  = '/path/to/example.pdf';
PDFJS.getDocument(PDF_URL).then(function (PDFDocumentInstance) {

    var totalPages = PDFDocumentInstance.pdfInfo.numPages;
    var pageNumber = 1;

    //Extract the text
    getPageText(pageNumber , PDFDocumentInstance).then(function(textPage){
        //Show the text of the page in the console
        console.log(textPage);
    });

}, function (reason) {
    //PDF loading error
    console.error(reason);
});

Lire l'article sur le sujet ici. @Xarxziux mentionné, la bibliothèque a changé depuis la première solution a été publié (il ne devrait pas fonctionner avec la dernière version de pdf.js plus). Cela devrait fonctionner pour la plupart des cas.

Cette méthode ne donne pas de données dans le bon format. Nous ne pouvons pas trouver où est la ligne de saut de paragraphe.
Bare à l'esprit les fichiers Pdf ne connaissent pas le format ou le même ordre du texte. Vous avez de la chance que vous pouvez obtenir le texte à tous. Le format d'exportation peuvent même être contradictoires. C'est pourquoi la démo originale remplacé tous les espaces avec un seul espace. Au moins un peu de garde au format cohérent.
PDFDocumentInstance.pdfInfo.numPages devrait maintenant être PDFDocumentInstance.numPages
vous avez raison. Pour de meilleurs résultats, utilisez l'OCR (reconnaissance optique de caractères) à la place.
Je pense qu'une approche combinée qui est le mieux personnellement. OCRs tendance à avoir beaucoup de caractères incorrects de mon expérience. En combinant ces 2 techniques susceptibles de produire de meilleurs résultats. Vous ne savez pas si il existe des bibliothèques pour cela ou non.

OriginalL'auteur Carlos Delgado

Vous devez vous connecter pour publier un commentaire.