Comment extraire du texte d'un fichier PDF avec Apache PDFBox

Je voudrais extraire le texte d'un fichier PDF avec Apache PDFBox.

J'ai écrit ce code:

PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File file = new File(filepath);

PDFParser parser = new PDFParser(new FileInputStream(file));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);

Cependant, j'ai eu l'erreur suivante:

Exception in thread "main" java.lang.NullPointerException
at org.apache.fontbox.afm.AFMParser.main(AFMParser.java:304)

J'ai ajouté pdfbox-1.8.5.jar et fontbox-1.8.5.jar pour le chemin de classe.

Modifier

J'ai ajouté System.out.println("program starts"); au début du programme.

J'ai couru, alors j'ai eu le même message d'erreur tel que mentionné ci-dessus et program starts n'apparaît pas dans la console.

Donc, je pense que j'ai un problème avec le chemin de classe ou de quelque chose.

Merci.

Probablement votre fichier PDF n'est pas tout à fait valide et rend PDFBox trébucher. Vous pourriez fournir le PDF pour l'inspection.
Êtes-vous sûr que vous commencer à les corriger main() méthode? L'exception semble que vous démarrez le main() de org.apache.fontbox.afm.AFMParser qui ressemble PDFBox code, pas votre code.
Vous avez raison. Je réinitialiser la configuration d'exécution et maintenant le programme fonctionne. Merci beaucoup, mkl.

InformationsquelleAutor Benben | 2014-05-22

java pdfbox

33

J'ai exécuté votre code et cela a fonctionné correctement. Peut-être que votre problème est lié à FilePath que vous avez donnée de fichier. J'ai mis mon pdf dans le lecteur C et est codé en dur le chemin d'accès au fichier. Voici mon code:
```
//PDFBox 2.0.8 require org.apache.pdfbox.io.RandomAccessRead
//import org.apache.pdfbox.io.RandomAccessFile;

public class PDFReader{
    public static void main(String args[]) throws IOException {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        File file = new File("C:/my.pdf");
        PDFParser parser = new PDFParser(new FileInputStream(file));
        parser.parse();
        try (COSDocument cosDoc = parser.getDocument()) {
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            pdfStripper.setStartPage(1);
            pdfStripper.setEndPage(5);
            String parsedText = pdfStripper.getText(pdDoc);
            System.out.println(parsedText);
        }
    }
}
```
- Sa fonctionne bien lorsque nous obtenons un fichier pdf à partir de l'ordinateur, Mais j'essaie de le faire à partir de la carte SD sur android puis donner le message d'erreur tel que "java.lang.ClassNotFoundException: Ne pas à trouver de la classe "java.awt.d'impression.Imprimable" sur le chemin: DexPathList[[fichier zip "/data/app/com.geeklabs.pdfreader-1/base.apk"],nativeLibraryDirectories=[/vendor/lib, /system/lib]]"
- Et aussi "de java.lang.NoClassDefFoundError: org.pdfbox.pdmodel.PDDocument" même si l'ajout de libs pour construire le chemin
- Comment est PDFbox utilisé? Je suis nouveau sur ce concept, mais n'avez aucune idée de par où commencer. J'ai téléchargé le fichier jar, mais un double-clic ne fonctionne pas.
- Avec pdfbox 2.0.5 ce code ne compile pas avec l'erreur: java.io.FileInputStream ne peut pas être lancé pour org.apache.pdfbox.io.RandomAccessRead
- Le constructeur PDFParser(FileInputStream) n'est pas défini en fonte pour org.apache.pdfbox.io.RandomAccessRead d'erreur donné
- Cette réponse ne fonctionne pas avec la version actuelle de la bibliothèque, voir la réponse de @Matthias
- envelopper avec org.apache.pdfbox.io.RandomAccessBufferedFileInputStream
InformationsquelleAutor Emad
33

À l'aide de PDFBox 2.0.7, c'est la façon dont je reçois le texte d'un PDF:
```
static String getText(File pdfFile) throws IOException {
    PDDocument doc = PDDocument.load(pdfFile);
    return new PDFTextStripper().getText(doc);
}
```
L'appeler comme ceci:
```
try {
    String text = getText(new File("/home/me/test.pdf"));
    System.out.println("Text in PDF: " + text);
} catch (IOException e) {
    e.printStackTrace();
}
```
Depuis que l'utilisateur oivemaria demandé dans les commentaires:

Vous pouvez utiliser PDFBox dans votre application en l'ajoutant dans vos dépendances, dans build.gradle:
```
dependencies {
  compile group: 'org.apache.pdfbox', name: 'pdfbox', version: '2.0.7'
}
```
Voici plus d' sur la gestion de la dépendance à l'aide de Gradle.

Si vous souhaitez conserver le fichier PDF est le format dans l'analyse de texte, donner PDFLayoutTextStripper un essai.
- C'est mieux que la accepté de répondre. J'ai utilisé le même pour accéder à la ressource comme InputStream pour charger le fichier de src\resources dossier. Vous pouvez également utiliser maven dépendance de m2repo mvnrepository.com/artifact/org.apache.pdfbox/pdfbox
- C'était un très simple et facile d'exemple, pour obtenir PDFBox de travail.
InformationsquelleAutor Matthias Braun

PdfBox 2.0.3 est un outil de ligne de commande ainsi.

Télécharger le fichier jar
java -jar pdfbox-app-2.0.3.jar ExtractText [OPTIONS] <inputfile> [output-text-file]

Options:
  -password  <password>        : Password to decrypt document
  -encoding  <output encoding> : UTF-8 (default) or ISO-8859-1, UTF-16BE, UTF-16LE, etc.
  -console                     : Send text to console instead of file
  -html                        : Output in HTML format instead of raw text
  -sort                        : Sort the text before writing
  -ignoreBeads                 : Disables the separation by beads
  -debug                       : Enables debug output about the time consumption of every stage
  -startPage <number>          : The first page to start extraction(1 based)
  -endPage <number>            : The last page to extract(inclusive)
  <inputfile>                  : The PDF document to use
  [output-text-file]           : The file to write the text to

InformationsquelleAutor sonus21

Maven dep:

    <dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.9</version>
    </dependency>

Puis le fucntion pour obtenir le pdf du texte comme une Chaîne de caractères.

private static String readPDF(File pdf) throws InvalidPasswordException, IOException {
    try (PDDocument document = PDDocument.load(pdf)) {

        document.getClass();

        if (!document.isEncrypted()) {

            PDFTextStripperByArea stripper = new PDFTextStripperByArea();
            stripper.setSortByPosition(true);

            PDFTextStripper tStripper = new PDFTextStripper();

            String pdfFileInText = tStripper.getText(document);
            //System.out.println("Text:" + st);

            //split by whitespace
            String lines[] = pdfFileInText.split("\\r?\\n");
            List<String> pdfLines = new ArrayList<>();
            StringBuilder sb = new StringBuilder();
            for (String line : lines) {
                System.out.println(line);
                pdfLines.add(line);
                sb.append(line + "\n");
            }
            return sb.toString();
        }

    }
    return null;
}

InformationsquelleAutor SüniÚr

Cela fonctionne bien pour extraire des données à partir d'un fichier au format PDF le texte contenu à l'aide de pdfbox 2.0.6

import java.io.File;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
public class PDFTextExtractor {
public static void main(String[] args) throws IOException {
System.out.println(readParaFromPDF("C:\\sample1.pdf",3, "Enter Start Text Here", "Enter Ending Text Here"));
//Enter FilePath, Page Number, StartsWith, EndsWith
}
public static String readParaFromPDF(String pdfPath, int pageNo, String strStartIndentifier, String strEndIdentifier) {
String returnString = "";
try {
PDDocument document = PDDocument.load(new File(pdfPath));
document.getClass();        
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper tStripper = new PDFTextStripper();
tStripper.setStartPage(pageNo);
tStripper.setEndPage(pageNo);
String pdfFileInText = tStripper.getText(document);
String strStart = strStartIndentifier;
String strEnd = strEndIdentifier;
int startInddex = pdfFileInText.indexOf(strStart);
int endInddex = pdfFileInText.indexOf(strEnd);
returnString = pdfFileInText.substring(startInddex, endInddex) + strEnd;
}
} catch (Exception e) {
returnString = "No ParaGraph Found";
}
return returnString;
}
}

InformationsquelleAutor Sunil K Chaudhary

Vous devez vous connecter pour publier un commentaire.