L'extraction de texte à partir de fichiers PDF à l'aide de pdfbox
Je suis en train d'extraire le texte d'un fichier PDF à l'aide de pdfbox mais non pas comme un outil de ligne de commande, mais à l'intérieur de mon application Java. Je suis le téléchargement de fichier pdf à l'aide jsoup.
res = Jsoup
.connect(host+action)
.ignoreContentType(true)
.data(data)
.cookies(cookies)
.method(Method.POST)
.timeout(20*1000)
.execute();
//prepare document
InputStream is = new ByteArrayInputStream(res.bodyAsBytes());
PDDocument pdf = new PDDocument();
pdf.load(is,true);
//extract text
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pdf);
//print extracted text
System.out.println(text);
Ce code imprime tout simplement vide de ligne. Quand je fais cela:
System.out.println(res.body());
il imprime le fichier pdf de sortie comme ceci:
%PDF-1.4
%����
6 0 obj
<<
/Filter /FlateDecode
/Length 1869
>>
stream
x��X�n��
...
<<
/Size 28
/Info 27 0 R
/Root 26 0 R
>>
startxref
20632
%%EOF
Donc, je suis sûr que pdf téléchargé correctement - juste ce PDF décapant ne marche pas...
---------------------------------------------- edit
ce problème est résolu - code de travail est ici http://thottingal.in/blog/2009/06/24/pdfbox-extract-text-from-pdf/
peut-être que ceci peut vous aider à obtenir commencé ... je n'ai jamais travaillé avec jsoup, ni pdfbox donc, je suis pas d'aide mais je vais essayer pdfbox depuis que j'ai testé itextpdf lecteur pour l'extraction des textes.
Merci, c'est ce que je cherchais pour qu'il fonctionne maintenant 🙂
Grand. Si vous pouvez répondre à votre propre question pour plus tard, ça va être super ..
Fournir la réponse comme une réponse réelle, et la marque de la question répondu, donc la question va paraître une réponse correcte à d'autres utilisateurs venant de une de questions sans réponse en page de recherche.
Ne pouvez pas ajouter beaucoup plus que d'une réplique. Une question sans réponse, c'est comme une source d'eau qui n'a jamais été découvert.
Merci, c'est ce que je cherchais pour qu'il fonctionne maintenant 🙂
Grand. Si vous pouvez répondre à votre propre question pour plus tard, ça va être super ..
Fournir la réponse comme une réponse réelle, et la marque de la question répondu, donc la question va paraître une réponse correcte à d'autres utilisateurs venant de une de questions sans réponse en page de recherche.
Ne pouvez pas ajouter beaucoup plus que d'une réplique. Une question sans réponse, c'est comme une source d'eau qui n'a jamais été découvert.
OriginalL'auteur user606521 | 2013-01-16
Vous devez vous connecter pour publier un commentaire.
(Réponse à la Question dans les commentaires. Voir Question sans réponses, mais problème résolu dans les commentaires (ou étendu dans le chat) )
@WeloSefer a écrit:
L'OP a écrit:
OriginalL'auteur