L'extraction de texte à partir de fichiers PDF à l'aide de pdfbox

Je suis en train d'extraire le texte d'un fichier PDF à l'aide de pdfbox mais non pas comme un outil de ligne de commande, mais à l'intérieur de mon application Java. Je suis le téléchargement de fichier pdf à l'aide jsoup.

res = Jsoup
.connect(host+action)
.ignoreContentType(true)
.data(data)
.cookies(cookies)
.method(Method.POST)
.timeout(20*1000)
.execute();

//prepare document
InputStream is = new ByteArrayInputStream(res.bodyAsBytes()); 
PDDocument pdf = new PDDocument();
pdf.load(is,true);

//extract text
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(pdf);

//print extracted text
System.out.println(text);

Ce code imprime tout simplement vide de ligne. Quand je fais cela:

System.out.println(res.body());

il imprime le fichier pdf de sortie comme ceci:

%PDF-1.4
%����
6 0 obj
<<
/Filter /FlateDecode
/Length 1869
>>
stream
x��Xn��

...

<<
/Size 28
/Info 27 0 R
/Root 26 0 R
>>
startxref
20632
%%EOF

Donc, je suis sûr que pdf téléchargé correctement - juste ce PDF décapant ne marche pas...

---------------------------------------------- edit

ce problème est résolu - code de travail est ici http://thottingal.in/blog/2009/06/24/pdfbox-extract-text-from-pdf/

peut-être que ceci peut vous aider à obtenir commencé ... je n'ai jamais travaillé avec jsoup, ni pdfbox donc, je suis pas d'aide mais je vais essayer pdfbox depuis que j'ai testé itextpdf lecteur pour l'extraction des textes.
Merci, c'est ce que je cherchais pour qu'il fonctionne maintenant 🙂
Grand. Si vous pouvez répondre à votre propre question pour plus tard, ça va être super ..
Fournir la réponse comme une réponse réelle, et la marque de la question répondu, donc la question va paraître une réponse correcte à d'autres utilisateurs venant de une de questions sans réponse en page de recherche.
Ne pouvez pas ajouter beaucoup plus que d'une réplique. Une question sans réponse, c'est comme une source d'eau qui n'a jamais été découvert.

OriginalL'auteur user606521 | 2013-01-16