Comment rechercher par programme un document PDF dans c #
J'ai besoin de rechercher un fichier pdf pour voir si une chaîne de caractère est présent. La chaîne en question est certainement codé en tant que texte (ie. ce n'est pas une image ou quoi que ce soit). J'ai essayé tout simplement une recherche dans le fichier comme si c'était du texte brut, mais cela ne fonctionne pas.
Est-il possible de faire cela? Sont là toute la bibliothèque pour des .net2.0 qui va extraire/décoder tout le texte du fichier pdf pour moi?
source d'informationauteur Nathan
Vous devez vous connecter pour publier un commentaire.
Il y a un peu de bibliothèques disponibles.
Découvrez http://www.codeproject.com/KB/cs/PDFToText.aspx
et http://itextsharp.sourceforge.net/
Il prend un peu d'effort, mais c'est possible.
Vous pouvez utiliser Docotic.Pdf library pour rechercher du texte dans les fichiers PDF.
Voici un exemple de code:
La bibliothèque peut également l'extrait mis en forme et en texte brut de l'ensemble ou de tout autre document de la page.
Disclaimer: je travaille pour Peu Miracle, fournisseur de la bibliothèque.
Dans la grande majorité des cas, il n'est pas possible de rechercher le contenu d'un fichier PDF directement l'ouvrir dans le bloc-notes, et même dans la minorité des cas (en fonction de la façon dont le PDF a été construit), vous ne jamais être en mesure de recherche pour des mots isolés en raison de la façon dont PDF poignées de texte à l'intérieur.
Mon entreprise a une solution commerciale qui vous permettra d'extraire du texte à partir d'un fichier PDF. J'ai inclus quelques exemples de code pour vous ci-dessous, comme indiqué sur cette pagequi montre comment effectuer une recherche dans le texte d'un fichier PDF pour une chaîne de caractères particulière.