Comment rechercher par programme un document PDF dans c #

J'ai besoin de rechercher un fichier pdf pour voir si une chaîne de caractère est présent. La chaîne en question est certainement codé en tant que texte (ie. ce n'est pas une image ou quoi que ce soit). J'ai essayé tout simplement une recherche dans le fichier comme si c'était du texte brut, mais cela ne fonctionne pas.

Est-il possible de faire cela? Sont là toute la bibliothèque pour des .net2.0 qui va extraire/décoder tout le texte du fichier pdf pour moi?

source d'informationauteur Nathan

.net c#pdf search

12

Il y a un peu de bibliothèques disponibles.
Découvrez http://www.codeproject.com/KB/cs/PDFToText.aspx
et http://itextsharp.sourceforge.net/

Il prend un peu d'effort, mais c'est possible.

Vous pouvez utiliser Docotic.Pdf library pour rechercher du texte dans les fichiers PDF.

Voici un exemple de code:

static void searchForText(string path, string text)
{
    using (PdfDocument pdf = new PdfDocument(path))
    {
        for (int i = 0; i < pdf.Pages.Count; i++)
        {
            string pageText = pdf.Pages[i].GetText();
            int index = pageText.IndexOf(text, 0, StringComparison.CurrentCultureIgnoreCase);
            if (index != -1)
                Console.WriteLine("'{0}' found on page {1}", text, i);
        }
    }
}

La bibliothèque peut également l'extrait mis en forme et en texte brut de l'ensemble ou de tout autre document de la page.

Disclaimer: je travaille pour Peu Miracle, fournisseur de la bibliothèque.

Dans la grande majorité des cas, il n'est pas possible de rechercher le contenu d'un fichier PDF directement l'ouvrir dans le bloc-notes, et même dans la minorité des cas (en fonction de la façon dont le PDF a été construit), vous ne jamais être en mesure de recherche pour des mots isolés en raison de la façon dont PDF poignées de texte à l'intérieur.

Mon entreprise a une solution commerciale qui vous permettra d'extraire du texte à partir d'un fichier PDF. J'ai inclus quelques exemples de code pour vous ci-dessous, comme indiqué sur cette pagequi montre comment effectuer une recherche dans le texte d'un fichier PDF pour une chaîne de caractères particulière.

using System;
using System.IO;
using QuickPDFDLL0718;
namespace QPLConsoleApp
{
public class QPL
{
public static void Main()
{
//This example uses the DLL edition of Quick PDF Library
//Create an instance of the class and give it the path to the DLL
PDFLibrary QP = new PDFLibrary("QuickPDFDLL0718.dll");
//Check if the DLL was loaded successfully
if (QP.LibraryLoaded())
{
//Insert license key here /Check the license key
if (QP.UnlockKey("...") == 1)
{
QP.LoadFromFile(@"C:\Program Files\Quick PDF Library\DLL\GettingStarted.pdf");
int iPageCount = QP.PageCount();
int PageNumber = 1;
int MatchesFound = 0;
while (PageNumber <= iPageCount)
{
QP.SelectPage(PageNumber);
string PageText = QP.GetPageText(3);
using (StreamWriter TempFile = new StreamWriter(QP.GetTempPath() + "temp" + PageNumber + ".txt"))
{
TempFile.Write(PageText);
}
string[] lines = File.ReadAllLines(QP.GetTempPath() + "temp" + PageNumber + ".txt");
string[][] grid = new string[lines.Length][];
for (int i = 0; i < lines.Length; i++)
{
grid[i] = lines[i].Split(',');
}
foreach (string[] line in grid)
{
string FindMatch = line[11];
//Update this string to the word that you're searching for.
//It can be one or more words (i.e. "sunday" or "last sunday".
if (FindMatch.Contains("characters"))
{
Console.WriteLine("Success! Word match found on page: " + PageNumber);
MatchesFound++;
}
}
PageNumber++;
}
if (MatchesFound == 0)
{
Console.WriteLine("Sorry! No matches found.");
}
else
{
Console.WriteLine();
Console.WriteLine("Total: " + MatchesFound + " matches found!");
}
Console.ReadLine();
}
}
}
}
}

Vous devez vous connecter pour publier un commentaire.