Recherche de Mot en PDF à l'aide de Itextsharp

Ceci est mon premier post dans StackOverflow.

J'ai un fichier PDF dans mon disque Système... je veux écrire un programme en C# à l'aide de Itextsharp.dll de référence pour rechercher un mot Particulier dans ce PDF ... dire que je veux de recherche "StackOverFlow"...
Si le document PDF contient le Mot "StackOverFlow" , il doit retourner true.

Autre chose, elle doit retourner false.

J'ai regardé dans de nombreux articles, mais n'a pas la solution jusqu'à maintenant ..:-(

Ce que j'ai essayé jusqu'à maintenant est :

public string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                    string currentText = "2154/MUM/2012 A";//PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }

Merci d'avance,
Sabya Dev

Vous avez PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy). Et vous avez à la chaîne de recherche. Avez-vous vérifié si votre chaîne de recherche est le résultat de la GetTextFromPage méthode encore? Si elle n'est pas, avez-vous vérifié que le retour de cette méthode ressemble (c'EST une chaîne, après tout)?

OriginalL'auteur user2553159 | 2013-07-05

c#itextsharp pdf

La méthode suivante fonctionne très bien. Il donne la liste des pages où le texte est trouvé.

     public  List<int> ReadPdfFile(string fileName, String searthText)
            {
                List<int> pages = new List<int>();
                if (File.Exists(fileName))
                {
                    PdfReader pdfReader = new PdfReader(fileName);
                    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                    {
                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();

                        string currentPageText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
                        if (currentPageText.Contains(searthText))
                        {
                            pages.Add(page);
                        }
                    }
                    pdfReader.Close();
                }
                return pages;
            }

Merci pour la réponse ... puis-je obtenir le numéro de la Page ???
oui, vous obtenez les numéros de page dans la liste. retour pages; donne les numéros de page..
Je pense que votre paramètre de texte a un lisp. 😉
Dois-je créer une nouvelle instance de SimpleTextExtractionStrategy à chaque itération?
Je sais que c'est un vieux de réponse... mais... vous Pouvez aussi rechercher du texte position (x et y) sur la page?

OriginalL'auteur Lalitya

Vous devez vous connecter pour publier un commentaire.