comment pouvons-nous extraire du texte à partir d'un fichier pdf à l'aide de itextsharp avec des espaces?

Je suis en utilisant la méthode ci-dessous pour en extraire pdf texte, ligne par ligne. Mais problème, il n'est pas de la lecture des espaces entre les mots et les chiffres. quelle pourrait être la solution pour cela ??

Je veux juste créer une liste de chaîne de caractères, chaque chaîne dans la liste objet a une ligne de texte au format pdf, il est en pdf, y compris les espaces.

public void readtextlinebyline(string filename)   {


        List<string> strlist = new List<string>();
        PdfReader reader = new PdfReader(filename);
        string text = string.Empty;
        for (int page = 1; page <= 1; page++)
        {

            text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

        }
        reader.Close();
        string[] words = text.Split('\n');
        foreach (string word in words)
        {
            strlist.Add(word);
        }

        foreach (string st in strlist)
        {
            Response.Write(st +"<br/>");
        }

   }

J'ai essayé cette méthode par changement de stratégie pour SimpleTextExtractionStrategy ainsi, mais c'est aussi de ne pas travailler pour moi.

Cette réponse à "itext java pdf de création de texte" peut illustrer la raison et font allusion à une solution: Copier le texte d'extration de la stratégie et de modifier les paramètres internes, dans votre cas, la largeur minimale de l'espace à être reconnu comme un espace, renderInfo.getSingleSpaceWidth()/2f par défaut; la personne qui a demandé de revenir il y a eu de l'amélioration des résultats avec renderInfo.getSingleSpaceWidth()/4f.
Comme vous offrons une prime, vous avez sûrement soumis à ce problème. Ainsi, vous ne peut certainement fournir un ou plusieurs échantillons de fichiers Pdf pour servir de cas de test pour les solutions proposées. L'état actuel de la question permet de répondre à de pures conjectures.
Désolé pour la réponse tardive, ma connexion s'est cassé.Ce que je n'aime pas c'est pas votre solution (il fonctionne) - ce qui me déplaît, c'est que cette solution n'est probablement pas fiable. F. E: il fonctionne avec un seul fichier, mais peut-être sur un autre fichier, il serait de produire trop d'espaces (Cause que le document doit renderInfo.getSingleSpaceWidth()/2f ou une tout autre diviseur). Je n'ai pas un exemple, mais ses quelque chose que je pouvais imaginer qu'il peut arriver. J'ai donc demandé des réponses à partir d'un "plus" de source fiable.
Malheureusement, vous n'oublierez pas facilement obtenir un générique fiable à 100% de la solution. Certains des problèmes qu'il est difficile de l'obtenir sont mentionnés dans la réponse que j'ai souligné. Il peut être vraiment difficile de faire la différence entre le crénage et étroitement jeu de mots.
Yep, j'ai pensé à quelque chose comme ça. Triste, mais pas modifiable. j'ai aussi essayé beaucoup de choses, comme essayer de calcul de la spacesize en fonction de la police, etc, mais rien ne marche aussi bien en tant que votre déjà posté la solution. Si vous postez votre solution de nouveau comme answear je peux vous donner la réputation.

OriginalL'auteur shailendra | 2013-05-06