à l'aide de ITextSharp pour extraire et mettre à jour les liens dans un fichier PDF existant

J'ai besoin de mettre plusieurs (lire: beaucoup) des fichiers PDF sur le web, mais beaucoup d'entre eux ont été codés en dur file://liens et des liens vers d'autres lieux publics. J'ai besoin de lire ces fichiers et de mettre à jour les liens vers les endroits appropriés. J'ai commencé l'écriture d'une application à l'aide de itextsharp à lire à travers les répertoires et les fichiers, trouver les fichiers Pdf et d'itérer sur chaque page. Ce dont j'ai besoin pour faire est de trouver les liens et ensuite mettre à jour celles incorrects.

string path = "c:\\html";
DirectoryInfo rootFolder = new DirectoryInfo(path);

foreach (DirectoryInfo di in rootFolder.GetDirectories())
{
    //get pdf
    foreach (FileInfo pdf in di.GetFiles("*.pdf"))
    {
        string contents = string.Empty;
        Document doc = new Document();
        PdfReader reader = new PdfReader(pdf.FullName);

        using (MemoryStream ms = new MemoryStream())
        {
            PdfWriter writer = PdfWriter.GetInstance(doc, ms);
            doc.Open();

            for (int p = 1; p <= reader.NumberOfPages; p++)
            {
                byte[] bt = reader.GetPageContent(p);

            }
        }
    }
}

Franchement, une fois que je reçois le contenu de la page je suis un peu perdue sur ce quand il s'agit de iTextSharp. J'ai lu à travers le itextsharp exemples sur le site de sourceforge, mais n'a pas vraiment trouver ce que je cherchais.

Toute aide serait grandement appréciée.

Grâce.

InformationsquelleAutor Andy Evans | 2011-11-15

c#c#-4.0 itextsharp

Celui-ci est un peu compliqué si vous ne connaissez pas le fonctionnement interne du format PDF et iText/iTextSharp abstraction/mise en œuvre. Vous avez besoin de comprendre comment utiliser PdfDictionary objets et de regarder les choses par leur PdfName clé. Une fois que vous obtenez ce que vous pouvez lire à travers les officiel technique PDF et fouiner un document assez facilement. Si vous ne les soins, j'ai inclus les parties pertinentes de la technique (PDF) entre parenthèses, le cas échéant.

De toute façon, un lien dans un document PDF est stocké sous forme d'une annotation (PDF Ref 12.5). Annotations en page de sorte que vous devez d'abord obtenir de chaque page annotation tableau individuellement. Il y a un tas de différents types d'annotations si vous avez besoin de vérifier chacun SUBTYPE et de voir si son jeu de LINK (12.5.6.5). Chaque lien devrait ont un ACTION dictionnaire associé (12.6.2) et que vous voulez vérifier l'action du S clé pour voir quel type d'action il est. Il y a un tas de raisons possibles pour cela, le lien est en particulier pourrait être des liens internes ou d'ouvrir des liens vers des fichiers ou jouer des sons de liens ou de quelque chose d'autre (12.6.4.1). Vous êtes à la recherche uniquement pour les liens qui sont de type URI (note de la lettre I et non pas la lettre L). URI Actions (12.6.4.7) ont un URI clé qui contient l'adresse de naviguer. (Il y a aussi un IsMap propriété de l'image des cartes que je ne peux pas vraiment imaginer que quelqu'un l'aide.)

Ouf. Encore de la lecture? Ci-dessous est un travail plein de VS 2010 C#, WinForms application basé sur mon post ici ciblage iTextSharp 5.1.1.0. Ce code a deux choses principales: 1) Créer un exemple de fichier PDF avec un lien pointant vers elle Google.com et 2) remplace le lien avec un lien vers bing.com. Le code doit être assez bien commenté mais n'hésitez pas à poser toutes les questions que vous pourriez avoir.

using System;
using System.Text;
using System.Windows.Forms;
using iTextSharp.text;
using iTextSharp.text.pdf;
using System.IO;
namespace WindowsFormsApplication1
{
public partial class Form1 : Form
{
//Folder that we are working in
private static readonly string WorkingFolder = Path.Combine(Environment.GetFolderPath(Environment.SpecialFolder.Desktop), "Hyperlinked PDFs");
//Sample PDF
private static readonly string BaseFile = Path.Combine(WorkingFolder, "OldFile.pdf");
//Final file
private static readonly string OutputFile = Path.Combine(WorkingFolder, "NewFile.pdf");
public Form1()
{
InitializeComponent();
}
private void Form1_Load(object sender, EventArgs e)
{
CreateSamplePdf();
UpdatePdfLinks();
this.Close();
}
private static void CreateSamplePdf()
{
//Create our output directory if it does not exist
Directory.CreateDirectory(WorkingFolder);
//Create our sample PDF
using (iTextSharp.text.Document Doc = new iTextSharp.text.Document(PageSize.LETTER))
{
using (FileStream FS = new FileStream(BaseFile, FileMode.Create, FileAccess.Write, FileShare.Read))
{
using (PdfWriter writer = PdfWriter.GetInstance(Doc, FS))
{
Doc.Open();
//Turn our hyperlink blue
iTextSharp.text.Font BlueFont = FontFactory.GetFont("Arial", 12, iTextSharp.text.Font.NORMAL, iTextSharp.text.BaseColor.BLUE);
Doc.Add(new Paragraph(new Chunk("Go to URL", BlueFont).SetAction(new PdfAction("http://www.google.com/", false))));
Doc.Close();
}
}
}
}
private static void UpdatePdfLinks()
{
//Setup some variables to be used later
PdfReader R = default(PdfReader);
int PageCount = 0;
PdfDictionary PageDictionary = default(PdfDictionary);
PdfArray Annots = default(PdfArray);
//Open our reader
R = new PdfReader(BaseFile);
//Get the page cont
PageCount = R.NumberOfPages;
//Loop through each page
for (int i = 1; i <= PageCount; i++)
{
//Get the current page
PageDictionary = R.GetPageN(i);
//Get all of the annotations for the current page
Annots = PageDictionary.GetAsArray(PdfName.ANNOTS);
//Make sure we have something
if ((Annots == null) || (Annots.Length == 0))
continue;
//Loop through each annotation
foreach (PdfObject A in Annots.ArrayList)
{
//Convert the itext-specific object as a generic PDF object
PdfDictionary AnnotationDictionary = (PdfDictionary)PdfReader.GetPdfObject(A);
//Make sure this annotation has a link
if (!AnnotationDictionary.Get(PdfName.SUBTYPE).Equals(PdfName.LINK))
continue;
//Make sure this annotation has an ACTION
if (AnnotationDictionary.Get(PdfName.A) == null)
continue;
//Get the ACTION for the current annotation
PdfDictionary AnnotationAction = (PdfDictionary)AnnotationDictionary.Get(PdfName.A);
//Test if it is a URI action
if (AnnotationAction.Get(PdfName.S).Equals(PdfName.URI))
{
//Change the URI to something else
AnnotationAction.Put(PdfName.URI, new PdfString("http://www.bing.com/"));
}
}
}
//Next we create a new document add import each page from the reader above
using (FileStream FS = new FileStream(OutputFile, FileMode.Create, FileAccess.Write, FileShare.None))
{
using (Document Doc = new Document())
{
using (PdfCopy writer = new PdfCopy(Doc, FS))
{
Doc.Open();
for (int i = 1; i <= R.NumberOfPages; i++)
{
writer.AddPage(writer.GetImportedPage(R, i));
}
Doc.Close();
}
}
}
}
}
}

MODIFIER

Je devrais noter que cela ne change le lien. N'importe quel texte dans le document ne sera pas mis à jour. Les Annotations sont dessinées au-dessus du texte, mais ne sont pas vraiment liée à l'explication de toute façon. C'est un autre sujet complètement.

Wow, upvote pour des références détaillées au format PDF spec et une réponse très détaillée avec des exemples de code. Je vais regarder à travers et voir si nous pouvons utiliser les concepts (les anciennes version de Java iText).
Est-il possible d'exécuter un code javascript au lieu de faire une action de lien hypertexte sans perdre de la formation du texte dans le document?
vous pouvez certainement le faire. Vous aurez besoin de changer la valeur de /S à /JAVASCRIPT et l'utilisation d'un /JS entrée pour votre JavaScript. Si vous avez besoin de plus d'aide de la plupart des une nouvelle question ici, et je ne peux répondre mieux.

InformationsquelleAutor Chris Haas

3

De noter si l'Action est indirecte, il ne sera pas de retour d'un dictionnaire et vous aurez une erreur:
```
PdfDictionary AnnotationAction = (PdfDictionary)AnnotationDictionary.Get(PdfName.A);
```
Dans les cas de possible indirects dictionnaires:
```
PdfDictionary Action = null;
//Get action directly or by indirect reference
PdfObject obj = Annotation.Get(PdfName.A);
if (obj.IsIndirect) {
Action = PdfReader.GetPdfObject(obj);
} else {
Action = (PdfDictionary)obj;
}
```
Dans ce cas, vous devez enquêter sur le retour de dictionnaire pour comprendre où l'URI est trouvé. Comme indirect /Lancement du dictionnaire de l'URI est situé dans l' /F élément de type PRIndirectReference avec l' /Type a /FileSpec et l'URI situé dans la valeur de /F

InformationsquelleAutor tofo

Ajouté du code pour traiter indirects et de lancer des actions et la valeur null annotation-dictionnaire:

PdfReader r = new PdfReader(@"d:\kb2\" + f);
for (int i = 1; i <= r.NumberOfPages; i++) {
//Get the current page
var PageDictionary = r.GetPageN(i);
//Get all of the annotations for the current page
var Annots = PageDictionary.GetAsArray(PdfName.ANNOTS);
//Make sure we have something
if ((Annots == null) || (Annots.Length == 0))
continue;
foreach (var A in Annots.ArrayList) {
var AnnotationDictionary = PdfReader.GetPdfObject(A) as PdfDictionary;
if (AnnotationDictionary == null)
continue;
//Make sure this annotation has a link
if (!AnnotationDictionary.Get(PdfName.SUBTYPE).Equals(PdfName.LINK))
continue;
//Make sure this annotation has an ACTION
if (AnnotationDictionary.Get(PdfName.A) == null)
continue;
var annotActionObject = AnnotationDictionary.Get(PdfName.A);
var AnnotationAction = (PdfDictionary)(annotActionObject.IsIndirect() ? PdfReader.GetPdfObject(annotActionObject) : annotActionObject); 
var type = AnnotationAction.Get(PdfName.S);
//Test if it is a URI action
if (type.Equals(PdfName.URI)) {
//Change the URI to something else
string relativeRef = AnnotationAction.GetAsString(PdfName.URI).ToString();
AnnotationAction.Put(PdfName.URI, new PdfString(url));
} else if (type.Equals(PdfName.LAUNCH)) {
//Change the URI to something else
var filespec = AnnotationAction.GetAsDict(PdfName.F);
string url = filespec.GetAsString(PdfName.F).ToString();
AnnotationAction.Put(PdfName.F, new PdfString(url));
}
}
}
//Next we create a new document add import each page from the reader above
using (var output = File.OpenWrite(outputFile.FullName)) {
using (Document Doc = new Document()) {
using (PdfCopy writer = new PdfCopy(Doc, output)) {
Doc.Open();
for (int i = 1; i <= r.NumberOfPages; i++) {
writer.AddPage(writer.GetImportedPage(r, i));
}
Doc.Close();
}
}
}
r.Close();

InformationsquelleAutor colinbashbash

Vous devez vous connecter pour publier un commentaire.