iTextSharp 5 polonais caractère

J'ai un problème avec le polonais de caractères à l'aide de itextSharp. Je veux créer un fichier pdf à partir de code html. Tout fonctionne bien, mais le polonais de caractères sont manquants. J'utilise la fonction inférieure:

    private void createPDF(string html)
    {
        //MemoryStream msOutput = new MemoryStream();
        TextReader reader = new StringReader(html);//step 1: creation of a document-object
        Document document = new Document(PageSize.A4, 30, 30, 30, 30);

        //step 2:
        //we create a writer that listens to the document
        //and directs a XML-stream to a file
        PdfWriter writer = PdfWriter.GetInstance(document, new FileStream("Test.pdf", FileMode.Create));

        //step 3: we create a worker parse the document
        HTMLWorker worker = new HTMLWorker(document);

        //step 4: we open document and start the worker on the document
        document.Open();
        worker.StartDocument();

        //step 5: parse the html into the document
        worker.Parse(reader);

        //step 6: close the document and the worker
        worker.EndDocument();
        worker.Close();
        document.Close();
    }

Et Essayez de l'utiliser:

createPDF("ĄąćęĘłŁŃńóÓŚśŹźŻż");

J'essaie de définir:

BaseFont bf = BaseFont.CreateFont(BaseFont.TIMES_ROMAN, l'Encodage.UTF8.HeaderName, BaseFont.EMBEDDED);

        writer.DirectContent.SetFontAndSize(bf, 16);

Mais il ne marche pas de travail

Avez-vous une idée??

Ce qui concerne

OriginalL'auteur dzajdol | 2011-02-04

c#itextsharp

Juste pour rouler ensemble à ce que @Mark Storer a dit:

private void createPDF(string html)
{
    //MemoryStream msOutput = new MemoryStream();
    TextReader reader = new StringReader(html);//step 1: creation of a document-object
    Document document = new Document(PageSize.A4, 30, 30, 30, 30);

    //step 2:
    //we create a writer that listens to the document
    //and directs a XML-stream to a file
    PdfWriter writer = PdfWriter.GetInstance(document, new FileStream("Test.pdf", FileMode.Create));

    //step 3: we create a worker parse the document
    HTMLWorker worker = new HTMLWorker(document);

    //step 4: we open document and start the worker on the document
    document.Open();

    //step 4.1: register a unicode font and assign it an allias
    FontFactory.Register("C:\\Windows\\Fonts\\ARIALUNI.TTF", "arial unicode ms");

    //step 4.2: create a style sheet and set the encoding to Identity-H
    iTextSharp.text.html.simpleparser.StyleSheet ST = New iTextSharp.text.html.simpleparser.StyleSheet();
    ST.LoadTagStyle("body", "encoding", "Identity-H");

    //step 4.3: assign the style sheet to the html parser
    worker.Style = ST;

    worker.StartDocument();

    //step 5: parse the html into the document
    worker.Parse(reader);

    //step 6: close the document and the worker
    worker.EndDocument();
    worker.Close();
    document.Close();
}

Et quand vous l'appelez, entourez votre texte dans une police de caractères en utilisant le nom que vous avez enregistré ci-dessus:

createPDF("<font face=""arial unicode ms"">ĄąćęĘłŁŃńóÓŚśŹźŻż</font>");

Ça a l'air bon, ouais. Vous devriez être en mesure de définir la valeur par défaut visage de la même façon.
Chris Hass - Vous sont les meilleurs. Après quelques heures de struggleing votre réponse m'a donné l'breakthourgh j'avais besoin!

OriginalL'auteur Chris Haas

7

J'AI EU LA RÉPONSE! =) (spécifiquement ciblées pour les polonais), je me sens obligé de le mettre ici, dans ce vieux thread, car je suis sûr que je ne serai pas le dernier à le trouver.

Je suis très déçu qu'il n'y a pas de bonnes réponses à cette... la plupart d'entre eux suggèrent d'utiliser la ARIALUNI.TTF dans votre dossier FONTS de Windows qui résultats dans votre fichier PDF à l'être PLUSIEURS fois plus grand. La solution n'a pas besoin d'être aussi radical...

Beaucoup d'autres donnent des exemples montrant l'encodage en cp1252 qui échoue sur les polices Arial et ne fonctionne pas avec l'Helvetica pour le texte polonais.

Je suis en utilisant iTextSharp 4.1.6... le truc... cp1257! Et vous pouvez l'utiliser avec BaseFont.Courier, BaseFont.Helvetica, BaseFont.Times-Roman

Cela fonctionne... et mes fichiers PDF sont minuscules (3 ko!)
```
document.Open();
var bigFont = FontFactory.GetFont(BaseFont.COURIER, BaseFont.CP1257, 18, Font.BOLD);
var para = new Paragraph("Oryginał", bigFont);
document.Add(pgDocType);
document.Close();
```
Je vais tester plus tard et assurez-vous que je peux l'ouvrir et de lire ces dans Windows XP et Mac OSX et Windows 7.

juste une mise à jour de cette... le bâton avec Helvetica ou Times New Roman et CP1257. J'ai été à l'aide de messagerie et il s'avère que certaines anciennes versions d'adobe reader n'affiche pas le polonais accentués s et z du.
Comment avez-vous BaseFont.CP1257? Je suis à la recherche à droite de code pour les Croates/Bosniaque . J'ai une prise en charge partielle, avec votre code ,pour les lettres. Merci
Peut-être que vous utilisez une version différente de itextsharp? Je suis en utilisant 4.1.6, car la version 5 de licence sont différentes. CP1257 devrait être dans Basefont... rien de spécial à faire ici. En fin de compte, j'ai utilisé CP1257 et Times new Roman. Il était "le plus sûr" de sorte que tous les lecteurs de PDF peut l'ouvrir et la taille du fichier était encore minime.

OriginalL'auteur Ralph N
2

Lors de la création de votre BaseFont, vous devez spécifier que vous souhaitez utiliser des caractères UniCode. Cette réponse montre comment.

OriginalL'auteur Stewbob

Que j'ai lu sur divers forums et stackoverflow questions, je n'ai pas trouvé de réponse avec une solution complexe pour les caractères spéciaux problème. J'ai essayé d'en fournir une en échange de tout à fait une longue réponse à la question. J'espère que cela va aider quelqu'un...

J'ai utilisé le XMLWorker de SourceForge comme HtmlWorker est devenu depricated. Le problème avec les caractères spéciaux sont restés pensée. J'ai trouvé deux solutions qui fonctionnent réellement et peut être utilisé à la fois séparément et combinés.

HTML & CSS solution

Chaque balise concernés doivent font-family style spécifié pour être interprété correctement par ParseXHtml méthode (je ne suis pas sûr pourquoi, la balise imbriquée styles héritage ne fonctionne pas ici, mais il semble qu'il n'a pas vraiment d'ou ça ne marche pas entièrement).

Cette solution permet de modifier PDF résultant basé sur le code HTML uniquement, certains scénarios sans recompilation du code peut prendre place.

Simplifié de code (pour une application MVC) serait comme ça:

Contrôleur:

public FileStreamResult GetPdf()
{
    const string CONTENT_TYPE = "application/pdf"
    var fileName = "mySimple.pdf";
    var html = GetViewPageHtmlCode();
    //the way how to capture view HTML are described in other threads, e.g. [here][2]
    var css = Server.MapPath("~/Content/Pdf.css");
    using (var capturedActionStream = new MemoryStream(USED_ENCODING.GetBytes(html)))
    {
        using (var cssFile = new FileStream(css),  FileMode.Open))
        {
            var memoryStream = new MemoryStream();
            //to create landscape, use PageSize.A4.Rotate() for pageSize
            var document = new Document(PageSize.A4, 30, 30, 10, 10);
            var writer = PdfWriter.GetInstance(document, memoryStream);
            var worker = XMLWorkerHelper.GetInstance();

            document.Open();
            worker.ParseXHtml(writer, document, capturedActionStream, cssFile);
            writer.CloseStream = false;
            document.Close();
            memoryStream.Position = 0;

            //to enforce file download
            HttpContext.Response.AddHeader(
                "Content-Disposition",
                String.Format("attachment; filename={0}", fileName));
            var wrappedPdf = new FileStreamResult(memoryStream, CONTENT_TYPE);
            return wrappedPdf;
        }
    }
}

CSS:

body {
    background-color: white;
    font-size: .85em;
    font-family: Arial;
    margin: 0;
    padding: 0;
    color: black;
}

p, ul {
    margin-bottom: 20px;
    line-height: 1.6em;
}

div, span {
    font-family: Arial;
}

h1, h2, h3, h4, h5, h6 {
    font-size: 1.5em;
    color: #000;
    font-family: Arial;
}

La disposition de l'affichage

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <meta http-equiv="content-type" content="text/html; charset=utf-8"/>
        <title>@ViewBag.Title</title>
        <link href="@Url.Content("~/Content/Pdf.css")" rel="stylesheet" type="text/css" />
    </head>
    <body>
        <div class="page">
            <div id="main">
                @RenderBody()
            </div>
        </div>
    </body>
    </html>

Afficher la page

@{
    ViewBag.Title = "PDF page title"
}

<h1>@ViewBag.Title</h1>

<p>
    ěščřžýáíéů ĚŠČŘŽÝÁÍÉŮ
</p>

À l'intérieur-police de code-en remplacement de la solution de

Dans cette solution, la police est retourné par un IFontProvider est modifié pour l'un contient (correct) représentation des caractères spéciaux et des BaseFont.IDENTITY_H encodage utilisé. L'avantage de cette approche est qu'il ya exactement une police qui est utilisée. C'est aussi au détriment de la sorte.

Aussi, ces solutions s'attend à ce que la police est partie du projet (*.ttf fichier(s) placé dans Content/Fonts dossier).

Sinon les polices peuvent être récupérées à partir de polices de Windows emplacement: Environment.GetFolderPath(Environment.SpecialFolder.Fonts) - ce qui nécessite la connaissance (ou de la forte conviction) de polices de caractères installées sur le serveur ou le contrôle du serveur

`FontProvider` (plus de `FontFactory`)

J'ai pris ma liberté de prolonger Gregor S de la solution un peu, qui fournit plus complexe FontFactory qui peut être utilisé pour une variété d'HTML "modèles" poussée à travers XMLWorker.

public class CustomFontFactory : FontFactoryImp
{
public const Single DEFAULT_FONT_SIZE = 12;
public const Int32 DEFAULT_FONT_STYLE = 0;
public static readonly BaseColor DEFAULT_FONT_COLOR = BaseColor.BLACK;
public String DefaultFontPath { get; private set; }
public String DefaultFontEncoding { get; private set; }
public Boolean DefaultFontEmbedding { get; private set; }
public Single DefaultFontSize { get; private set; }
public Int32 DefaultFontStyle { get; private set; }
public BaseColor DefaultFontColor { get; private set; }
public Boolean ReplaceEncodingWithDefault { get; set; }
public Boolean ReplaceEmbeddingWithDefault { get; set; }
public Boolean ReplaceFontWithDefault { get; set; }
public Boolean ReplaceSizeWithDefault { get; set; }
public Boolean ReplaceStyleWithDefault { get; set; }
public Boolean ReplaceColorWithDefault { get; set; }
public BaseFont DefaultBaseFont { get; protected set; }
public CustomFontFactory(
String defaultFontFilePath,
String defaultFontEncoding = BaseFont.IDENTITY_H,
Boolean defaultFontEmbedding = BaseFont.EMBEDDED,
Single? defaultFontSize = null,
Int32? defaultFontStyle = null,
BaseColor defaultFontColor = null,
Boolean automaticalySetReplacementForNullables = true)
{
//set default font properties
DefaultFontPath =  defaultFontFilePath;
DefaultFontEncoding = defaultFontEncoding;
DefaultFontEmbedding = defaultFontEmbedding;
DefaultFontColor = defaultFontColor == null
? DEFAULT_FONT_COLOR
: defaultFontColor;
DefaultFontSize = defaultFontSize.HasValue
? defaultFontSize.Value
: DEFAULT_FONT_SIZE;
DefaultFontStyle = defaultFontStyle.HasValue
? defaultFontStyle.Value
: DEFAULT_FONT_STYLE;
//set default replacement options
ReplaceFontWithDefault = false;
ReplaceEncodingWithDefault = true;
ReplaceEmbeddingWithDefault = false;
if (automaticalySetReplacementForNullables)
{
ReplaceSizeWithDefault = defaultFontSize.HasValue;
ReplaceStyleWithDefault = defaultFontStyle.HasValue;
ReplaceColorWithDefault = defaultFontColor != null;
}
//define default font
DefaultBaseFont = BaseFont.CreateFont(DefaultFontPath, DefaultFontEncoding, DefaultFontEmbedding);
//register system fonts
FontFactory.RegisterDirectories();
}
protected Font GetBaseFont(Single size, Int32 style, BaseColor color)
{
var baseFont = new Font(DefaultBaseFont, size, style, color);
return baseFont;
}
public override Font GetFont(String fontname, String encoding, Boolean embedded, Single size, Int32 style, BaseColor color, Boolean cached)
{
//eventually replace expected font properties
size = ReplaceSizeWithDefault
? DefaultFontSize
: size;
style = ReplaceStyleWithDefault
? DefaultFontStyle
: style;
encoding = ReplaceEncodingWithDefault
? DefaultFontEncoding
: encoding;
embedded = ReplaceEmbeddingWithDefault
? DefaultFontEmbedding
: embedded;
//get font
Font font = null;
if (ReplaceFontWithDefault)
{
font = GetBaseFont(
size,
style,
color);
}
else
{
font = FontFactory.GetFont(
fontname,
encoding,
embedded,
size,
style,
color,
cached);
if (font.BaseFont == null)
font = GetBaseFont(
size,
style,
color);
}
return font;
}
}

Contrôleur

private const String DEFAULT_FONT_LOCATION = "~/Content/Fonts";
private const String DEFAULT_FONT_NAME = "arialn.ttf";
public FileStreamResult GetPdf()
{
const string CONTENT_TYPE = "application/pdf"
var fileName = "mySimple.pdf";
var html = GetViewPageHtmlCode();
//the way how to capture view HTML are described in other threads, e.g. 
var css = Server.MapPath("~/Content/Pdf.css");
using (var capturedActionStream = new MemoryStream(USED_ENCODING.GetBytes(html)))
{
using (var cssFile = new FileStream(css),  FileMode.Open))
{
var memoryStream = new MemoryStream();
var document = new Document(PageSize.A4, 30, 30, 10, 10);
//to create landscape, use PageSize.A4.Rotate() for pageSize
var writer = PdfWriter.GetInstance(document, memoryStream);
var worker = XMLWorkerHelper.GetInstance();
var defaultFontPath = Server
.MapPath(Path
.Combine(
DEFAULT_FONT_LOCATION,
DEFAULT_FONT_NAME));
var fontProvider = new CustomFontFactory(defaultFontPath);
document.Open();
worker.ParseXHtml(writer, document, capturedActionStream, cssFile, fontProvider);
writer.CloseStream = false;
document.Close();
memoryStream.Position = 0;
//to enforce file download
HttpContext.Response.AddHeader(
"Content-Disposition",
String.Format("attachment; filename={0}", fileName));
var wrappedPdf = new FileStreamResult(memoryStream, CONTENT_TYPE);
return wrappedPdf;
}
}
}

CSS:

body {
background-color: white;
font-size: .85em;
font-family: "Trebuchet MS", Verdana, Helvetica, Sans-Serif;
margin: 0;
padding: 0;
color: black;
}
p, ul {
margin-bottom: 20px;
line-height: 1.6em;
}
h1, h2, h3, h4, h5, h6 {
font-size: 1.5em;
color: #000;
}

La disposition de l'affichage

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml">
    <head>
        <meta http-equiv="content-type" content="text/html; charset=utf-8"/>
        <title>@ViewBag.Title</title>
        <link href="@Url.Content("~/Content/Pdf.css")" rel="stylesheet" type="text/css" />
    </head>
    <body>
        <div class="page">
            <div id="main">
                @RenderBody()
            </div>
        </div>
    </body>
    </html>

Afficher la page

@{
    ViewBag.Title = "PDF page title"
}

<h1>@ViewBag.Title</h1>

<p>
    ěščřžýáíéů ĚŠČŘŽÝÁÍÉŮ
</p>

Autres utile de (re)sources:

Réponse longue mais utile. Les problèmes de codage disparu 🙂

OriginalL'auteur Matt Stuvysant

1

1) iText 5.0.6 a été publié aujourd'hui à une révision majeure d'HTML->format PDF conversion de code. Je vous suggère d'essayer le nouveau code à la place.

2) je suis presque certain que la définition de la directContent comme ça n'affectera pas le contenu du fichier pdf généré par HTMLWorker. Je suis sûr à 99% que ça va (re) définir la police avant qu'il ne tire aucun texte.

3) Essayez d'emballage de votre chaîne dans <font face="AFontThatActuallyContainsThoseCharacters"> balises. Je doute sérieusement de la police par défaut HTMLWorker pics sera en place pour le travail.

Nope. La valeur par défaut est Helvetica avec WinAnsiEncoding. Vraiment pas adapté à quoi que ce soit à l'extérieur de typiquement anglais/allemand/français/espagnol.

Vous devriez être en mesure d'utiliser HTMLWorker.setStyleSheet pour définir quelque peu plus les valeurs par défaut. Vous devrez définir le "visage" et de "l'encodage" pour quelque chose de plus polonais de l'environnement. Je recommande d'Identité "-H" pour l'encodage, ce qui donne accès à tous les caractères de la police que vous allez avec, indépendamment de la langue. Pour une police, il y a un programme appelé "charmap.exe" dans windows depuis WayBack qui va vous montrer des caractères d'une police a disponibles dans un encodage (y compris unicode). La famille de "Arial" semble bon, comme le font plusieurs autres.

"le nouveau code" ne sera probablement pas changer de comportement que vous vous voyez. C'est un refactoring pour en faire le futur (la prochaine version que je le comprends), des changements plus facile.

Ma suggestion est d'aller avec setStyleSheet():
```
   //step 3: we create a worker parse the document
HTMLWorker worker = new HTMLWorker(document);
StyleSheet sheet = new StyleSheet;
HashMap<String, String> styleMap = new HashMap<String, String>();
styleMap.put("face", "Arial"); //default font
styleMap.put("encoding", "Identity-H"); //default encoding
String tags[] = {"p", "div", ...};
for (String tag : tags) {
sheet.applyStyle( tag, styleMap );
}
```
Je ne suis pas sûr, mais vous pourriez être en mesure de simplement applyStyle("body", styleMap) et de l'avoir en cascade vers le bas dans tout ce qu'il contient, mais je ne suis pas sûr. Je suis également pas sûr que ce serait l'adresse de votre 1-ligne-test comme il n'y a pas de balises concernées. IIRC, nous construisons une balise body si il n'y a pas un, mais je ne suis pas du tout sûr.

peut être avez vous des exemple pour cela:1) iText 5.0.6 a été publié aujourd'hui à une révision majeure d'HTML->format PDF conversion de code. Je vous suggère d'essayer le nouveau code à la place.

OriginalL'auteur Mark Storer

Vous devez vous connecter pour publier un commentaire.

HTML & CSS solution

Contrôleur:

CSS:

La disposition de l'affichage

Afficher la page

À l'intérieur-police de code-en remplacement de la solution de

FontProvider (plus de FontFactory)

Contrôleur

CSS:

La disposition de l'affichage

Afficher la page

`FontProvider` (plus de `FontFactory`)