Convertir ISO-8859-2 pour l'encodage UTF-8 (caractères polonais)

Je suis en train d'essayer de parser un fichier XML (http://jstryczek.blox.pl/rss2) qui dit que son jeu de caractères ISO-8859-2. Ma base de données est en UTF-8, donc je veux le convertir en UTF-8.

À faire que j'ai exécuter les opérations suivantes sur la chaîne:

$content = iconv('ISO-8859-2', 'UTF-8//TRANSLIT', $content);

Pour une raison quelconque, je suis de retour d'un drôle d'encodage, de sorte que:

Gdzie są różnice

Vient à travers comme:

Gdzie sÄ rĂłĹźnice

Est là une explication de pourquoi les polonais, les personnages ne sont pas à venir à travers? Ne UTF-8 ne sont pas les soutenir?

Le support UTF-8 tous les caractères polonais, j'en suis sûr.
La base de données utilisez-vous, comment sont les colonnes définies, comment êtes-vous de stocker le texte dans la base de données, et comment allez-vous le retrouver? UTF-8 prend en charge ces caractères de l'amende juste. En fait, la stackoverflow site est entièrement en UTF-8, et comme vous pouvez le voir, vous n'aviez pas de problèmes de les afficher.
Je suis l'aide de MariaDB avec les tables en UTF8, client, la connexion est également UTF8. Je pense à une sorte de conversion implicite qui se passe quelque part, juste ne sais pas où.
Avez-vous essayé la configuration de la connexion jeu de caractères à latin_2 et envoyer des données telles qu'elles sont à la base de données? MySQL et MariaDB j'imagine) est capable de traduire entre les codages de ce que le client envoie à l'encodage de la base de données/de la table. J'ai utilisé ce pour traduire l'UTF-8 à cp850 pour afficher correctement dans Windows cmd avant.
S'avère, que c'était de la magie que j'avais à faire. J'ai eu un peu de code qui permettrait de vérifier certains caractères en UTF-8, ce qui était gâcher la conversion qui se passait implicitement. J'ai enveloppé que dans une case qui a vérifié la chaîne a été UTF-8 tout d'abord, et mes problèmes ont disparu. Je pense que soit Curl, PHP, ou MariaDB était en train de faire une conversion implicite, et ma conversion explicite a été doublé, ce qui provoque les problèmes.

InformationsquelleAutor hukir | 2013-08-24

character-encoding php

- Je résoudre ce problème en changeant la chaîne json et ensuite, remplacer tous les polonais des signes de code html. J'ajoute ci-dessous mon résultat:

        $specialChars = [
        '\u0105', # ą
        '\u0107', # ć
        '\u0119', # ę
        '\u0142', # ł
        '\u0144', # ń
        '\u00f3', # ó
        '\u015b', # ś
        '\u017a', # ź
        '\u017c', # ż
        '\u0104', # Ą
        '\u0106', # Ć
        '\u0118', # Ę
        '\u0141', # Ł
        '\u0143', # Ń
        '\u00d3', # Ó
        '\u015a', # Ś
        '\u0179', # Ż
        '\u017b', # Ż
    ];

    $polishHtmlCodes = [
        '&#261;', # ą
        '&#263;', # ć
        '&#281;', # ę
        '&#322;', # ł
        '&#322;', # ń
        '&#243;', # ó
        '&#347;', # ś
        '&#378;', # ź
        '&#380;', # ż
        '&#260;', # Ą
        '&#262;', # Ć
        '&#280;', # Ę
        '&#321;', # Ł
        '&#323;', # Ń
        '&#211;', # Ó
        '&#346;', # Ś
        '&#377;', # Ż
        '&#379;', # Ż
    ];

    $result = str_replace($specialChars, $polishHtmlCodes, json_encode($string));
    var_dump(json_decode($result));

//prints
//e.g. 'Różowe okulary'

InformationsquelleAutor R Picheta

2

Semble, que ce texte est déjà encodé en utf-8, donc il n'est pas nécessaire de le décoder. Quand j'ai enregistré ce fichier en utf-8 et il a couru:
```
<?php
$content = 'Gdzie są różnice';
$content = iconv('ISO-8859-2', 'UTF-8//TRANSLIT', $content);
print $content;
```
J'ai obtenu ceci:
```
Gdzie sÄ rĂłĹźnice
```
Qui est exactement le texte incorrect, vous avez obtenu.

Il suffit d'enregistrer le texte comme il est, il est déjà en utf-8.
- Puis, le serveur est de signaler le mauvais encodage, puisque c'est à venir à travers avec Content-Type: text/xml; charset=ISO-8859-2. Quand je ne fais rien, je reçois soit "?" ou chuté de caractères pour les caractères non-ascii. Même si je viens de roulage dans l'url, j'obtiens un "?" dans une UTF8 console. Toutes les pensées?
- Peut-être, j'ai eu tort, et l'encodage est vraiment de l'ISO-8859-2. Vous pouvez enregistrer le résultat de la conversion de fichier et vérifier l'encodage?
- J'ai utilisé curl-O pour enregistrer le fichier directement, et il a sauvé avec de l'ISO-8859-1 avec foiré caractères. M'amène à croire que c'est un problème avec le serveur, je suis l'obtention de données de. On dirait que c'est un serveur Windows, qui peut être à l'origine de problèmes lors de mon Ubuntu server extrait elle.
InformationsquelleAutor user4035

-1

<?php
$content = 'Gdzie są różnice';
$content = mb_convert_encoding($content, "ISO-8859-2", "UTF-8");
print $content;
?>

InformationsquelleAutor user3841678

Vous devez vous connecter pour publier un commentaire.