La fixation cassées encodage UTF-8

Je suis dans le processus de la correction de certains mauvais encodage UTF-8. Je suis actuellement en utilisant PHP 5 et MySQL.

Dans ma base de données j'ai un peu de cas de mauvais encodages d'impression comme: ÃƒÂ®

Le classement de base de données est utf8_general_ci
PHP à l'aide d'un bon UTF-8, en-tête
Notepad++ est configuré pour utiliser UTF-8 sans BOM
gestion de base de données est gérée dans phpMyAdmin
pas le cas de tous les caractères accentués sont cassés

J'ai besoin d'une sorte de fonction qui va m'aider à cartographier les instances de l'ÃƒÂ®, ÃƒÂ, ÃƒÂ¼ et d'autres comme lui à leur bon accentué les caractères UTF-8.

Pourriez-vous lister les caractères de ceux qui sont censés représenter? Et peut-être un vidage hexadécimal?
Un rapide coup d'oeil semble suggérer que vos chaînes pourraient avoir été "double" codé en utf-8. I. e. encodé en utf-8, ces octets pris comme des caractères unicode, et le résultat codé en utf-8. Retour en arrière: "ÃƒÂ®"="\xC3\x83\xC2\xAE" <-(utf-8)- "\xC3\xAE" <-(utf-8)- "\xEE" = "î". Ou peut-être pas -- pas beaucoup de données afin de diagnostiquer ici.
Il est possible que c'était un double codage. Est-il un moyen sûr d'en programmant le vérifier, et si oui, quelle est la meilleure façon sécuritaire à décoder le double encodage?
Oui, Jayrox, découvrez ma réponse ci-dessous.
l'un des problèmes autant que je sache est utf8_general_ci qui sera apparemment pas une garantie de bonne UTF8 stackoverflow.com/a/1036459/183677. Aussi ces personnages que vous mentionnez sont valables UTF8 hexutf8.com/... (mais je me rends compte de son probablement tout ce que vous voyez dans la console ou quoi que ce soit). paye pour poster les octets
Acc. cette réponse, mysqli_set_charset($dbc, "utf8"); pourrait aider.

InformationsquelleAutor Jayrox | 2009-08-28

62

J'ai dû essayer de "réparer" un certain nombre de UTF8 cassé situations dans le passé, et, malheureusement, il n'est jamais facile, et souvent impossible.

À moins que vous pouvez déterminer exactement comment il a été brisé, et il a toujours été cassé dans l'exacte même façon, alors ça va être dur pour "annuler" le dommage.

Si vous voulez essayer de réparer les dégâts, votre meilleur pari serait de commencer à écrire un exemple de code, où vous tentez de nombreuses variations sur les appels à mb_convert_encoding() pour voir si vous pouvez trouver une combinaison de " de " et " à " qui résout vos données. En fin de compte, il est souvent préférable de ne pas même prendre la peine de se soucier de la fixation de la vieille données en raison de la douleur niveaux concernés, mais au lieu de juste corriger les choses à l'avenir.

Toutefois, avant de faire cela, vous devez assurez-vous de réparer tout ce qui est à l'origine de ce problème en premier lieu. Vous avez déjà mentionné que votre table DB classement et les éditeurs sont définies correctement. Mais il y a plus d'endroits où vous devez assurez-vous que tout est bien en UTF-8:
- Assurez-vous que vous êtes au service de votre HTML en UTF-8:
  - header("Content-Type: text/html; charset=utf-8");
- Changer votre PHP jeu de caractères par défaut est utf-8:
  - ini_set("default_charset", 'utf-8');
- Si votre base de données n'est pas TOUJOURS parler en utf-8, alors vous pouvez avoir besoin de le dire sur une base par connexion pour s'assurer qu'il est en mode utf-8, MySQL vous faire que par l'émission de:
  - charset utf8
- Vous pouvez avoir besoin de dire à votre serveur de toujours essayer de parler en UTF8, dans Apache cette commande est:
  - AddDefaultCharset UTF-8
- Enfin, vous devez TOUJOURS vous assurer que vous êtes en utilisant des fonctions PHP qui sont bien en UTF-8 de la plainte. Cela signifie en utilisant toujours le mb_* de style 'multi-octets connaît" les fonctions de chaîne. Cela signifie également lors de l'appel de fonctions telles que htmlspecialchars(), que vous d'inclure les 'utf-8' paramètre charset à la fin pour s'assurer qu'il n'a pas coder correctement.
Si vous manquez de place sur une étape à travers l'ensemble de votre processus, l'encodage peut être mutilés et les problèmes se posent. Une fois que vous obtenez dans le "groove" de faire en utf-8 mais, tout cela devient une seconde nature. Et bien sûr, PHP6 est censé être pleinement unicode plainte de la getgo, qui va faire beaucoup de cela plus facile (je l'espère)
- Merci beaucoup! Car il existe aussi de nombreuses correctement encodées dans la base de données, ce qui en fait aggraver le Problème, j'ai choisi de str_replace les Cordes, je sais qui sont corrompus avec leurs Caractères corrects. Il fonctionne très bien. J'ai déjà mis en œuvre la plupart de vos Conseils concernant le PHP et le Serveur de Configuration, mais c'est un bon résumé, je voudrais donc choisi ce que la Réponse, parce que ma solution n'est pas vraiment belle.
- Une remarque importante sur ce conseil: Ne PAS ajouter 'utf-8' comme second argument de la fonction htmlspecialchars(). Sans argument, cette fonction fonctionne correctement avec des chaînes UTF-8, car il ignore tous les octets avec le haut-ensemble de bits et les transmet. Cela permettra de préserver et de "la bonne chose". Avec 'utf-8', htmlspecialchars() interprète la chaîne UTF-8 - mais ne gère pas les caractères en dehors de la BMP (ceux avec des points de code U+10000 et au-dessus, codé sur quatre octets). À une erreur de code pour ceux qui arrivent à égaler les promotions mod 65536.. Le comportement est à la fois plus lente et le mal.
- S'il vous plaît, voir ma réponse ci-dessous. Je me suis adressée à tous les problèmes en une seule pure fonction PHP: fixUTF8(). Vous n'avez pas besoin de changer la configuration de votre serveur, et vous n'avez même pas besoin d'avoir le multi-octets fonctions installé. La fonction est assez intelligent pour résoudre n'importe quel caractère de façon indépendante, même si le codage est mélangé à l'intérieur de la même chaîne (peu importe combien de fois il a été converti ou si c'est en UTF8 déjà).
- PHP 6 a été ignoré, PHP 7 sera dans un mois à une version stable.
- Il y a une meilleure réponse witg un outil de github: stackoverflow.com/a/3521340/196210
InformationsquelleAutor Eli
92

Si vous avez double-encodé en UTF8 caractères différents (guillemets, tirets, apostrophes â€™, les guillemets â€œ, etc), en mysql, vous pouvez générer les données, puis le lire à fixer le cassé de codage.

Comme ceci:
```
mysqldump -h DB_HOST -u DB_USER -p DB_PASSWORD --opt --quote-names \
    --skip-set-charset --default-character-set=latin1 DB_NAME > DB_NAME-dump.sql

mysql -h DB_HOST -u DB_USER -p DB_PASSWORD \
    --default-character-set=utf8 DB_NAME < DB_NAME-dump.sql
```
C'était un 100% correctif pour mon double encodé en UTF-8.

Source:
http://blog.hno3.org/2010/04/22/fixing-double-encoded-utf-8-data-in-mysql/
- Semble avoir réussi à convertir une base de données Typo3 pour moi. Merci de poster ça, c'est beaucoup plus propre que toute autre méthode de conversion. 🙂
- Je souhaite que je pourrais vous donner plus upvotes, vous vraiment, vraiment les mériter.
- Yep, a également travaillé pour moi! Grâce à vous le partager ici et merci à la propriétaire du blog 🙂
- Couru dans un problème lors du transfert d'un WordPress DB à partir de la mise en scène à l'environnement local en l'exportant avec Sequel Pro.
- Juste sauvé ma journée!
- Fonctionne parfaitement! J'ai également eu à régler un vieux TYPO3 base de données et cela a fait l'affaire!
- Tous les commentaires jusqu'à présent, sur cette réponse - y compris le mien!! - sont complètement inutiles et juste ajouter du bruit. Aargh!
- Merci! Ce travail est pour moi: ssh user@host 'mysqldump --skip-set-charset --default-character-set=latin1 dbname' | mysql --default-character-set=utf8 dbname
- presque une semaine à essayer de comprendre ce qui se passait, et voici une solution qui résout en une minute:)
InformationsquelleAutor jsdalton
78

Si vous utf8_encode() sur une chaîne qui est déjà en UTF-8, puis il semble déformé lorsqu'il est codé en plusieurs fois.

J'ai fait une fonction toUTF8() qui convertit les chaînes de caractères en UTF-8.

Vous n'avez pas besoin de spécifier l'encodage de vos chaînes. Il peut être Latin1 (iso 8859-1), Windows-1252 ou UTF8, ou un mélange de ces trois.

J'ai utilisé moi-même sur une alimentation avec un mélange de codages de la même chaîne.

Utilisation:
```
$utf8_string = Encoding::toUTF8($mixed_string);

$latin1_string = Encoding::toLatin1($mixed_string);
```
Mon autre fonction fixUTF8() correctifs de brouillage des chaînes de caractères UTF8 si ils ont été encodés en UTF8 plusieurs fois.

Utilisation:
```
$utf8_string = Encoding::fixUTF8($garbled_utf8_string);
```
Exemples:
```
echo Encoding::fixUTF8("FÃ©dÃ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂ©dÃÂ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂÃÂ©dÃÂÃÂ©ration Camerounaise de Football");
echo Encoding::fixUTF8("FÃÂ©dération Camerounaise de Football");
```
sera de sortie:
```
Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football
```
Télécharger:

https://github.com/neitanod/forceutf8
- Semble faire l'affaire. Je ne l'utilise pas pour la sortie normal, mais j'apprécie l'aide de votre classe pour la migration de données de l'aide.
- Merci. C'est magique, n'est-ce pas? Je pense que ce petit morceau de code est l'un des plus agréables que j'ai produit, en termes de problèmes résolus avec elle. 🙂
- Je vous recommande de l'utiliser pour les migrations, en tant que Kristopher dit, mais pas dans un environnement de production. Il ya des cas où vous voudriez le "brouillé chaîne" pour rester brouillé, comme dans cette réponse.
- J'ai lutté avec des systèmes tiers qui ont mélangé l'encodage. J'ai testé votre classe, et il fonctionne bien. J'ai juste couru dans les champs dans notre base de données stockées à l'extérieur de l'entrée avec un mélange de codage, et nettoyer le tout. Maintenant, je suis à la mettre en œuvre à notre insérer des jonctions. PDO n'est pas identifier mixte de l'encodage par le chemin, donc votre solution de roches!
- Grande bibliothèque, merci beaucoup! Il m'a aidé à résoudre thousends de cassé les noms de fichier, qui est produite par la copie des fichiers de linux vers windows via FTP et à l'arrière.
- +1 super - fixUTF8 même prend soin de vilaines erreurs de codage que j'ai vu.
- Bravo! J'ai eu du mal longtemps avec ce trop. Jusqu'à ce que j'-accidentellement - trouvé cette! Merci beaucoup.
- "FÃÂÃÂ©dÃÂÃÂ©ration Camerounaise de Football" ne semble pas fonctionner, d'autres n'
- c'est génial, merci man
- Merci Sébastien. C'est vraiment utile
- Yep, super script! Eu un problème avec une base de données de codage lors de la migration. Cette résolu.
- il serait très gentil mais il ne fonctionne pas sur mon code... d'Encodage::fixUTF8("luminositÃ?") ne résout pas le problème. Toute suggestion?
- jetez un oeil à cette page. Cela résout tous les problèmes i18nqa.com/debug/utf8-debug.html
InformationsquelleAutor Sebastián Grignoli
11

J'ai eu un problème avec un fichier xml qui avait une fracture de l'encodage, il a dit qu'il était en utf-8, mais il avait des personnages qui où la pas en utf-8.

Après plusieurs essais et erreurs avec la mb_convert_encoding() j'arrive à le fixer avec
```
mb_convert_encoding($text, 'Windows-1252', 'UTF-8')
```
- Cela a fonctionné pour moi, après des jours de cogner ma tête sur la question (tout est en UTF-8 à la fin, mais dans le flux RSS, il n'était pas!) Merci!!!!
- Mon problème était le suivant: champs de Base de données sauvegardée comme latin1_swedish_ci, sortie par PHP en utf-8, qui montre Umlaute ü comme Ã¼ et ö comme Ã¶. Cela a aidé à résoudre ce problème.
- c'était la seule chose qui a fonctionné pour moi!
InformationsquelleAutor Celleb
10

Que Dan a souligné: vous avez besoin de les convertir en binaire et ensuite de les convertir/corriger l'encodage.

E. g., pour utf8 stockées en tant que latin1 le SQL suivant la corriger:
```
UPDATE table
   SET field = CONVERT( CAST(field AS BINARY) USING utf8)
 WHERE $broken_field_condition
```
- intéressant; je me souviendrai de cette si j'ai de nouveau le problème. merci
- Du sens. Je suppose que c'est vraiment double codé, c'est juste que le champ est marqué latin1 même si il contient réellement UTF8, donc quand vous demandez le terrain qu'en UTF8 il encode de nouveau.
- L'homme, vous avez fait ma journée, il a travaillé pour moi. Maintenant, je voudrais comprendre la vraie raison pour laquelle le dump, je travaille avec a ces mauvais caractères (peut-être qu'il a été correctement encodé en utf-8, mais le processus de vidage imprimé la sortie en latin1)
- WHERE LENGTH( field ) != CHAR_LENGTH( field ) 😉
InformationsquelleAutor blueyed
2

Je sais que ce n'est pas très élégant, mais après il a été mentionné que les chaînes de caractères peuvent être à double codé, j'ai fait cette fonction:
```
function fix_double encoding($string)
{
    $utf8_chars = explode(' ', 'À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß à á â ã ä å æ ç è é ê ë ì í î ï ð ñ ò ó ô õ ö');
    $utf8_double_encoded = array();
    foreach($utf8_chars as $utf8_char)
    {
            $utf8_double_encoded[] = utf8_encode(utf8_encode($utf8_char));
    }
    $string = str_replace($utf8_double_encoded, $utf8_chars, $string);
    return $string;
}
```
Cela semble fonctionner parfaitement pour supprimer le double encodage, j'en fais l'expérience. Je suis probablement manque quelques-uns des personnages qui pourraient être un problème pour les autres. Toutefois, pour mes besoins, il fonctionne parfaitement.
- Jetez un oeil à ma réponse. La fonction d'Encodage::fixUTF8(). Il résout tous les caractères UTF8 (il y a des millions d'entre eux), et peut manipuler des chaînes de caractères codés à plusieurs reprises, non seulement deux fois.
InformationsquelleAutor Jayrox
2

La voie est à convertir en binaire, puis à l'encodage correct

InformationsquelleAutor Dan
1

Une autre chose à vérifier, ce qui est arrivé à ma solution (qui se trouve ici), est la façon dont les données sont renvoyées à partir de votre serveur. Dans mon application, j'utilise PDO pour se connecter à partir de PHP MySQL. J'ai besoin d'ajouter un drapeau à la connexion qui dit récupérer les données au format UTF-8

La réponse a été
```
$dbHandle = new PDO("mysql:host=$dbHost;dbname=$dbName;charset=utf8", $dbUser, $dbPass, 
    array(PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES 'utf8'"));
```
InformationsquelleAutor Luke Madhanga
0

Il ressemble à votre utf-8 est interprété comme iso8859-1 ou Win-1250 à un certain point.

Quand vous dites "Dans ma base de données j'ai un peu de cas de mauvais encodages" - comment avez-vous vérifier? Par le biais de votre application, phpmyadmin ou le client en ligne de commande? Sont tous utf-8 codages montrant comme ça, ou seulement une partie? Est-il possible que vous avait les codages mal, et il a été mal converti à partir iso8859-1 à utf-8 quand il était en utf-8 déjà?
- J'utilise phpmyadmin pour la gestion de base de données. Et non, pas toutes les causes sont mal encodés.
InformationsquelleAutor teambob
0

j'ai eu le même problème il y a longtemps, et il a fixé à l'aide de
```
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-15">
```
InformationsquelleAutor Jose De Gouveia
0

J'ai trouvé une solution après des jours de recherche. Mon commentaire va être enterré, mais de toute façon...
1. - Je obtenir la corruption des données avec php.
2. Je n'utilise pas le nom du set UTF8
3. - Je utiliser utf8_decode() sur mes données
4. - Je mettre à jour ma base de données avec mes nouvelles données décodées, toujours pas à l'aide de set names UTF8
et voilà 🙂

InformationsquelleAutor David 天宇 Wong

Ce script avait une belle approche. La conversion à la langue de votre choix ne devrait pas être trop difficile:

http://plasmasturm.org/log/416/

#!/usr/bin/perl
use strict;
use warnings;

use Encode qw( decode FB_QUIET );

binmode STDIN, ':bytes';
binmode STDOUT, ':encoding(UTF-8)';

my $out;

while ( <> ) {
  $out = '';
  while ( length ) {
    # consume input string up to the first UTF-8 decode error
    $out .= decode( "utf-8", $_, FB_QUIET );
    # consume one character; all octets are valid Latin-1
    $out .= decode( "iso-8859-1", substr( $_, 0, 1 ), FB_QUIET ) if length;
  }
  print $out;
}

InformationsquelleAutor Erik Aronesty

Vous devez vous connecter pour publier un commentaire.