De supprimer ou de Coder Non-Caractères UTF-8
Est-il une fonction pour supprimer tous les non caractères UTF-8 à partir d'une chaîne?
Yur question est terriblement incertain. Si une chaîne de caractères Unicode, alors tous les caractères contenus dans la chaîne sont, par définition, des caractères Unicode.
pas vrai dans le cas de l'UTF-8. en.wikipedia.org/wiki/UTF-8#Invalid_byte_sequences
ce n'est pas une chaîne Unicode ensuite. Mais j'ai peut-être un malentendu, et que l'OP n'a pas de chaînes Unicode pour commencer.
ouais. Ma compréhension est qu'il veut supprimer des caractères non valides à partir d'une chaîne UTF-8, mais certaines précisions ne fera pas de mal.
nan ce n'est pas utf-8; string au début, je veux dire l'utilisateur de soumettre ce qu'il veut }—D{· a b c puis à cause de je suis complètement à l'aide d'un codage utf-8; envoirment (db,html,le code php), je voudrais revenir toujours des chaînes de caractères en utf-8;
pas vrai dans le cas de l'UTF-8. en.wikipedia.org/wiki/UTF-8#Invalid_byte_sequences
ce n'est pas une chaîne Unicode ensuite. Mais j'ai peut-être un malentendu, et que l'OP n'a pas de chaînes Unicode pour commencer.
ouais. Ma compréhension est qu'il veut supprimer des caractères non valides à partir d'une chaîne UTF-8, mais certaines précisions ne fera pas de mal.
nan ce n'est pas utf-8; string au début, je veux dire l'utilisateur de soumettre ce qu'il veut }—D{· a b c puis à cause de je suis complètement à l'aide d'un codage utf-8; envoirment (db,html,le code php), je voudrais revenir toujours des chaînes de caractères en utf-8;
OriginalL'auteur itsme | 2011-10-09
Vous devez vous connecter pour publier un commentaire.
Si vous avez une chaîne UTF-8, qui pourrait contenir des caractères non valides, vous pouvez utiliser
iconv
pour les supprimer. Cela devrait fonctionner:Les rendant visibles à l'arbitraire d'un espace réservé est un peu plus difficile - je ne connais pas de moyen facile de le faire, court de marche à travers chaque octet et voir si c'est un caractère valide. Le Article de Wikipedia fournit plus d'informations sur la façon de le faire.
btw, ce code me permet d'afficher des caractères spéciaux droit? il ne supprime que je peux voir, mais il les encoder en utf-8, je suis de droite? 😛
nope, ce qui devrait supprimer uniquement les caractères UTF-8 à partir d'une chaîne UTF-8. Si vous avez besoin de faire quelque chose d'autre (comme convertir des caractères à partir d'un autre encodage) vous avez besoin de savoir ce que le original encodage est
ne j'ai besoin de vérifier l'en-tête http? qui param spécifie exactement le charset de codage de la demande? 🙂
UTF-8 est un beaucoup de caractères, des dizaines de milliers de personnes. Il y a plusieurs tentatives de document tous, par exemple, fileformat.info/info/charset/UTF-8/list.htm
OriginalL'auteur Pekka 웃