PHP: Est-il possible de correctement SUBSTR une chaîne UTF-8?

J'ai (dans une base de données SQLite) la chaîne de caractères suivante:

Лампа в вытяжке на кухне меняется, начиная с вытаскивания белого штырька справа.

La chaîne est correctement indiqué par PHP à l'aide de print. Je voudrais obtenir les 50 premiers caractères de cette chaîne, c'est à dire

Лампа в вытяжке на кухне меняется, начиная с вытас.

J'ai essayé d'utiliser à la fois la substr et mb_substr, et obtenir

Лампа в вытяжке на кухне ме�, c'est à dire seulement 28 caractères.

Après avoir lu ici et d'ailleurs sur les problèmes de mbstring, je me rends compte que c'est réellement une 50 octet string (22 russe chars = 44 octets de plus de 5 places de plus 1 question de symbole).

Est-il une solution sympa pour cela? Toutes mes chaînes de caractères UTF-8, donc je pourrais bien sûr, programme un substr fonction de moi-même, par la vérification, le premier bit de chaque octet, etc. Mais cela doit sûrement avoir été fait avant, à droite?

Mise à JOUR: je crois mb_substr ne fonctionne pas correctement car mb_detect_encoding() ne fonctionne pas correctement.

Vous dites que vous avez essayé mb_substr, mais avez-vous essayé de spécifier l'encodage? Ne mb_substr($string, 0, 10, "UTF-8") par exemple, le travail?
Assurez-vous de passer le bon encodage pour mb_substr - mb_substr($input, 0, 50, 'UTF-8') fonctionne pour moi, mb_substr($input, 0, 50) ne l'est pas.
Je n'ai pas, je l'ai raté dans le manuel. Et il le fait. S'il vous plaît ajouter votre commentaire en réponse, je vais l'accepter.
Ne vous inquiétez pas à ce sujet, vous devriez plutôt accepter Abid la réponse qui me semble la façon la plus décrire et utile pour les personnes à la recherche de ce problème à l'avenir.

OriginalL'auteur texnic | 2012-09-16

17

Voir URL ci-dessous:

L'extraction d'une sous-chaîne d'une chaîne UTF-8 en PHP

http://osc.co.cr/extracting-a-substring-from-a-utf-8-string-in-php/

PHP sous-chaîne en UTF-8

http://greekgeekz.blogspot.in/2010/11/php-substring-with-utf-8.html

Ou l'essayer:

Exemple #1
```
$str1 = utf8_encode("Feliz día");

$str2 = substr($str1, 0, 9);

echo utf8_decode($str2); 

//will output Feliz d�
```
Exemple #2
```
$str3 = mb_substr($str1, 0, 9, 'UTF-8');

echo utf8_decode($str3); 

//will output Feliz dí
```
PHP >= 5.3, vous pouvez aussi déclarer l'encodage de la directive et d'utiliser la fonction substr

Exemple #3
```
declare(encoding='UTF-8');

$str4 = "Feliz día";

$str5 = substr($str4, 0, 9);echo $str5;


//will output Feliz dí
```
Si tout fonctionne, j'ai comme Exemple #3 la plupart de tous: il est préférable d'utiliser une seule fonction. Cependant, declare manuel dit: "Le codage de déclarer la valeur est ignorée dans PHP 5.3, sauf si php est compilé avec l'option --enable-zend-multibyte. Notez que PHP ne pas exposer si l'option --enable-zend-multibyte a été utilisé pour compiler PHP autre que par la fonction phpinfo()." Je crois, je vais m'en tenir à des fonctions mb_ pour l'instant.

OriginalL'auteur Abid Hussain
7

Comme d'habitude, la réponse semble avoir été ici. (Honnêtement, j'ai cherché pendant une heure environ)

Une réponse à (鉑) les fonctions de chaîne et UTF8 en php lit:

Assurez-vous de définir le bon codage interne: mb_internal_encoding('utf-8');

Avec cette mb_internal_encoding('utf-8'); tout fonctionne bien. Désolé de vous déranger les gars, merci pour l'aide.

Comme mentionné dans mon commentaire sur l'OP, je suis sûr que mb_substr($string, 0, 50, "UTF-8") avons également travaillé, mais je suis content que vous avez trouvé votre solution de (eh, c'est une bien meilleure solution si vous utilisez mb_substr beaucoup de différents endroits!)

OriginalL'auteur texnic
4

Essayer mb_strcut().

Son comportement est identique à substr(), sauf qu'il ne quitte pas le dernier caractère à casser.

Si à la position que vous essayez de couper, ont un caractère multi-octets 2 octets ou plus, mb_strcut() ne sera pas coupé le personnage en morceaux, mais ignorer ce caractère.

Par exemple, si vous essayez de couper à 50 octets de la chaîne Лампа в вытяжке на кухне меняется, начиная с вытаскивания белого штырька справа., mb_strcut() ne sera pas coupé le caractère н dans la moitié, mais de l'éliminer de la suite.
```
$str = "Лампа в вытяжке на кухне меняется, начиная с вытаскивания белого штырька справа.";

echo mb_strcut($str, 0, 50);
//Prints: Лампа в вытяжке на кухне ме

echo substr($str, 0, 50);
//Prints: Лампа в вытяжке на кухне ме�

echo mb_substr($str, 0, 50);
//Prints: Лампа в вытяжке на кухне меняется, начиная с вытас
```
Espère que cela aide.

OriginalL'auteur Slavik Meltser
0

Est mb_substr() ne fonctionne pas pour vous ?

Je l'ai essayé, ça ne fonctionne pas. Voir mon post s'il vous plaît.

OriginalL'auteur Nelson

Vous devez vous connecter pour publier un commentaire.