Preg_Replace et UTF8

Je suis à l'amélioration de nos vidéo page de recherche pour mettre en surbrillance la recherche terme(s) dans les résultats. Parce que l'utilisateur peut entrer judas priest et une vidéo a Judas Priest dans son texte, je dois utiliser des expressions régulières pour préserver la casse du texte original.

Mon code fonctionne, mais j'ai des problèmes avec les caractères spéciaux comme š, č and ž, il semble que Preg_Replace() ne correspondent si le cas est le même (malgré le /ui modificateur).
Mon code:

$Content = Preg_Replace ( '/\b(' . $term . '?)\b/iu', '<span class="HighlightTerm">$1</span>', $Content );

J'ai aussi essayé ceci:

$Content = Mb_Eregi_Replace ( '\b(' . $term . '?)\b', '<span class="HighlightTerm">\</span>', $Content );

Mais il ne fonctionne pas. Elle correspond à "SREČA" si le terme de recherche est "SREČA", mais si le terme de recherche est "sreča" ce ne sera pas le match (et vice versa).

Alors, comment dois-je faire ce travail?

mise à jour: je vous définissez les paramètres régionaux et codage interne:

Mb_Internal_Encoding ( 'UTF-8' );
$loc = "UTF-8";
putenv("LANG=$loc");
$loc = setlocale(LC_ALL, $loc);

Avez-vous pensé à ce qui arriverait si l'utilisateur saisit un caractère spécial tel qu'un / ou * dans la requête de recherche?
Terme de recherche est désinfecté avant de me faire quelque chose avec elle. Merci pour le commentaire.
Au lieu de "désinfection", vous pouvez utiliser preg_quote
J'utilise celle-ci 🙂

OriginalL'auteur Jan Hančič | 2010-01-14

6

Je me sens vraiment stupide droite environ maintenant, mais le problème n'était pas avec Preg_* fonctions à tous. Je ne sais pas pourquoi, mais j'ai d'abord vérifié si le terme est encore dans la chaîne avec StriPos et depuis que la fonction n'est pas multi-octets en toute sécurité, il est retourné false si le cas de le texte n'était pas le même que le terme de recherche, de sorte que le Preg_Replace n'était même pas appelé.

Donc la leçon à tirer ici est que toujours utiliser multi-octets versions de fonctions si vous avez des chaînes de caractères UTF8.

Amen, mon frère. Amen.

OriginalL'auteur Jan Hančič
3

Pas sûr de ce que votre problème est dû, mais je viens de mettre ensemble ce peu de cas de test:
```
<?php

$uc = "SREČA";

mb_internal_encoding('utf-8');
echo $uc."\n";
$lc = mb_strtolower($uc);
echo $lc."\n";

echo preg_replace("/\b(".preg_quote($uc).")\b/ui", "<span class='test'>$1</span>", "test:".$lc." end test");
```
Elle est sortie sur ma machine:
```
SREČA
sreča
test:<span class='test'>sreča</span> end test
```
Semble fonctionner correctement?

L'ajout de mb_regex_encoding ne résout pas le problème (j'ai déjà les deux autres) :\
mb_strtolower convertit les caractères correctement

OriginalL'auteur gnarf
2

Si je ne me trompe pas, preg_match utilise les paramètres régionaux en cours. Essayez définition des paramètres régionaux à la langue qui ces personnages appartient. Vous avez probablement besoin d'une utf8 en fonction des paramètres régionaux. Si vous avez des langues mixtes dans votre page, vous trouverez peut-être un générique internationale locale qui fonctionne.

Voir aussi: http://www.phpwact.org/php/i18n/utf-8

Voir la mise à jour sur ma question.
UTF-8 est probablement pas valide locale sur n'importe quel système. Essayez d'exécuter locale -a sur un shell, pour obtenir les paramètres régionaux pris en charge. Vous voulez probablement celui qui ressemble à en_GB.utf8.
Merci. J'ai changé pour sl_SI.UTF-8, mais le résultat est le même ...
+1 pour le lien pour que phpwact page!

OriginalL'auteur troelskn

Vous devez vous connecter pour publier un commentaire.