Efficacement remplacer tous les caractères accentués dans une chaîne de caractères?

Pour un homme pauvre de la mise en œuvre de près de-classement-tri correct sur le côté client, j'ai besoin d'une fonction JavaScript qui ne efficace seul remplacement de caractères dans une chaîne.

Voici ce que je veux dire (notez que cela s'applique au texte allemand, autres langues trier différemment):

natif de tri s'il se trompe: a b c o u z ä ö ü 
classement correct serait: un ä b c o ö u ü z

En gros, j'ai besoin de toutes les occurrences de "ä" d'une chaîne donnée remplacé par "a" (et ainsi de suite). De cette façon, le résultat de natif de tri serait très proche de ce qu'un utilisateur pourrait s'attendre (ou ce qu'est une base de données serait de retour).

D'autres langues ont des installations de le faire: Python fournitures str.translate(), dans Perl n'est tr/.../.../, XPath est une fonction translate(), ColdFusion a ReplaceList(). Mais qu'en JavaScript?

Voici ce que j'ai droit maintenant.

//s would be a rather short string (something like 
//200 characters at max, most of the time much less)
function makeSortString(s) {
  var translate = {
    "ä": "a", "ö": "o", "ü": "u",
    "Ä": "A", "Ö": "O", "Ü": "U"   //probably more to come
  };
  var translate_re = /[öäüÖÄÜ]/g;
  return ( s.replace(translate_re, function(match) { 
    return translate[match]; 
  }) );
}

Pour commencer, je n'aime pas le fait que la regex est reconstruit à chaque fois que j'appel de la fonction. Je suppose que la fermeture peut aider à cet égard, mais je ne semble pas obtenir le blocage de celui-ci pour une raison quelconque.

Quelqu'un peut-il penser à quelque chose de plus efficace?

Réponses ci-dessous se divisent en deux catégories:

Chaîne de fonctions de remplacement de divers degrés de l'intégrité et de l'efficacité (ce que j'ai été à l'origine de demander à propos de)
Un la fin de mentionner de String#localeCompare, qui est largement soutenu parmi les moteurs JS et pourrait résoudre cette catégorie de problème beaucoup plus élégamment.

Vous êtes mal dans votre hypothèse que l'utilisateur s'attend à "ä" pour être trié, "un". Le suédois alphabet a 29 lettres: abcdefghijklmnopqrstuvwxyzåäö et le danois/norvégien: abcdefghijklmnopqrstuvwxyzæøå. L'ordre attendu est: "Apelsin", "Banane", "Äpple".
Je sais. La solution a été prévu pour trier texte allemand. Même là, il n'est pas correct, mais assez bon pour le cas d'utilisation. Cette question n'a jamais été destiné à être la recherche de la "résout tous les problèmes" de l'algorithme.
J'ai reformulé la question un peu pour que cela soit clair dès le début.
J'ai trouvé votre question lorsque j'étais en suivant un lien depuis une autre question à propos de "u" et "ü" et avait pour objet. Mais maintenant que vous avez précisé que c'était pour l'allemand, je n'ai rien à objecter.
Je préfère une courte discussion dans les commentaires sur un vote à tout moment. Malheureusement il y a des gens ici que le vote d'abord et poser des questions plus tard (le cas échéant). Conséquence: Votre commentaire a été appréciée. 🙂
il y a des gens qui downvote pour aucune raison apparente,même les réponses correctes et les eaux limpides de questions... je me demande si l'remarqué qu'ils ne se perd 1 point?Je préfère laisser un commentaire au lieu donc l'auteur peut apporter des précisions/corrections. À mon humble avis c'est mieux.
Juste pour que vous le savez, j'ai une fourchette de tablesorter dans lequel j'ai modifié les original sortLocaleCompare option pour remplacer ces accentué les chaînes automatiquement; veuillez consulter la cette démo pour plus de détails. Si cela ne fonctionne pas pour vous, alors découvrez cette démo qui remplace le texte par défaut en mode trieuse avec sugar.js.
Merci @Mottie. (Je crois sortLocaleCompare n'existaient même pas quand j'ai écrit pour la première fois à cette question.)
En fait, il n'existe pas dans la v2.0.5 (sans-papiers) et tout ce qu'il a fait a été return a.localeCompare(b); dans une sorte.
voir plus récente solution de stackoverflow.com/a/18391901/759452
Il est MNP package qui fait juste cela, github.com/andrewrk/node-diacritics.

InformationsquelleAutor Tomalak | 2008-11-13

35

Je ne peux pas parler de ce que vous essayez de faire précisément avec la fonction elle-même, mais si vous n'aimez pas les regex se construit à chaque fois, voici deux solutions et quelques mises en garde à propos de chacun d'eux.

Ici est une façon de le faire:
```
function makeSortString(s) {
  if(!makeSortString.translate_re) makeSortString.translate_re = /[öäüÖÄÜ]/g;
  var translate = {
    "ä": "a", "ö": "o", "ü": "u",
    "Ä": "A", "Ö": "O", "Ü": "U"   //probably more to come
  };
  return ( s.replace(makeSortString.translate_re, function(match) { 
    return translate[match]; 
  }) );
}
```
Cela va évidemment faire la regex une propriété de la fonction elle-même. La seule chose que vous n'aimez pas à propos de cette (ou vous pouvez, je suppose que cela dépend), c'est que la regex peut maintenant être modifiée à l'extérieur de la fonction du corps. Donc, quelqu'un pourrait le faire pour modifier le interally-utilisé les regex:
```
makeSortString.translate_re = /[a-z]/g;
```
Donc, il ya cette option.

Une façon d'obtenir une fermeture, et donc d'empêcher quelqu'un d'en modifier la regex, serait à la définir comme une fonction anonyme affectation comme ceci:
```
var makeSortString = (function() {
  var translate_re = /[öäüÖÄÜ]/g;
  return function(s) {
    var translate = {
      "ä": "a", "ö": "o", "ü": "u",
      "Ä": "A", "Ö": "O", "Ü": "U"   //probably more to come
    };
    return ( s.replace(translate_re, function(match) { 
      return translate[match]; 
    }) );
  }
})();
```
J'espère que cela est utile pour vous.

Mise à JOUR: C'est le début et je ne sais pas pourquoi je n'ai pas vu l'évidence avant, mais il pourrait également être utile de vous mettre translate objet d'une fermeture ainsi:
```
var makeSortString = (function() {
  var translate_re = /[öäüÖÄÜ]/g;
  var translate = {
    "ä": "a", "ö": "o", "ü": "u",
    "Ä": "A", "Ö": "O", "Ü": "U"   //probably more to come
  };
  return function(s) {
    return ( s.replace(translate_re, function(match) { 
      return translate[match]; 
    }) );
  }
})();
```
- Ce que j'essaie de faire, c'est de faire le tri de l'jQuery plugin tablesorter fonctionner correctement pour un tableau de données en allemand. Le plugin peut prendre une fonction définie par l'utilisateur pour extraire la chaîne de tri, qui est ce que je dois faire ou les résultats du tri-être tort.
- Est-il vraiment inefficace? Qu'avez-vous fait autant que les tests?
- Je ne veux pas dire que ma mise en œuvre a été inefficace. Il est proche de la manière la plus efficace de faire ce que je peux penser. Mais je ne peux pas penser à tout, donc, je l'espère, il n'y a vraiment moyen astucieux de manipulation de chaîne que j'étais inconscient.
- Je vois bien, je pense que votre solution est suffisante, car j'ai pu voir une utilisation de cette fonction dans le long terme, j'ai fait quelques test de base. J'ai fait 5000 itérations sur une chaîne de 200 caractères qui contiennent au moins un de ces caractères une fois tous les 8 caractères et il a fallu environ 500 ms.
- BTW, ce test a été fait dans les FF. Dans google Chrome, il fonctionnait sur le même, puisque Chrome JS moteur (V8) est plus rapide, d'une manière générale, il peut être utile de signaler ce fait, FWIW.
- Merci pour votre temps, grandement appréciée. Je vais faire quelques tests de mon propre (mais pas aujourd'hui, il est 6 H ici), et d'après mes résultats ici.
- En fait, je n'ai jamais reçu à la rédaction d'un cas de test pour comparer les résultats. J'ai laissé cette ouverture comme un rappel à le faire un jour, mais ce n'est pas juste de ne pas accepter la réponse que j'ai utilisé donc je le fais maintenant. Désolé pour retarder si longtemps.
- Pas de soucis - j'espère que j'ai été utile!
- Vous avez été. 😉 J'ai posté ce que j'ai le droit de travailler, peut-être que quelqu'un d'autre le trouve utile.
- J'ai fait usage de cette personne, en réponse à un problème similaire: stackoverflow.com/a/5912746/81633
- Jeu de caractères pour les hongrois regexp: var translate_re = /[éáűőúöüóíÉÁŰPŐÚÖÜÓÍ]/g; var translate = { "é": "e", "á": "a", "ű": "u", "ő": "o", "ú": "u", "ö": "o", "ü": "u", "ó": "o", "í": "i", "É": "E", "Á": "A", "Ű": "U", "Ő": "O", "Ú": "U", "Ö": "O", "Ü": "U", "Ó": "O", "Í": "I" };
- Jeu de caractères pour les roumains regexp: var translate_re = /[șțăîâȘȚĂÎÂ]/g; var translate = { "ș": "s", "ț": "t", "ă": "a", "î": "i", "â": "a", "Ș": "S", "Ț": "T", "Ă": "A", "Î": "I", "Â": "A" };
InformationsquelleAutor Jason Bunting

La terminologie correcte pour de tels accents est signes Diacritiques. Après Googler ce terme, j'ai trouvé cette fonction qui fait partie de backbone.paginator. Il a une collection très complète de signes Diacritiques et les remplace par leur plus intuitive de caractères ascii. J'ai trouvé ceci pour être le plus complet Javascript solution disponible aujourd'hui.

La fonction complète pour référence future:

function removeDiacritics (str) {
var defaultDiacriticsRemovalMap = [
{'base':'A', 'letters':/[\u0041\u24B6\uFF21\u00C0\u00C1\u00C2\u1EA6\u1EA4\u1EAA\u1EA8\u00C3\u0100\u0102\u1EB0\u1EAE\u1EB4\u1EB2\u0226\u01E0\u00C4\u01DE\u1EA2\u00C5\u01FA\u01CD\u0200\u0202\u1EA0\u1EAC\u1EB6\u1E00\u0104\u023A\u2C6F]/g},
{'base':'AA','letters':/[\uA732]/g},
{'base':'AE','letters':/[\u00C6\u01FC\u01E2]/g},
{'base':'AO','letters':/[\uA734]/g},
{'base':'AU','letters':/[\uA736]/g},
{'base':'AV','letters':/[\uA738\uA73A]/g},
{'base':'AY','letters':/[\uA73C]/g},
{'base':'B', 'letters':/[\u0042\u24B7\uFF22\u1E02\u1E04\u1E06\u0243\u0182\u0181]/g},
{'base':'C', 'letters':/[\u0043\u24B8\uFF23\u0106\u0108\u010A\u010C\u00C7\u1E08\u0187\u023B\uA73E]/g},
{'base':'D', 'letters':/[\u0044\u24B9\uFF24\u1E0A\u010E\u1E0C\u1E10\u1E12\u1E0E\u0110\u018B\u018A\u0189\uA779]/g},
{'base':'DZ','letters':/[\u01F1\u01C4]/g},
{'base':'Dz','letters':/[\u01F2\u01C5]/g},
{'base':'E', 'letters':/[\u0045\u24BA\uFF25\u00C8\u00C9\u00CA\u1EC0\u1EBE\u1EC4\u1EC2\u1EBC\u0112\u1E14\u1E16\u0114\u0116\u00CB\u1EBA\u011A\u0204\u0206\u1EB8\u1EC6\u0228\u1E1C\u0118\u1E18\u1E1A\u0190\u018E]/g},
{'base':'F', 'letters':/[\u0046\u24BB\uFF26\u1E1E\u0191\uA77B]/g},
{'base':'G', 'letters':/[\u0047\u24BC\uFF27\u01F4\u011C\u1E20\u011E\u0120\u01E6\u0122\u01E4\u0193\uA7A0\uA77D\uA77E]/g},
{'base':'H', 'letters':/[\u0048\u24BD\uFF28\u0124\u1E22\u1E26\u021E\u1E24\u1E28\u1E2A\u0126\u2C67\u2C75\uA78D]/g},
{'base':'I', 'letters':/[\u0049\u24BE\uFF29\u00CC\u00CD\u00CE\u0128\u012A\u012C\u0130\u00CF\u1E2E\u1EC8\u01CF\u0208\u020A\u1ECA\u012E\u1E2C\u0197]/g},
{'base':'J', 'letters':/[\u004A\u24BF\uFF2A\u0134\u0248]/g},
{'base':'K', 'letters':/[\u004B\u24C0\uFF2B\u1E30\u01E8\u1E32\u0136\u1E34\u0198\u2C69\uA740\uA742\uA744\uA7A2]/g},
{'base':'L', 'letters':/[\u004C\u24C1\uFF2C\u013F\u0139\u013D\u1E36\u1E38\u013B\u1E3C\u1E3A\u0141\u023D\u2C62\u2C60\uA748\uA746\uA780]/g},
{'base':'LJ','letters':/[\u01C7]/g},
{'base':'Lj','letters':/[\u01C8]/g},
{'base':'M', 'letters':/[\u004D\u24C2\uFF2D\u1E3E\u1E40\u1E42\u2C6E\u019C]/g},
{'base':'N', 'letters':/[\u004E\u24C3\uFF2E\u01F8\u0143\u00D1\u1E44\u0147\u1E46\u0145\u1E4A\u1E48\u0220\u019D\uA790\uA7A4]/g},
{'base':'NJ','letters':/[\u01CA]/g},
{'base':'Nj','letters':/[\u01CB]/g},
{'base':'O', 'letters':/[\u004F\u24C4\uFF2F\u00D2\u00D3\u00D4\u1ED2\u1ED0\u1ED6\u1ED4\u00D5\u1E4C\u022C\u1E4E\u014C\u1E50\u1E52\u014E\u022E\u0230\u00D6\u022A\u1ECE\u0150\u01D1\u020C\u020E\u01A0\u1EDC\u1EDA\u1EE0\u1EDE\u1EE2\u1ECC\u1ED8\u01EA\u01EC\u00D8\u01FE\u0186\u019F\uA74A\uA74C]/g},
{'base':'OI','letters':/[\u01A2]/g},
{'base':'OO','letters':/[\uA74E]/g},
{'base':'OU','letters':/[\u0222]/g},
{'base':'P', 'letters':/[\u0050\u24C5\uFF30\u1E54\u1E56\u01A4\u2C63\uA750\uA752\uA754]/g},
{'base':'Q', 'letters':/[\u0051\u24C6\uFF31\uA756\uA758\u024A]/g},
{'base':'R', 'letters':/[\u0052\u24C7\uFF32\u0154\u1E58\u0158\u0210\u0212\u1E5A\u1E5C\u0156\u1E5E\u024C\u2C64\uA75A\uA7A6\uA782]/g},
{'base':'S', 'letters':/[\u0053\u24C8\uFF33\u1E9E\u015A\u1E64\u015C\u1E60\u0160\u1E66\u1E62\u1E68\u0218\u015E\u2C7E\uA7A8\uA784]/g},
{'base':'T', 'letters':/[\u0054\u24C9\uFF34\u1E6A\u0164\u1E6C\u021A\u0162\u1E70\u1E6E\u0166\u01AC\u01AE\u023E\uA786]/g},
{'base':'TZ','letters':/[\uA728]/g},
{'base':'U', 'letters':/[\u0055\u24CA\uFF35\u00D9\u00DA\u00DB\u0168\u1E78\u016A\u1E7A\u016C\u00DC\u01DB\u01D7\u01D5\u01D9\u1EE6\u016E\u0170\u01D3\u0214\u0216\u01AF\u1EEA\u1EE8\u1EEE\u1EEC\u1EF0\u1EE4\u1E72\u0172\u1E76\u1E74\u0244]/g},
{'base':'V', 'letters':/[\u0056\u24CB\uFF36\u1E7C\u1E7E\u01B2\uA75E\u0245]/g},
{'base':'VY','letters':/[\uA760]/g},
{'base':'W', 'letters':/[\u0057\u24CC\uFF37\u1E80\u1E82\u0174\u1E86\u1E84\u1E88\u2C72]/g},
{'base':'X', 'letters':/[\u0058\u24CD\uFF38\u1E8A\u1E8C]/g},
{'base':'Y', 'letters':/[\u0059\u24CE\uFF39\u1EF2\u00DD\u0176\u1EF8\u0232\u1E8E\u0178\u1EF6\u1EF4\u01B3\u024E\u1EFE]/g},
{'base':'Z', 'letters':/[\u005A\u24CF\uFF3A\u0179\u1E90\u017B\u017D\u1E92\u1E94\u01B5\u0224\u2C7F\u2C6B\uA762]/g},
{'base':'a', 'letters':/[\u0061\u24D0\uFF41\u1E9A\u00E0\u00E1\u00E2\u1EA7\u1EA5\u1EAB\u1EA9\u00E3\u0101\u0103\u1EB1\u1EAF\u1EB5\u1EB3\u0227\u01E1\u00E4\u01DF\u1EA3\u00E5\u01FB\u01CE\u0201\u0203\u1EA1\u1EAD\u1EB7\u1E01\u0105\u2C65\u0250]/g},
{'base':'aa','letters':/[\uA733]/g},
{'base':'ae','letters':/[\u00E6\u01FD\u01E3]/g},
{'base':'ao','letters':/[\uA735]/g},
{'base':'au','letters':/[\uA737]/g},
{'base':'av','letters':/[\uA739\uA73B]/g},
{'base':'ay','letters':/[\uA73D]/g},
{'base':'b', 'letters':/[\u0062\u24D1\uFF42\u1E03\u1E05\u1E07\u0180\u0183\u0253]/g},
{'base':'c', 'letters':/[\u0063\u24D2\uFF43\u0107\u0109\u010B\u010D\u00E7\u1E09\u0188\u023C\uA73F\u2184]/g},
{'base':'d', 'letters':/[\u0064\u24D3\uFF44\u1E0B\u010F\u1E0D\u1E11\u1E13\u1E0F\u0111\u018C\u0256\u0257\uA77A]/g},
{'base':'dz','letters':/[\u01F3\u01C6]/g},
{'base':'e', 'letters':/[\u0065\u24D4\uFF45\u00E8\u00E9\u00EA\u1EC1\u1EBF\u1EC5\u1EC3\u1EBD\u0113\u1E15\u1E17\u0115\u0117\u00EB\u1EBB\u011B\u0205\u0207\u1EB9\u1EC7\u0229\u1E1D\u0119\u1E19\u1E1B\u0247\u025B\u01DD]/g},
{'base':'f', 'letters':/[\u0066\u24D5\uFF46\u1E1F\u0192\uA77C]/g},
{'base':'g', 'letters':/[\u0067\u24D6\uFF47\u01F5\u011D\u1E21\u011F\u0121\u01E7\u0123\u01E5\u0260\uA7A1\u1D79\uA77F]/g},
{'base':'h', 'letters':/[\u0068\u24D7\uFF48\u0125\u1E23\u1E27\u021F\u1E25\u1E29\u1E2B\u1E96\u0127\u2C68\u2C76\u0265]/g},
{'base':'hv','letters':/[\u0195]/g},
{'base':'i', 'letters':/[\u0069\u24D8\uFF49\u00EC\u00ED\u00EE\u0129\u012B\u012D\u00EF\u1E2F\u1EC9\u01D0\u0209\u020B\u1ECB\u012F\u1E2D\u0268\u0131]/g},
{'base':'j', 'letters':/[\u006A\u24D9\uFF4A\u0135\u01F0\u0249]/g},
{'base':'k', 'letters':/[\u006B\u24DA\uFF4B\u1E31\u01E9\u1E33\u0137\u1E35\u0199\u2C6A\uA741\uA743\uA745\uA7A3]/g},
{'base':'l', 'letters':/[\u006C\u24DB\uFF4C\u0140\u013A\u013E\u1E37\u1E39\u013C\u1E3D\u1E3B\u017F\u0142\u019A\u026B\u2C61\uA749\uA781\uA747]/g},
{'base':'lj','letters':/[\u01C9]/g},
{'base':'m', 'letters':/[\u006D\u24DC\uFF4D\u1E3F\u1E41\u1E43\u0271\u026F]/g},
{'base':'n', 'letters':/[\u006E\u24DD\uFF4E\u01F9\u0144\u00F1\u1E45\u0148\u1E47\u0146\u1E4B\u1E49\u019E\u0272\u0149\uA791\uA7A5]/g},
{'base':'nj','letters':/[\u01CC]/g},
{'base':'o', 'letters':/[\u006F\u24DE\uFF4F\u00F2\u00F3\u00F4\u1ED3\u1ED1\u1ED7\u1ED5\u00F5\u1E4D\u022D\u1E4F\u014D\u1E51\u1E53\u014F\u022F\u0231\u00F6\u022B\u1ECF\u0151\u01D2\u020D\u020F\u01A1\u1EDD\u1EDB\u1EE1\u1EDF\u1EE3\u1ECD\u1ED9\u01EB\u01ED\u00F8\u01FF\u0254\uA74B\uA74D\u0275]/g},
{'base':'oi','letters':/[\u01A3]/g},
{'base':'ou','letters':/[\u0223]/g},
{'base':'oo','letters':/[\uA74F]/g},
{'base':'p','letters':/[\u0070\u24DF\uFF50\u1E55\u1E57\u01A5\u1D7D\uA751\uA753\uA755]/g},
{'base':'q','letters':/[\u0071\u24E0\uFF51\u024B\uA757\uA759]/g},
{'base':'r','letters':/[\u0072\u24E1\uFF52\u0155\u1E59\u0159\u0211\u0213\u1E5B\u1E5D\u0157\u1E5F\u024D\u027D\uA75B\uA7A7\uA783]/g},
{'base':'s','letters':/[\u0073\u24E2\uFF53\u00DF\u015B\u1E65\u015D\u1E61\u0161\u1E67\u1E63\u1E69\u0219\u015F\u023F\uA7A9\uA785\u1E9B]/g},
{'base':'t','letters':/[\u0074\u24E3\uFF54\u1E6B\u1E97\u0165\u1E6D\u021B\u0163\u1E71\u1E6F\u0167\u01AD\u0288\u2C66\uA787]/g},
{'base':'tz','letters':/[\uA729]/g},
{'base':'u','letters':/[\u0075\u24E4\uFF55\u00F9\u00FA\u00FB\u0169\u1E79\u016B\u1E7B\u016D\u00FC\u01DC\u01D8\u01D6\u01DA\u1EE7\u016F\u0171\u01D4\u0215\u0217\u01B0\u1EEB\u1EE9\u1EEF\u1EED\u1EF1\u1EE5\u1E73\u0173\u1E77\u1E75\u0289]/g},
{'base':'v','letters':/[\u0076\u24E5\uFF56\u1E7D\u1E7F\u028B\uA75F\u028C]/g},
{'base':'vy','letters':/[\uA761]/g},
{'base':'w','letters':/[\u0077\u24E6\uFF57\u1E81\u1E83\u0175\u1E87\u1E85\u1E98\u1E89\u2C73]/g},
{'base':'x','letters':/[\u0078\u24E7\uFF58\u1E8B\u1E8D]/g},
{'base':'y','letters':/[\u0079\u24E8\uFF59\u1EF3\u00FD\u0177\u1EF9\u0233\u1E8F\u00FF\u1EF7\u1E99\u1EF5\u01B4\u024F\u1EFF]/g},
{'base':'z','letters':/[\u007A\u24E9\uFF5A\u017A\u1E91\u017C\u017E\u1E93\u1E95\u01B6\u0225\u0240\u2C6C\uA763]/g}
];
for(var i=0; i<defaultDiacriticsRemovalMap.length; i++) {
str = str.replace(defaultDiacriticsRemovalMap[i].letters, defaultDiacriticsRemovalMap[i].base);
}
return str;
}

L'air très bon. - Malheureusement, backbone.js n'existe pas quand cette question a été écrit. 🙂
plus de discussion au sujet de cette solution sur stackoverflow.com/a/18391901/759452
Superbe réponse 🙂

InformationsquelleAutor Jeroen

18

Basé sur la solution par Jason Bunting, voici ce que j'utilise maintenant.

Toute la chose est pour le jQuery tablesorter plug-in: Pour (presque correct) tri des non-anglais tables avec plugin tablesorter il est nécessaire de faire usage d'une coutume textExtraction function.

Celui-ci:
- traduit le plus commun avec les lettres accentuées à atones, ceux (la liste des lettres est facilement extensible)
- changements de dates en allemand format ('dd.mm.yyyy') à un format reconnu ('yyyy-mm-dd')
Être prudent pour enregistrer le fichier JavaScript dans le codage UTF-8 ou il ne fonctionnera pas.
```
//file encoding must be UTF-8!
function getTextExtractor()
{
return (function() {
var patternLetters = /[öäüÖÄÜáàâéèêúùûóòôÁÀÂÉÈÊÚÙÛÓÒÔß]/g;
var patternDateDmy = /^(?:\D+)?(\d{1,2})\.(\d{1,2})\.(\d{2,4})$/;
var lookupLetters = {
"ä": "a", "ö": "o", "ü": "u",
"Ä": "A", "Ö": "O", "Ü": "U",
"á": "a", "à": "a", "â": "a",
"é": "e", "è": "e", "ê": "e",
"ú": "u", "ù": "u", "û": "u",
"ó": "o", "ò": "o", "ô": "o",
"Á": "A", "À": "A", "Â": "A",
"É": "E", "È": "E", "Ê": "E",
"Ú": "U", "Ù": "U", "Û": "U",
"Ó": "O", "Ò": "O", "Ô": "O",
"ß": "s"
};
var letterTranslator = function(match) { 
return lookupLetters[match] || match;
}
return function(node) {
var text = $.trim($(node).text());
var date = text.match(patternDateDmy);
if (date)
return [date[3], date[2], date[1]].join("-");
else
return text.replace(patternLetters, letterTranslator);
}
})();
}
```
Vous pouvez l'utiliser comme ceci:
```
$("table.sortable").tablesorter({ 
textExtraction: getTextExtractor()
}); 
```
- Ne sais pas si quelqu'un va voir mon commentaire mais j'ai besoin de la même fonction pour certains lettre accentuée en portugais et je ne peux pas le gérer pour le faire fonctionner. Si le concerné lettres dans mon fichier php d'être appelé par le "code html': Í ou en tapant directement l' 'Í' lettre ? J'ai essayé les deux, rien ne fonctionne. Et oui j'ai changé la fonction js pour répondre à mes besoins avec le Í et í lettres et mon js est encodé en utf-8.
- Bien sûr, quelqu'un remarque le commentaire. 😉 Le personnage dans votre code HTML (qui est produite par le fichier PHP, je présume), peut être Í ou le Í. Il ne fait aucune différence, tant que les paramètres d'encodage sont corrects (PHP, le codage de fichier, serveur PHP perçue encodage de fichier, HTTP Content-Type d'en-tête, les balises meta HTML). À l'aide de l'entité HTML peut-être plus sécuritaire. Si l' .js fichier est codé en UTF-8, il doit être servi en tant que telle (text/javascript; Charset=UTF-8), alors tout doit être bien.
- Merci pour remarquer ;-), j'ai vérifié et essayé à bien des égards ce que vous avez dit, il n'a tout simplement pas y aller. Cela pourrait-il être dû à d'autres fichiers js être appelée dans la même page php ? Si u veux donner un coup d'oeil, c'est par ici: schulz-al.tempsite.ws/br/?page_id=51 . Merci pour l'aide, aprécié.
- BTW vérifier vos références à sitemap-up.gif et sitemap-down.gif, je reçois 401 Accès Refusé pour eux.
- La prochaine chose: Vos scripts sont servis comme Content-Type: text/html sans Charset paramètre. Ils devraient au moins être Content-Type: text/javascript;. Aussi, votre GetTextExtractor() méthode (l'un en jquery.tablesorter.min.js) diffère assez fortement de ma fonction, aucune idée de pourquoi vous pensez que vous pourriez travailler. 😉 Astuce: Mettre le texte de l'extracteur dans scripts.js, non pas dans le plugin tablesorter code. Vous ne devriez pas toucher le code du plugin pour éviter à l'avenir des maux de tête.
- Ouais vu les images pb résolu. À propos de la <code>Content-Type: text/javascript</code>, tous mes scripts sont appelés de cette façon <code><script type="text/javascript" src="<?php bloginfo('template_url'); ?>/js/jquery.tablesorter.min.js" charset="utf-8"></script></code>, donc je ne comprends pas ce que u veux dire. J'ai juste fait ce qu'u a suggéré, copier votre code js pour une nouvelle scripts.js fichier et ajouté mon "Í" et "í" lettres, toujours rien, je suis fou et je me sens stupide. Merci beaucoup pour l'aide en tout cas.
- Je suis désolé de dire qu'on a raison de se sentir stupide. 😉 Vous avez copié mon code $("table.sortable").tablesorter(…);, mais votre table est en fait $("table.tablesorter"). Aussi, il n'est pas nécessaire d'appeler tablesorter() un deuxième temps. Une fois que vous effectuer le changement, c'est d'aller travailler - je viens de tester via FireBug.
- Omg, c'était assez bête en effet... Merci beaucoup pour l'aide Tomalak, vraiment apprécié, ça fonctionne très bien maintenant. J'ai également eu à appeler le caractère extraction <code>{ textExtraction: GetTextExtractor() }</code> après le zèbre widget appel <code>$.tablesorter.les valeurs par défaut.widgets = ['zebra'];</code> pour faire tous ensemble. Merci encore!
- Heureux d'entendre, il a travaillé, après tout. 🙂 P. S.: j'aimerais avoir un vote en retour. 😉
- Bien sûr, comment puis-je le faire ? (est-il en cliquant sur l'icône de drapeau "c'est un grand commentaire" ?)
- Non, c'est en cliquant sur les boutons de vote sur le côté supérieur gauche de la réponse. 😉 Les commentaires peuvent être voté, trop, mais seuls les votes pour les questions oder réponses générer réputation, qui est la monnaie principale de ce site. 😉
- Là, il va 😉
- Code grande! Vous pourriez peut-être faire un GitHub Gist sortir de cette situation?
- Ici vous allez. gist.github.com/3061389
- J'ai toujours eu un problème avec le tri, par exemple: Šalat, Sup. C'est un ordre incorrect alors j'ai fait quelque chose comme ça - "Š": "Szz", "š": "szz", il devrait être presque 100% efficace
InformationsquelleAutor Tomalak
17

Je pense que ce serait un peu de nettoyant/mieux (mais je n'ai pas de test de performance):
```
String.prototype.stripAccents = function() {
var translate_re = /[àáâãäçèéêëìíîïñòóôõöùúûüýÿÀÁÂÃÄÇÈÉÊËÌÍÎÏÑÒÓÔÕÖÙÚÛÜÝ]/g;
var translate = 'aaaaaceeeeiiiinooooouuuuyyAAAAACEEEEIIIINOOOOOUUUUY';
return (this.replace(translate_re, function(match){
return translate.substr(translate_re.source.indexOf(match)-1, 1); })
);
};
```
Ou si vous êtes encore trop inquiet au sujet de la performance, nous allons obtenir le meilleur des deux mondes:
```
String.prototype.stripAccents = function() {
var in_chrs =  'àáâãäçèéêëìíîïñòóôõöùúûüýÿÀÁÂÃÄÇÈÉÊËÌÍÎÏÑÒÓÔÕÖÙÚÛÜÝ',
out_chrs = 'aaaaaceeeeiiiinooooouuuuyyAAAAACEEEEIIIINOOOOOUUUUY', 
transl = {};
eval('var chars_rgx = /['+in_chrs+']/g');
for(var i = 0; i < in_chrs.length; i++){ transl[in_chrs.charAt(i)] = out_chrs.charAt(i); }
return this.replace(chars_rgx, function(match){
return transl[match]; });
};
```
MODIFIER (par @Tomalak)

J'apprécie l'idée. Cependant, il y a plusieurs choses qui clochent dans la mise en œuvre, comme indiqué dans le commentaire ci-dessous.

Ici est de savoir comment je voudrais mettre en œuvre.
```
var stripAccents = (function () {
var in_chrs   = 'àáâãäçèéêëìíîïñòóôõöùúûüýÿÀÁÂÃÄÇÈÉÊËÌÍÎÏÑÒÓÔÕÖÙÚÛÜÝ',
out_chrs  = 'aaaaaceeeeiiiinooooouuuuyyAAAAACEEEEIIIINOOOOOUUUUY', 
chars_rgx = new RegExp('[' + in_chrs + ']', 'g'),
transl    = {}, i,
lookup    = function (m) { return transl[m] || m; };
for (i=0; i<in_chrs.length; i++) {
transl[ in_chrs[i] ] = out_chrs[i];
}
return function (s) { return s.replace(chars_rgx, lookup); }
})();
```
- Pourquoi pensez-vous que cela fonctionne mieux? Je suppose que l'objet de recherche est beaucoup plus rapide que String.indexOf().
- Tomalak, j'ai ajouté une autre façon de faire qui rassemble le meilleur des deux mondes (la lisibilité et de la performance), j'ai enfin pu prendre un peu plus loin et de mettre en cache le char_rgx objet, mais je ne pense pas que cela fait beaucoup de sens, sauf si l'on travaille en temps réel de précision...
- Désolé, mais il y a plusieurs choses qui clochent dans ce code. À première vue, son utilisation inappropriée de eval(). Il est new RegExp() pour que. Deuxièmement, il modifie la Chaîne de prototype. La modification des types de données intégrés est très mal vu. Troisièmement, la fonction s'exécute pour chaque caractère de la boucle à chaque invocation. C'est ce que j'ai essayé d'éviter en premier lieu. Cela signifie qu'il résout la lisibilité au détriment de la performance, que je considère comme un mauvais compromis. J'apprécie l'idée, mais l'exécution est sous-optimale. 🙂
- c'est une belle façon de le faire! Je me demandais juste pourquoi vous êtes de retour d'une fonction au lieu de passer en "s" en premier lieu,var stripAccents = function(s){ var in_chrs = ... } ? jsfiddle
- Parce que le retour d'une fonction ferme sur les variables et la fonction à l'extérieur de la portée, de sorte qu'ils n'ont pas besoin d'être redéfini à chaque fois stripAccents() est appelé. Voir les fermetures.
InformationsquelleAutor Martin_Lakes
17

Simplement doit être normalisé et de la chaîne d'exécuter un codes de remplacement:
```
var str = "Letras Á É Í Ó Ú Ñ - á é í ó ú ñ...";
console.log (str.normalize ("NFKD").replace (/[\u0300-\u036F]/g, ""));
//Letras A E I O U N - a e i o u n...
```
Voir normaliser

Alors vous pouvez utiliser cette fonction:
```
function noTilde (s) {
if (s.normalize != undefined) {
s = s.normalize ("NFKD");
}
return s.replace (/[\u0300-\u036F]/g, "");
}
```
- C'est assez sympa! Mais sur le revers de la médaille, au moment de la rédaction, il est à la pointe et difficilement portable.
- peut être encapsulé dans une fonction
- Tous encapsulation sera inutile si le JS moteur dans le navigateur ne prend pas en charge cette fonction.
- C'est à 2016 et Safari encore ne le supporte pas... dommage car ce serait vraiment pratique d'avoir cet outil dans la main.
- Ce n'est pas pris en charge dans IE 🙁
- Il y a un polyfill disponible ici: github.com/walling/unorm
InformationsquelleAutor atiruz
13

https://stackoverflow.com/a/37511463
Avec ES2015/ES6 Chaîne de caractères.Le Prototype.Normalize(),
```
const str = "Crème Brulée"
str.normalize('NFD').replace(/[\u0300-\u036f]/g, "")
> 'Creme Brulee'
```
Deux il se passe des choses ici:
1. normalize()ing NFD Unicode forme normale se décompose combiné graphèmes dans la combinaison de plus simple. Le è de Crème finit exprimé en e + ̀.
2. À l'aide d'une regex classe de personnage pour correspondre à la U+0300 → U+036F gamme, il est désormais banal de globally se débarrasser des signes diacritiques, qui le standard Unicode idéalement groupes comme le La Combinaison Des Signes Diacritiques blocs Unicode.
Voir le commentaire de l'essai de performance.

Alternativement, si vous voulez juste de tri

Intl.Collateur a suffisamment de soutien ~85% dès maintenant, un polyfill est également disponible ici mais je n'ai pas testé.
```
const c = new Intl.Collator();
['creme brulee', 'crème brulée', 'crame brulai', 'crome brouillé',
'creme brulay', 'creme brulfé', 'creme bruléa'].sort(c.compare)
[ 'crame brulai','creme brulay','creme bruléa','creme brulee',
'crème brulée','creme brulfé','crome brouillé' ]
['creme brulee', 'crème brulée', 'crame brulai', 'crome brouillé'].sort((a,b) => a>b)
["crame brulai", "creme brulee", "crome brouillé", "crème brulée"]
```
- Je considère cette réponse le meilleur. Basé sur le standard Unicode et à l'aide des fonctions intégrées. Merci.
- Intl.Collator(undefined , {sensitivity: 'base'})
- J'ai utilisé ce pour la création d'une limace, donc, avant de me remplacer les espaces de slash et tout en minuscules. Votre fonction fonctionne parfaitement !!!
InformationsquelleAutor Revadike

La solution complète à votre demande:

function convert_accented_characters(str){
var conversions = new Object();
conversions['ae'] = 'ä|æ|ǽ';
conversions['oe'] = 'ö|œ';
conversions['ue'] = 'ü';
conversions['Ae'] = 'Ä';
conversions['Ue'] = 'Ü';
conversions['Oe'] = 'Ö';
conversions['A'] = 'À|Á|Â|Ã|Ä|Å|Ǻ|Ā|Ă|Ą|Ǎ';
conversions['a'] = 'à|á|â|ã|å|ǻ|ā|ă|ą|ǎ|ª';
conversions['C'] = 'Ç|Ć|Ĉ|Ċ|Č';
conversions['c'] = 'ç|ć|ĉ|ċ|č';
conversions['D'] = 'Ð|Ď|Đ';
conversions['d'] = 'ð|ď|đ';
conversions['E'] = 'È|É|Ê|Ë|Ē|Ĕ|Ė|Ę|Ě';
conversions['e'] = 'è|é|ê|ë|ē|ĕ|ė|ę|ě';
conversions['G'] = 'Ĝ|Ğ|Ġ|Ģ';
conversions['g'] = 'ĝ|ğ|ġ|ģ';
conversions['H'] = 'Ĥ|Ħ';
conversions['h'] = 'ĥ|ħ';
conversions['I'] = 'Ì|Í|Î|Ï|Ĩ|Ī|Ĭ|Ǐ|Į|İ';
conversions['i'] = 'ì|í|î|ï|ĩ|ī|ĭ|ǐ|į|ı';
conversions['J'] = 'Ĵ';
conversions['j'] = 'ĵ';
conversions['K'] = 'Ķ';
conversions['k'] = 'ķ';
conversions['L'] = 'Ĺ|Ļ|Ľ|Ŀ|Ł';
conversions['l'] = 'ĺ|ļ|ľ|ŀ|ł';
conversions['N'] = 'Ñ|Ń|Ņ|Ň';
conversions['n'] = 'ñ|ń|ņ|ň|ŉ';
conversions['O'] = 'Ò|Ó|Ô|Õ|Ō|Ŏ|Ǒ|Ő|Ơ|Ø|Ǿ';
conversions['o'] = 'ò|ó|ô|õ|ō|ŏ|ǒ|ő|ơ|ø|ǿ|º';
conversions['R'] = 'Ŕ|Ŗ|Ř';
conversions['r'] = 'ŕ|ŗ|ř';
conversions['S'] = 'Ś|Ŝ|Ş|Š';
conversions['s'] = 'ś|ŝ|ş|š|ſ';
conversions['T'] = 'Ţ|Ť|Ŧ';
conversions['t'] = 'ţ|ť|ŧ';
conversions['U'] = 'Ù|Ú|Û|Ũ|Ū|Ŭ|Ů|Ű|Ų|Ư|Ǔ|Ǖ|Ǘ|Ǚ|Ǜ';
conversions['u'] = 'ù|ú|û|ũ|ū|ŭ|ů|ű|ų|ư|ǔ|ǖ|ǘ|ǚ|ǜ';
conversions['Y'] = 'Ý|Ÿ|Ŷ';
conversions['y'] = 'ý|ÿ|ŷ';
conversions['W'] = 'Ŵ';
conversions['w'] = 'ŵ';
conversions['Z'] = 'Ź|Ż|Ž';
conversions['z'] = 'ź|ż|ž';
conversions['AE'] = 'Æ|Ǽ';
conversions['ss'] = 'ß';
conversions['IJ'] = 'Ĳ';
conversions['ij'] = 'ĳ';
conversions['OE'] = 'Œ';
conversions['f'] = 'ƒ';
for(var i in conversions){
var re = new RegExp(conversions[i],"g");
str = str.replace(re,i);
}
return str;
}

InformationsquelleAutor Crisalin Petrovschi

Si vous êtes à la recherche spécifiquement pour un moyen de convertir les caractères accentués pour les non-caractères accentués, plutôt qu'une façon de trier les caractères accentués, avec un peu de finagling, la Chaîne.localeCompare fonction peut être manipulé pour trouver le latin de base de caractères qui correspondent à la élargies. Par exemple, vous pouvez produire un homme sympathique url slug à partir d'une page de titre. Si oui, vous pouvez faire quelque chose comme ceci:

JS:

var baseChars = [];
for (var i = 97; i < 97 + 26; i++) {
baseChars.push(String.fromCharCode(i));
}
//if needed, handle fancy compound characters
baseChars = baseChars.concat('ss,aa,ae,ao,au,av,ay,dz,hv,lj,nj,oi,ou,oo,tz,vy'.split(','));
function isUpperCase(c) { return c !== c.toLocaleLowerCase() }
function toBaseChar(c, opts) {
opts = opts || {};
//if (!('nonAlphaChar' in opts)) opts.nonAlphaChar = '';
//if (!('noMatchChar' in opts)) opts.noMatchChar = '';
if (!('locale' in opts)) opts.locale = 'en';
var cOpts = {sensitivity: 'base'};
//exit early for any non-alphabetical character
if (c.localeCompare('9', opts.locale, cOpts) <= 0) return opts.nonAlphaChar === undefined ? c : opts.nonAlphaChar;
for (var i = 0; i < baseChars.length; i++) {
var baseChar = baseChars[i];
var comp = c.localeCompare(baseChar, opts.locale, cOpts);
if (comp == 0) return (isUpperCase(c)) ? baseChar.toUpperCase() : baseChar;
}
return opts.noMatchChar === undefined ? c : opts.noMatchChar;
}
function latinify(str, opts) {
return str.replace(/[^\w\s\d]/g, function(c) {
return toBaseChar(c, opts);
})
}
//Example:
console.log(latinify('Čeština Tsėhesenėstsestotse Tshivenḓa Emigliàn–Rumagnòl Slovenščina Português Tiếng Việt Straße'))
//"Cestina Tsehesenestsestotse Tshivenda Emiglian–Rumagnol Slovenscina Portugues Tieng Viet Strasse"

Cela devrait effectuer très bien, mais si la poursuite de l'optimisation, une recherche binaire peut être utilisé avec localeCompare comme le comparateur de localiser le caractère de base. Notez que le cas est préservée, et des options permettent la préservation, le remplacement ou la suppression des caractères qui ne sont pas alphabétique, ou n'ont pas de correspondance des caractères latins, ils peuvent être remplacés par des. Cette mise en œuvre est plus rapide et plus souple, et devrait travailler avec de nouveaux personnages comme ils sont ajoutés. L'inconvénient est que le composé de caractères comme 'ꝡ" doivent être traitées spécifiquement, s'ils ont besoin d'être pris en charge.

C'est très joli. Dommage que les réponses tardives de vieux fils de obtenir si peu d'attention.
Facilement le meilleur de réponse ici. Doit obtenir plus de votes (reçu le mien!)

InformationsquelleAutor undefined

J'ai fait une Version Prototype de ce:

String.prototype.strip = function() {
var translate_re = /[öäüÖÄÜß ]/g;
var translate = {
"ä":"a", "ö":"o", "ü":"u",
"Ä":"A", "Ö":"O", "Ü":"U",
" ":"_", "ß":"ss"   //probably more to come
};
return (this.replace(translate_re, function(match){
return translate[match];})
);
};

À utiliser comme:

var teststring = 'ä ö ü Ä Ö Ü ß';
teststring.strip();

Cela va changer la Chaîne de a_o_u_A_O_U_ss

cela ne fonctionne pas. Cependant, si je ne var newstr = teststring.strip(); et console.log() que, ensuite, il travaille -- jsfiddle. Merci mec, c'est le plus concis et lisible de la méthode.

InformationsquelleAutor Jan Hagge

En se basant sur les réponses existantes et des suggestions, j'ai créé ce:

String.prototype.removeAccents = function() {
var removalMap = {
'A'  : /[AⒶＡÀÁÂẦẤẪẨÃĀĂẰẮẴẲȦǠÄǞẢÅǺǍȀȂẠẬẶḀĄ]/g,
'AA' : /[Ꜳ]/g,
'AE' : /[ÆǼǢ]/g,
'AO' : /[Ꜵ]/g,
'AU' : /[Ꜷ]/g,
'AV' : /[ꜸꜺ]/g,
'AY' : /[Ꜽ]/g,
'B'  : /[BⒷＢḂḄḆɃƂƁ]/g,
'C'  : /[CⒸＣĆĈĊČÇḈƇȻꜾ]/g,
'D'  : /[DⒹＤḊĎḌḐḒḎĐƋƊƉꝹ]/g,
'DZ' : /[ǱǄ]/g,
'Dz' : /[ǲǅ]/g,
'E'  : /[EⒺＥÈÉÊỀẾỄỂẼĒḔḖĔĖËẺĚȄȆẸỆȨḜĘḘḚƐƎ]/g,
'F'  : /[FⒻＦḞƑꝻ]/g,
'G'  : /[GⒼＧǴĜḠĞĠǦĢǤƓꞠꝽꝾ]/g,
'H'  : /[HⒽＨĤḢḦȞḤḨḪĦⱧⱵꞍ]/g,
'I'  : /[IⒾＩÌÍÎĨĪĬİÏḮỈǏȈȊỊĮḬƗ]/g,
'J'  : /[JⒿＪĴɈ]/g,
'K'  : /[KⓀＫḰǨḲĶḴƘⱩꝀꝂꝄꞢ]/g,
'L'  : /[LⓁＬĿĹĽḶḸĻḼḺŁȽⱢⱠꝈꝆꞀ]/g,
'LJ' : /[Ǉ]/g,
'Lj' : /[ǈ]/g,
'M'  : /[MⓂＭḾṀṂⱮƜ]/g,
'N'  : /[NⓃＮǸŃÑṄŇṆŅṊṈȠƝꞐꞤ]/g,
'NJ' : /[Ǌ]/g,
'Nj' : /[ǋ]/g,
'O'  : /[OⓄＯÒÓÔỒỐỖỔÕṌȬṎŌṐṒŎȮȰÖȪỎŐǑȌȎƠỜỚỠỞỢỌỘǪǬØǾƆƟꝊꝌ]/g,
'OI' : /[Ƣ]/g,
'OO' : /[Ꝏ]/g,
'OU' : /[Ȣ]/g,
'P'  : /[PⓅＰṔṖƤⱣꝐꝒꝔ]/g,
'Q'  : /[QⓆＱꝖꝘɊ]/g,
'R'  : /[RⓇＲŔṘŘȐȒṚṜŖṞɌⱤꝚꞦꞂ]/g,
'S'  : /[SⓈＳẞŚṤŜṠŠṦṢṨȘŞⱾꞨꞄ]/g,
'T'  : /[TⓉＴṪŤṬȚŢṰṮŦƬƮȾꞆ]/g,
'TZ' : /[Ꜩ]/g,
'U'  : /[UⓊＵÙÚÛŨṸŪṺŬÜǛǗǕǙỦŮŰǓȔȖƯỪỨỮỬỰỤṲŲṶṴɄ]/g,
'V'  : /[VⓋＶṼṾƲꝞɅ]/g,
'VY' : /[Ꝡ]/g,
'W'  : /[WⓌＷẀẂŴẆẄẈⱲ]/g,
'X'  : /[XⓍＸẊẌ]/g,
'Y'  : /[YⓎＹỲÝŶỸȲẎŸỶỴƳɎỾ]/g,
'Z'  : /[ZⓏＺŹẐŻŽẒẔƵȤⱿⱫꝢ]/g,
'a'  : /[aⓐａẚàáâầấẫẩãāăằắẵẳȧǡäǟảåǻǎȁȃạậặḁąⱥɐ]/g,
'aa' : /[ꜳ]/g,
'ae' : /[æǽǣ]/g,
'ao' : /[ꜵ]/g,
'au' : /[ꜷ]/g,
'av' : /[ꜹꜻ]/g,
'ay' : /[ꜽ]/g,
'b'  : /[bⓑｂḃḅḇƀƃɓ]/g,
'c'  : /[cⓒｃćĉċčçḉƈȼꜿↄ]/g,
'd'  : /[dⓓｄḋďḍḑḓḏđƌɖɗꝺ]/g,
'dz' : /[ǳǆ]/g,
'e'  : /[eⓔｅèéêềếễểẽēḕḗĕėëẻěȅȇẹệȩḝęḙḛɇɛǝ]/g,
'f'  : /[fⓕｆḟƒꝼ]/g,
'g'  : /[gⓖｇǵĝḡğġǧģǥɠꞡᵹꝿ]/g,
'h'  : /[hⓗｈĥḣḧȟḥḩḫẖħⱨⱶɥ]/g,
'hv' : /[ƕ]/g,
'i'  : /[iⓘｉìíîĩīĭïḯỉǐȉȋịįḭɨı]/g,
'j'  : /[jⓙｊĵǰɉ]/g,
'k'  : /[kⓚｋḱǩḳķḵƙⱪꝁꝃꝅꞣ]/g,
'l'  : /[lⓛｌŀĺľḷḹļḽḻſłƚɫⱡꝉꞁꝇ]/g,
'lj' : /[ǉ]/g,
'm'  : /[mⓜｍḿṁṃɱɯ]/g,
'n'  : /[nⓝｎǹńñṅňṇņṋṉƞɲŉꞑꞥ]/g,
'nj' : /[ǌ]/g,
'o'  : /[oⓞｏòóôồốỗổõṍȭṏōṑṓŏȯȱöȫỏőǒȍȏơờớỡởợọộǫǭøǿɔꝋꝍɵ]/g,
'oi' : /[ƣ]/g,
'ou' : /[ȣ]/g,
'oo' : /[ꝏ]/g,
'p'  : /[pⓟｐṕṗƥᵽꝑꝓꝕ]/g,
'q'  : /[qⓠｑɋꝗꝙ]/g,
'r'  : /[rⓡｒŕṙřȑȓṛṝŗṟɍɽꝛꞧꞃ]/g,
's'  : /[sⓢｓßśṥŝṡšṧṣṩșşȿꞩꞅẛ]/g,
't'  : /[tⓣｔṫẗťṭțţṱṯŧƭʈⱦꞇ]/g,
'tz' : /[ꜩ]/g,
'u'  : /[uⓤｕùúûũṹūṻŭüǜǘǖǚủůűǔȕȗưừứữửựụṳųṷṵʉ]/g,
'v'  : /[vⓥｖṽṿʋꝟʌ]/g,
'vy' : /[ꝡ]/g,
'w'  : /[wⓦｗẁẃŵẇẅẘẉⱳ]/g,
'x'  : /[xⓧｘẋẍ]/g,
'y'  : /[yⓨｙỳýŷỹȳẏÿỷẙỵƴɏỿ]/g,
'z'  : /[zⓩｚźẑżžẓẕƶȥɀⱬꝣ]/g,
};
var str = this;
for(var latin in removalMap) {
var nonLatin = removalMap[latin];
str = str.replace(nonLatin , latin);
}
return str;
}

Il utilise de vrais caractères au lieu de l'unicode liste et fonctionne bien.

Vous pouvez l'utiliser comme

"ąąą".removeAccents(); //returns "aaa"

Vous pouvez facilement convertir cette fonction pour ne pas être la chaîne de prototype. Cependant, comme je suis fan de l'utilisation de la chaîne de prototype dans de tels cas, vous devrez le faire vous-même.

Malheureusement, c'est relativement inefficace, avec beaucoup de regexes dans une boucle.

InformationsquelleAutor pie6k

4

Il y a longtemps je l'ai fait en Java et trouvé quelqu'un d'autre solution basée sur une chaîne unique qui capte une partie de l'Unicode table qui a été important pour la conversion - le reste a été converti ? ou tout autre caractère de remplacement. J'ai donc essayé de le convertir en JavaScript. L'esprit que je ne suis pas un expert JS. 🙂
```
TAB_00C0 = "AAAAAAACEEEEIIII" +
"DNOOOOO*OUUUUYIs" +
"aaaaaaaceeeeiiii" +
"?nooooo/ouuuuy?y" +
"AaAaAaCcCcCcCcDd" +
"DdEeEeEeEeEeGgGg" +
"GgGgHhHhIiIiIiIi" +
"IiJjJjKkkLlLlLlL" +
"lLlNnNnNnnNnOoOo" +
"OoOoRrRrRrSsSsSs" +
"SsTtTtTtUuUuUuUu" +
"UuUuWwYyYZzZzZzF";
function stripDiacritics(source) {
var result = source.split('');
for (var i = 0; i < result.length; i++) {
var c = source.charCodeAt(i);
if (c >= 0x00c0 && c <= 0x017f) {
result[i] = String.fromCharCode(TAB_00C0.charCodeAt(c - 0x00c0));
} else if (c > 127) {
result[i] = '?';
}
}
return result.join('');
}
stripDiacritics("Šupa, čo? ľšťčžýæøåℌð")
```
Ce convertit la plupart des latin1+2 caractères Unicode. Il n'est pas en mesure de traduire unique char à plusieurs. Je ne connais pas ses performances sur les JS, Java c'est de loin la manière la plus rapide de solutions communes (6-50x), il n'y a pas de carte, il n'y a pas de regex, rien. Il produit stricte sortie ASCII, potentiellement avec une perte d'information, mais la taille de la sortie correspond à l'entrée.

J'ai testé l'extrait de code avec http://www.webtoolkitonline.com/javascript-tester.html et il produit Supa, co? lstczyaoa?? comme prévu.
- C'est assez chouette. Merci pour le partage!
InformationsquelleAutor virgo47
4

Pas une seule réponse mentionne String.localeCompare, qui arrive à faire exactement ce que vous vouliez à l'origine, mais pas ce que vous demandez.
```
var list = ['a', 'b', 'c', 'o', 'u', 'z', 'ä', 'ö', 'ü'];
list.sort((a, b) => a.localeCompare(b));
console.log(list);
//Outputs ['a', 'ä', 'b', 'c', 'o', 'ö', 'u', 'ü', 'z']
```
Le deuxième et le troisième paramètre ne sont pas pris en charge par les navigateurs plus anciens, cependant. C'est une option à considérer néanmoins.
- Petit plus! Dans ce cas particulier, il n'a eu aucune influence sur comment les chaînes de caractères ont été comparés, comme cela est fait par TableSorter en interne. Je ne pouvais influence ce chaînes que je veux utiliser. Par conséquent, le remplacement d'eux était la seule option à la fois. Peut-être des versions plus modernes de TableSorter avoir une meilleure gestion interne de ces choses.
- J'ai ajouté une mention spéciale de cette réponse à la question.
InformationsquelleAutor Prinzhorn

Je voulais juste poster ma solution à l'aide String#localeCompare

JS:

const base_chars = [
'1', '2', '3', '4', '5', '6', '7', '8', '9',
'0', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h',
'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q',
'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z',
'-', '_', ' '
];
const fix = str => str.normalize('NFKD').split('')
.map(c => base_chars.find(bc => bc.localeCompare(c, 'en', { sensitivity: 'base' })==0))
.join('');
const str = 'OÒ óëå-123';
console.log(`fix(${str}) = ${fix(str)}`);

InformationsquelleAutor dinigo

2

Si vous souhaitez obtenir de tri où "ä" vient après "a" et n'est pas considéré comme le même, alors vous pouvez utiliser une fonction comme la mienne.

Vous pouvez toujours changer l'alphabet pour obtenir différents ou de même bizarre de tris. Toutefois, si vous souhaitez quelques lettres équivalentes, alors vous devez manipuler les chaînes de caractères comme a = a.replace(/ä/, 'a') ou similaire, comme beaucoup l'ont déjà répondu ci-dessus. J'ai inclus les lettres majuscules si quelqu'un veut avoir toutes les majuscules des mots avant de minuscules mots (alors vous devez omettre .toLowerCase()).
```
function sortbyalphabet(a,b) {
alphabet = "0123456789AaÀàÁáÂâÃãÄäBbCcÇçDdÈèÉéÊêËëFfGgHhÌìÍíÎîÏïJjKkLlMmNnÑñOoÒòÓóÔôÕõÖöPpQqRrSsTtÙùÚúÛûÜüVvWwXxÝýŸÿZz";
a = a.toLowerCase();
b = b.toLowerCase();
shorterone = (a.length > b.length ? a : b);
for (i=0; i<shorterone.length; i++){
diff = alphabet.indexOf(a.charAt(i)) - alphabet.indexOf(b.charAt(i));
if (diff!=0){
return diff;
}
}
//sort the shorter first
return a.length - b.length;
}
var n = ["ast", "Äste", "apfel", "äpfel", "à"];
console.log(n.sort(sortbyalphabet));
//should return ["apfel", "ast", "à", "äpfel", "äste"]
```
- L'idée est bonne, la mise en œuvre peut être amélioré. 1) Vous n'avez pas utilisé le var mot-clé. Cela signifie que chaque variable que vous déclarez est mondiale. Ce n'est certainement pas ce que vous aviez à l'esprit (il n'est pas automatique de la portée de la fonction en JS). Oublier var fait de méchants bugs. 2) Vous devez utiliser une fermeture au lieu de re-définition de l'alphabet à chaque appel de fonction. 3) Vous n'avez ni la vérification du type et ni stricte des comparaisons. - J'ai créé une version optimisée de votre fonction ici: jsperf.com/collation-string-sorting. À la fois sur Chrome et IE c'est près de 4 fois plus vite que votre approche.
InformationsquelleAutor jakov

Une manière simple et facile:

function remove-accents(p){
c='áàãâäéèêëíìîïóòõôöúùûüçÁÀÃÂÄÉÈÊËÍÌÎÏÓÒÕÖÔÚÙÛÜÇ';s='aaaaaeeeeiiiiooooouuuucAAAAAEEEEIIIIOOOOOUUUUC';n='';for(i=0;i<p.length;i++){if(c.search(p.substr(i,1))>=0){n+=s.substr(c.search(p.substr(i,1)),1);} else{n+=p.substr(i,1);}} return n;
}

Donc faire ceci:

remove-accents("Thís ís ân accêntéd phráse");

De sortie:

"This is an accented phrase"

InformationsquelleAutor Kelvin Marques

2

Réponse os Crisalin est presque parfait. Seulement une amélioration de la performance afin d'éviter de créer de nouveaux RegExp à chaque exécution.
```
var normalizeConversions = [
{ regex: new RegExp('ä|æ|ǽ', 'g'), clean: 'ae' },
{ regex: new RegExp('ö|œ', 'g'), clean: 'oe' },
{ regex: new RegExp('ü', 'g'), clean: 'ue' },
{ regex: new RegExp('Ä', 'g'), clean: 'Ae' },
{ regex: new RegExp('Ü', 'g'), clean: 'Ue' },
{ regex: new RegExp('Ö', 'g'), clean: 'Oe' },
{ regex: new RegExp('À|Á|Â|Ã|Ä|Å|Ǻ|Ā|Ă|Ą|Ǎ', 'g'), clean: 'A' },
{ regex: new RegExp('à|á|â|ã|å|ǻ|ā|ă|ą|ǎ|ª', 'g'), clean: 'a' },
{ regex: new RegExp('Ç|Ć|Ĉ|Ċ|Č', 'g'), clean: 'C' },
{ regex: new RegExp('ç|ć|ĉ|ċ|č', 'g'), clean: 'c' },
{ regex: new RegExp('Ð|Ď|Đ', 'g'), clean: 'D' },
{ regex: new RegExp('ð|ď|đ', 'g'), clean: 'd' },
{ regex: new RegExp('È|É|Ê|Ë|Ē|Ĕ|Ė|Ę|Ě', 'g'), clean: 'E' },
{ regex: new RegExp('è|é|ê|ë|ē|ĕ|ė|ę|ě', 'g'), clean: 'e' },
{ regex: new RegExp('Ĝ|Ğ|Ġ|Ģ', 'g'), clean: 'G' },
{ regex: new RegExp('ĝ|ğ|ġ|ģ', 'g'), clean: 'g' },
{ regex: new RegExp('Ĥ|Ħ', 'g'), clean: 'H' },
{ regex: new RegExp('ĥ|ħ', 'g'), clean: 'h' },
{ regex: new RegExp('Ì|Í|Î|Ï|Ĩ|Ī|Ĭ|Ǐ|Į|İ', 'g'), clean: 'I' },
{ regex: new RegExp('ì|í|î|ï|ĩ|ī|ĭ|ǐ|į|ı', 'g'), clean: 'i' },
{ regex: new RegExp('Ĵ', 'g'), clean: 'J' },
{ regex: new RegExp('ĵ', 'g'), clean: 'j' },
{ regex: new RegExp('Ķ', 'g'), clean: 'K' },
{ regex: new RegExp('ķ', 'g'), clean: 'k' },
{ regex: new RegExp('Ĺ|Ļ|Ľ|Ŀ|Ł', 'g'), clean: 'L' },
{ regex: new RegExp('ĺ|ļ|ľ|ŀ|ł', 'g'), clean: 'l' },
{ regex: new RegExp('Ñ|Ń|Ņ|Ň', 'g'), clean: 'N' },
{ regex: new RegExp('ñ|ń|ņ|ň|ŉ', 'g'), clean: 'n' },
{ regex: new RegExp('Ò|Ó|Ô|Õ|Ō|Ŏ|Ǒ|Ő|Ơ|Ø|Ǿ', 'g'), clean: 'O' },
{ regex: new RegExp('ò|ó|ô|õ|ō|ŏ|ǒ|ő|ơ|ø|ǿ|º', 'g'), clean: 'o' },
{ regex: new RegExp('Ŕ|Ŗ|Ř', 'g'), clean: 'R' },
{ regex: new RegExp('ŕ|ŗ|ř', 'g'), clean: 'r' },
{ regex: new RegExp('Ś|Ŝ|Ş|Š', 'g'), clean: 'S' },
{ regex: new RegExp('ś|ŝ|ş|š|ſ', 'g'), clean: 's' },
{ regex: new RegExp('Ţ|Ť|Ŧ', 'g'), clean: 'T' },
{ regex: new RegExp('ţ|ť|ŧ', 'g'), clean: 't' },
{ regex: new RegExp('Ù|Ú|Û|Ũ|Ū|Ŭ|Ů|Ű|Ų|Ư|Ǔ|Ǖ|Ǘ|Ǚ|Ǜ', 'g'), clean: 'U' },
{ regex: new RegExp('ù|ú|û|ũ|ū|ŭ|ů|ű|ų|ư|ǔ|ǖ|ǘ|ǚ|ǜ', 'g'), clean: 'u' },
{ regex: new RegExp('Ý|Ÿ|Ŷ', 'g'), clean: 'Y' },
{ regex: new RegExp('ý|ÿ|ŷ', 'g'), clean: 'y' },
{ regex: new RegExp('Ŵ', 'g'), clean: 'W' },
{ regex: new RegExp('ŵ', 'g'), clean: 'w' },
{ regex: new RegExp('Ź|Ż|Ž', 'g'), clean: 'Z' },
{ regex: new RegExp('ź|ż|ž', 'g'), clean: 'z' },
{ regex: new RegExp('Æ|Ǽ', 'g'), clean: 'AE' },
{ regex: new RegExp('ß', 'g'), clean: 'ss' },
{ regex: new RegExp('Ĳ', 'g'), clean: 'IJ' },
{ regex: new RegExp('ĳ', 'g'), clean: 'ij' },
{ regex: new RegExp('Œ', 'g'), clean: 'OE' },
{ regex: new RegExp('ƒ', 'g'), clean: 'f' }
];
```
Utilisation:
```
function(str){
normalizeConversions.forEach(function(normalizeEntry){
str = str.replace(normalizeEntry.regex, normalizeEntry.clean);
});
return str;
};
```
- Je pense que vous pouvez économiser de l'espace, en utilisant les regex littéraux, et les classes de caractères sont plus efficaces que les alternances. Le réel gain de performance sera de l'exécution de tant de regexes sur la même chaîne. Regex est lente. 100 regexes sont lents*100. Il est beaucoup plus efficace pour exécuter une seule expression régulière qui correspond à 100 caractères et chercher le remplacement, à l'instar de la accepté de répondre à t-il, que c'est à exécuter 100 regexes dans une boucle. En plus de cela, JS chaînes sont immuables, de sorte que vous allouez (nombre de regexes-1) jeter des chaînes de caractères avec cette approche, ce qui est assez inutile, trop.
- Il y a 2 choses ici: la mémoire et les performances de traitement. À propos de l'utilisation de la mémoire, vous avez raison, cette approche allouer plus de mémoire, mais aujourd'hui, tous les appareils ont beaucoup de mémoire et ce n'est pas que la quantité de mémoire à allouer. À propos des performances de traitement, je pense que vous vous trompez. Je ne suis pas de correspondance de 100 caractères et de regarder pour le remplacement. Je suis en train de faire exactement la même chose de Crisalin réponse, mais au lieu de créer une RegExp à chaque tour de boucle d'incrément, j'ai créer une fois les réutiliser à chaque appel. Utiliser un peu plus de mémoire, mais beaucoup plus rapide.
- Vous postulez 100 (ok, actuellement de 50) regexes dans une boucle, crée sans cesse de nouvelles chaînes dans le processus. Ceci est inefficace. De l'essayer. Essayez-le avec des chaînes longues, trop.
- Je ne comprends pas d'où ma réponse a pire performance de Crisalin Petrovschi réponse. Je suis en train de faire exactement la même chose, mais plus rapidement. Pas à dire, c'est le meilleur, mais c'est une amélioration de Crisalin solution et c'était le seul but de ma réponse.
- Cela pourrait être. Je ne suis pas la comparaison de vos approches. Tout ce que je fais remarquer dans votre approche s'applique aussi bien. (Il y a un cache global pour les expressions régulières, crée sans cesse les mêmes que ceux n'affecte pas les performances aussi mal que vous le pensez.)
- Où est la spécification de cette regex cache global? Jamais rien entendu à ce sujet. Et btw, regexes ne tardent pas comme vous le pensez, ils sont très rapides, en fait, tout dépend de la façon dont vous écrivez. Mais de toute façon, j'étais juste à l'amélioration de Crisalin réponse et non pas en la comparant avec la accepté de répondre.
- Je ne vais pas argumenter avec vous. La mise en cache est spécifique à l'implémentation, il n'y a pas de "cahier des charges" pour que dans la langue. N'hésitez pas à jeter un oeil à ce que node.js n' (source). Il est raisonnable de supposer que les opérations coûteuses, comme la création d'un objet regex sont mis en cache dans la plupart des autres JS implémentations.
- Je ne suis pas d'argumenter avec vous, j'ai été franchement intéressé et sur le point de supprimer ma réponse parce que si ce que vous dites est vrai, Crisalin réponse a les mêmes performances que la mienne. Mais nous ne pouvons pas le programme en supposant que les choses, donc je vais garder ma réponse.
- C'est absolument parfait. Je n'étais pas en train de vous faire supprimer votre réponse.
InformationsquelleAutor rmpt
1

Je ne peux pas penser à un moyen plus facile pour enlever efficacement les tous signes diacritiques, à partir d'une chaîne que l'utilisation de ce solution étonnante.

Le voir en action:

JS:
```
var string = "öäüÖÄÜ";
var string_norm = string.normalize('NFD').replace(/[\u0300-\u036f]/g, '');
console.log(string_norm);
```
Espère que cela aide.
- Déjà abordé dans une autre réponse dans ce fil. stackoverflow.com/a/23767389/18771
- C'est vrai, je n'ai pas le remarquer. De toute façon, je ne suis pas supprimer ma réponse, parce que je pense qu'il est préférable d'utiliser des "DNF" au lieu de "NFKD". De Plus, j'ai un extrait. :p
InformationsquelleAutor Takit Isy

Je l'ai résolu d'une autre façon, si vous le souhaitez.

Ici, j'ai utilisé deux tableaux où searchChars contenant qui sera remplacé et replaceChars contenant des caractères désirés.

JS:

var text = "your input string";
var searchChars = ['Å','Ä','å','Ö','ö']; //add more charecter.
var replaceChars = ['A','A','a','O','o']; //exact same index to searchChars.
var index;
for (var i = 0; i < text.length; i++) {
if( $.inArray(text[i], searchChars) >-1 ){ //$.inArray() is from jquery.
index = searchChars.indexOf(text[i]);
text = text.slice(0, i) + replaceChars[index] + text.slice(i+1,text.length);
}
}

C'est extrêmement inefficace. Vous seriez bien avisé de choisir l'une des autres solutions.

InformationsquelleAutor Samiul

Vous devez vous connecter pour publier un commentaire.