Comment dois-je faire un casse comparaison de chaînes de caractères?

Comment puis-je faire de la casse comparaison de chaînes de caractères en Python?

Je tiens à encapsuler comparaison régulière des chaînes à un référentiel de chaîne à l'aide dans un très simple et Pythonic façon. Je voudrais aussi avoir la capacité à rechercher des valeurs dans une dict haché par les chaînes de l'utilisation de python chaînes.

InformationsquelleAutor Kozyarchuk | 2008-11-26

507

En supposant que les chaînes ASCII:
```
string1 = 'Hello'
string2 = 'hello'

if string1.lower() == string2.lower():
    print("The strings are the same (case insensitive)")
else:
    print("The strings are NOT the same (case insensitive)")
```
- Cela ne fonctionne pas toujours. Considérer pour exanmple qu'il y a deux grecque sigma, on a seulement utilisé à la fin. La chaîne Σίσυφος (“Sísyphos”, ou mieux “Síſyphos”) a tous les trois: majuscules à l'avant, minuscules final à la fin, et en minuscule nonfinal à la troisième position. Si vos deux chaînes sont Σίσυφος et ΣΊΣΥΦΟΣ, alors votre approche ne tient pas, car ceux-ci sont censés être de la même affaire sans la moindre sensibilité.
- Les deux derniers intervenants: je pense qu'il est juste de supposer que les deux chaînes sont des chaînes ascii. Si vous êtes à la recherche d'une réponse à quelque chose d'un peu plus excitant, je suis sûr que c'est là-bas (ou vous pouvez lui demander).
- L' .lower() approche de travail en Python 3, pour les deux grecs chaînes mentionnés ci-dessus, au moins. Voir ma réponse pour plus de détails.
- Existe-il des exemples où la .lower() approche ne fonctionne pas en Python 3? L'exemple grec vous ai donné semble bien fonctionner dans Python 3. Aussi, ce serait super si vous pouviez poster une solution qui ne poignée de ces cas limites correctement, même si c'est à l'aide d'un module tiers comme pyICU.
- Problème: 'ß'.lower() == 'SS'.lower() est Faux.
- pourquoi ce serait un problème? en.wikipedia.org/wiki/Capital_%E1%BA%9E semble être abaissé correctement.
- Les lettres grecques n'est pas le seul cas particulier! En anglais AMÉRICAIN, le caractère "i" (\u0069) est la version minuscule de la lettre "I" (\u0049). Cependant, le turc ("tr-TR") alphabet comprend un "je avec un point" caractère "I" (\u0130), qui est la capitale de la version de "je" et "je" est le captical version de "i sans point le caractère", "i" (\u0131).
- que l'article de Wikipedia est assez clair que, selon la plupart des Allemands, "Capital " Eszett" n'est pas une vraie lettre. Il est encodé en Unicode, de sorte qu'une représentation pour certains typographiques curiosités, mais c'est sans importance pour KennyTM point. (Qui est, vous êtes en arguant que l'allemand et le turc doit changer leurs systèmes d'écriture pour mieux jouer avec un Python de la sémantique, mais c'est plus l'habitude d'argumenter le contraire: que Python doit trouver un moyen de traiter l'allemand et le turc systèmes d'écriture, car ils sont utilisés par de vrais allemands et turcs.)
- comment est-il sûr (ou juste) à assumer les chaînes ascii? La question ne précise pas, et si les cordes sont à tout point d'entrée par ou montrer à un utilisateur, vous devriez être en appui à l'internationalisation. Peu importe, les nouveaux programmeurs sera la lecture de ce et nous devrions leur donner la véritable réponse correcte.
- Pour les commentateurs ci-dessus, cette réponse est très bien. Il fonctionne très bien. Si vous souhaitez passer des non-anglais langues latine, grecque, les langues, les langues utilisant l'alphabet Cyrillique, l'arménien langues, ou d'étranges personnages, puis voir @Veedrac 's réponse.
- En d'autres termes, cette réponse n'est parfait lorsque vous avez affaire à un texte qui est vraiment exclusivement en anglais. Pour la plupart des gens, à savoir les personnes dont la langue maternelle n'est pas l'anglais, les gens qui ont à traiter avec l10n/i18n les enjeux, et les personnes qui ont à traiter avec Unicode entrée de l'assainissement, ce qui signifie que cette réponse est mal.
- oui. Il ne fonctionne pas, même pour les "exclusivement en anglais" un texte, par exemple, "ﬁsh".casefold() == "Fish".casefold() les travaux, tandis que .lower() échoue ici. S'il peut y avoir des cas même .casefold() n'est pas suffisant
- Alors la réponse est en grande partie inutile dans tout contexte professionnel. C'est pas la bonne façon de comparer des chaînes de caractères dans une casse. C'est une solution de contournement qui ne se casse pas dans certains cas spécifiques.
- Vous avez raison, c'est inutile dans un contexte professionnel. Aucun client souhaite un algorithme qui va casser si facilement non conventionnels ou non-anglais d'entrée. Mais pour des fins personnelles, cet algorithme est pratique et parfaitement bien.
- comme c'était à espérer, en juin 2017, le ß est devenue officielle de l'orthographe allemande. La question de l'algorithme reste toutefois incorrect, par exemple à cause de l'exemple turc et d'autres.
InformationsquelleAutor Harley Holcombe
419

Comparaison de chaîne de caractères dans une casse manière semble comme quelque chose de banal, mais il ne l'est pas. Je serai à l'aide de Python 3, depuis le Python 2 est sous-développé ici.

La première chose à noter, il que le cas-la suppression des conversions unicode ne sont pas triviales. Il y a du texte pour lequel text.lower() != text.upper().lower(), comme "ß":
```
"ß".lower()
#>>> 'ß'

"ß".upper().lower()
#>>> 'ss'
```
Mais disons que vous vouliez caselessly comparer "BUSSE" et "Buße". Heck, vous avez probablement vous aussi souhaitez comparer "BUSSE" et "BUẞE" égalité - c'est la nouvelle forme de capital. La méthode recommandée consiste à utiliser casefold:
```
help(str.casefold)
#>>> Help on method_descriptor:
#>>>
#>>> casefold(...)
#>>>     S.casefold() -> str
#>>>     
#>>>     Return a version of S suitable for caseless comparisons.
#>>>
```
N'utilisez pas simplement lower. Si casefold n'est pas disponible, faire .upper().lower() aide (mais seulement un peu).

Alors vous devriez envisager d'accents. Si votre police rendu est bon, vous pensez probablement "ê" == "ê" - mais il n'a pas d':
```
"ê" == "ê"
#>>> False
```
C'est parce qu'ils sont en fait
```
import unicodedata

[unicodedata.name(char) for char in "ê"]
#>>> ['LATIN SMALL LETTER E WITH CIRCUMFLEX']

[unicodedata.name(char) for char in "ê"]
#>>> ['LATIN SMALL LETTER E', 'COMBINING CIRCUMFLEX ACCENT']
```
La façon la plus simple de traiter cette question est unicodedata.normalize. Vous voudrez probablement utiliser NFKD à la normalisation, mais n'hésitez pas à consulter la documentation. Alors on ne
```
unicodedata.normalize("NFKD", "ê") == unicodedata.normalize("NFKD", "ê")
#>>> True
```
Pour finir, voici ce qui est exprimé dans les fonctions de:
```
import unicodedata

def normalize_caseless(text):
    return unicodedata.normalize("NFKD", text.casefold())

def caseless_equal(left, right):
    return normalize_caseless(left) == normalize_caseless(right)
```
- Une meilleure solution consiste à normaliser tous vos chaînes sur la consommation, alors vous pouvez simplement faire x.casefold() == y.casefold() pour la casse des comparaisons (et, plus important encore, x == y pour la casse).
- En effet, selon le contexte - il est parfois préférable de laisser la source intacte, mais l'avance de normalisation peut également faire plus tard un code beaucoup plus simple.
- Vous avez raison, il n'est pas toujours approprié; si vous avez besoin pour être en mesure à la sortie de la source d'origine inchangé (par exemple, parce que vous avez affaire avec des noms de fichiers sous Linux, où NKFC et NKFD sont à la fois permis et explicitement censé être différent), vous pouvez bien évidemment pas le transformer en entrée...
- Standard Unicode section 3.13 a deux autres définitions pour les sans douille de comparaisons: (D146, canonique) NFD(toCasefold(NFD(str))) sur les deux côtés et (D147, compatibilité) NFKD(toCasefold(NFKD(toCasefold(NFD(X))))) sur les deux côtés. Il précise l'intérieur NFD est le seul à gérer un certain grec caractère accentué. Je suppose que c'est sur le bord de cas.
- Et un peu de plaisir avec l'alphabet Cherokee, où casefold() va en majuscules:>>> "ᏚᎢᎵᎬᎢᎬᏒ".upper() 'ᏚᎢᎵᎬᎢᎬᏒ" >>> "ᏚᎢᎵᎬᎢᎬᏒ".lower() 'ꮪꭲꮅꭼꭲꭼꮢ" >>> "ᏚᎢᎵᎬᎢᎬᏒ".casefold() 'ᏚᎢᎵᎬᎢᎬᏒ" >>>
- Si vous êtes à l'aide de Python 2, vous voudrez peut-être consulter py2casefold pour obtenir l'manquant casefold fonctionnalité.
InformationsquelleAutor Veedrac
57

À l'aide de Python 2, appelant .lower() sur chaque chaîne Unicode ou un objet...
```
string1.lower() == string2.lower()
```
...fonctionne la plupart du temps, mais en effet ne fonctionne pas dans le les situations @tchrist a décrit.

Supposons que nous avons un fichier appelé unicode.txt contenant les deux chaînes Σίσυφος et ΣΊΣΥΦΟΣ. Avec Python 2:
```
>>> utf8_bytes = open("unicode.txt", 'r').read()
>>> print repr(utf8_bytes)
'\xce\xa3\xce\xaf\xcf\x83\xcf\x85\xcf\x86\xce\xbf\xcf\x82\n\xce\xa3\xce\x8a\xce\xa3\xce\xa5\xce\xa6\xce\x9f\xce\xa3\n'
>>> u = utf8_bytes.decode('utf8')
>>> print u
Σίσυφος
ΣΊΣΥΦΟΣ

>>> first, second = u.splitlines()
>>> print first.lower()
σίσυφος
>>> print second.lower()
σίσυφοσ
>>> first.lower() == second.lower()
False
>>> first.upper() == second.upper()
True
```
L'Σ caractère a deux minuscules formes, ς et σ, et .lower() ne va pas aider à les comparer au cas insensiblement.

Cependant, comme de Python 3, tous les trois formes résoudre à ς, et de l'appel de lower() sur les deux chaînes fonctionne correctement:
```
>>> s = open('unicode.txt', encoding='utf8').read()
>>> print(s)
Σίσυφος
ΣΊΣΥΦΟΣ

>>> first, second = s.splitlines()
>>> print(first.lower())
σίσυφος
>>> print(second.lower())
σίσυφος
>>> first.lower() == second.lower()
True
>>> first.upper() == second.upper()
True
```
Donc, si vous vous souciez de bord-cas, comme les trois sigmas en grec, l'utilisation de Python 3.

(Pour référence, Python 2.7.3 et Python 3.3.0b1 sont affichés dans l'interpréteur impressions ci-dessus).
- Pour faire la comparaison encore plus robuste, en commençant avec Python 3.3, vous pouvez utiliser casefold (p. ex., d'abord.casefold() == seconde.casefold()). Pour Python 2 vous pouvez utiliser PyICU (voir aussi: icu-project.org/apiref/icu4c/...)
InformationsquelleAutor Nathan Craike
29

L'article 3.13 de la norme Unicode définit les algorithmes pour sans douille
de correspondance.

X.casefold() == Y.casefold() en Python 3 met en œuvre le "par défaut sans douille de correspondance" (D144).

Casefolding ne permet pas de conserver la normalisation des chaînes dans tous les cas et, par conséquent, la normalisation doit être fait ('å' vs 'å'). D145 introduit "canonique sans douille de correspondance":
```
import unicodedata

def NFD(text):
    return unicodedata.normalize('NFD', text)

def canonical_caseless(text):
    return NFD(NFD(text).casefold())
```
NFD() est appelé deux fois pour de très rares cas de bord impliquant U+0345 caractère.

Exemple:
```
>>> 'å'.casefold() == 'å'.casefold()
False
>>> canonical_caseless('å') == canonical_caseless('å')
True
```
Il y a également une compatibilité sans douille de correspondance (D146) pour les cas comme '㎒' (U+3392) et "identifiant sans douille matching" afin de simplifier et d'optimiser sans douille de correspondance d'identifiants.
- C'est la meilleure réponse pour Python 3, parce que Python 3 utilise des chaînes Unicode et la réponse qui décrit comment le standard Unicode définit sans douille correspondance de chaîne.
- Malheureusement, comme de Python 3.6, le casefold() fonction ne permet pas de mettre en œuvre le cas particulier du traitement de majuscule I et parsemée de majuscule I comme décrit dans la Affaire Propriétés de Pliage. Par conséquent, la comparaison peut échouer pour les mots de Turc, les langues qui contiennent ces lettres. Par exemple, canonical_caseless('LİMANI') == canonical_caseless('limanı') doit retourner True, mais il renvoie False. Actuellement, la seule façon de traiter avec ce Python est d'écrire un casefold wrapper ou externe Unicode bibliothèque, comme PyICU.
- se comporte comme il le devrait, dans la mesure où je peux dire. À partir de la norme: "la valeur par défaut boîtier opérations sont prévues pour une utilisation dans le absence de la couture pour les langues et environnements". Boîtier règles pour la turquie en pointillés I majuscule et sans point petit j'sont dans SpecialCasing.txt. "Pour les non-langues Turques, cette cartographie n'est normalement pas utilisée." De l'Unicode FAQ: Q: Pourquoi n'existe-il pas extra caractères codés à l'appui indépendant des paramètres régionaux boîtier pour le turc?
- Je n'ai pas dit que casefold() se comporte mal. Il n'aurait tout simplement être pratique si elle a mis en place un paramètre facultatif qui a permis le traitement spécial de majuscules et de pointillés en majuscules I. Par exemple, la manière de le foldCase() dans l'unité de soins intensifs de bibliothèque n': "un Cas de pliage est indépendant des paramètres régionaux et non sensibles au contexte, mais il y a une option pour choisir d'inclure ou d'exclure des mappages pour parsemée je et sans point i qui sont marqués avec 'T' dans CaseFolding.txt."
InformationsquelleAutor jfs

J'ai vu cette solution ici à l'aide de regex.

import re
if re.search('mandy', 'Mandy Pande', re.IGNORECASE):
# is True

Il fonctionne bien avec des accents

In [42]: if re.search("ê","ê", re.IGNORECASE):
....:        print(1)
....:
1

Toutefois, il ne fonctionne pas avec les caractères unicode non sensible à la casse. Merci @Rhymoid de remarquer que ma compréhension est qu'il a besoin de symbole exact, pour que l'affaire soit vrai. Le résultat est le suivant:

In [36]: "ß".lower()
Out[36]: 'ß'
In [37]: "ß".upper()
Out[37]: 'SS'
In [38]: "ß".upper().lower()
Out[38]: 'ss'
In [39]: if re.search("ß","ßß", re.IGNORECASE):
....:        print(1)
....:
1
In [40]: if re.search("SS","ßß", re.IGNORECASE):
....:        print(1)
....:
In [41]: if re.search("ß","SS", re.IGNORECASE):
....:        print(1)
....:

Le fait que ß ne se trouve pas dans SS avec de la casse de la recherche est la preuve qu'il ne fonctionne pas travailler avec les caractères Unicode tous.

InformationsquelleAutor Shiwangi

3

L'approche habituelle est pour les chaînes de caractères en majuscules ou en minuscules pour les recherches et les comparaisons. Par exemple:
```
>>> "hello".upper() == "HELLO".upper()
True
>>> 
```
InformationsquelleAutor Andru Luvisi
3

Comment convertir en minuscules, d'abord? vous pouvez utiliser string.lower().
- Vous ne pouvez pas comparer leurs minuscules cartes: Σίσυφος et ΣΊΣΥΦΟΣ ne serait pas test équivalent, mais le devrait.
InformationsquelleAutor Camilo Díaz Repka
0

C'est une autre regex que j'ai appris à aimer/détester au cours de la dernière semaine, donc en général d'importation (dans ce cas oui) quelque chose qui reflète ce que je ressens!
faire une fonction normale.... demandez l'entrée, puis l'utiliser ....quelque chose = re.compile(r'foo*|spam*', oui.J')...... re.J' (oui.I ci-dessous) est la même que IGNORECASE mais tu ne peux pas faire autant d'erreurs à l'écrire!

Vous alors à la recherche de votre message en utilisant les regex mais honnêtement, qui devrait être de quelques pages dans son propre , mais le point est que foo ou de spam sont reliées ensemble et la casse est ignorée.
Alors si l'un et l'autre sont alors lost_n_found d'affichage, l'un d'eux. si ni puis lost_n_found est égal. Si elle n'est pas égal à aucun retour de la user_input en minuscules à l'aide de "retour lost_n_found.lower()"

Cela vous permet de vous beaucoup plus facilement correspondre à quelque chose des thats va être sensible à la casse. Enfin (NCS) signifie "personne ne se soucie sérieusement...!" ou pas sensibles à la casse....selon

si quelqu'un a des questions à me faire sur ce..
```
    import re as yes

    def bar_or_spam():

        message = raw_input("\nEnter FoO for BaR or SpaM for EgGs (NCS): ") 

        message_in_coconut = yes.compile(r'foo*|spam*',  yes.I)

        lost_n_found = message_in_coconut.search(message).group()

        if lost_n_found != None:
            return lost_n_found.lower()
        else:
            print ("Make tea not love")
            return

    whatz_for_breakfast = bar_or_spam()

    if whatz_for_breakfast == foo:
        print ("BaR")

    elif whatz_for_breakfast == spam:
        print ("EgGs")
```
InformationsquelleAutor Ali Paul

-1

def insenStringCompare(s1, s2):
    """ Method that takes two strings and returns True or False, based
        on if they are equal, regardless of case."""
    try:
        return s1.lower() == s2.lower()
    except AttributeError:
        print "Please only pass strings into this method."
        print "You passed a %s and %s" % (s1.__class__, s2.__class__)

Vous remplacez une exception par un message imprimé sur la sortie standard, puis retour None, ce qui est Faux. C'est très peu utile dans la pratique.

InformationsquelleAutor Patrick Harrington

-8

Si vous avez des listes avec des cordes et que vous voulez comparer les chaînes de la liste différente avec de la casse. Voici ma solution.
```
list1 = map(lambda each:each.lower(), list1)
list2 = map(lambda each:each.lower(), list2)
```
Après avoir fait cela, vous pouvez faire de la chaîne de comparaison facile.

InformationsquelleAutor caesar
-8

J'ai utilisé ce pour accomplir quelque chose de plus utile pour comparer deux chaînes de caractères:
```
def strings_iequal(first, second):
    try:
        return first.upper() == second.upper()
    except AttributeError:
        if not first:
            if not second:
                return True
```
Mise à jour: Comme l'a noté gerrit, cette réponse a quelques bugs. C'était il y a des années et je ne me souviens plus de ce que j'ai utilisé pour cela. Je me souviens d'écrire des tests, mais à quoi bon, ils sont désormais!
- J'aimerais avoir une discussion sur les raisons de cette permanence est voté, car il fonctionne. Peut-être le fait qu'il teste si les deux chaînes de l'existence même, il n'a pas exactement de répondre à la question?
- Cette solution se cache bugs. Imaginez si j'ai un bug et accidentellement passer strings_iequal("1", 1). Le résultat sera None. Cependant, si je passe strings_iequal("", 0), le résultat sera True. Je ne sais pas ce que vous voulez atteindre avec le bloc à l'intérieur de la except-partie.
InformationsquelleAutor Chris

Vous devez vous connecter pour publier un commentaire.