L'obtention d'une seule de caractères d'une chaîne

Je veux obtenir le premier caractère d'une std::str. La méthode char_at() est actuellement instable, comme c'est slice_chars dans std::string::String.

La seule option que j'ai actuellement est la suivante.

let text = "hello world!";
let char_vec:Vec<char> = text.chars().collect();
let ch = char_vec[0];

Mais cela semble excessif pour obtenir juste un seul caractère, et ne pas utiliser le reste du vecteur.

OriginalL'auteur Aaronepower | 2015-06-12

rust string

38

UTF-8 ne permet pas de définir ce "personnage" est donc, cela dépend de ce que vous voulez. Dans ce cas, chars sont en Unicode des valeurs scalaires, et donc la première char d'un &str va être entre un et quatre octets.

Si vous voulez juste la première char, alors ne pas recueillir dans un Vec<char>, il suffit d'utiliser l'itérateur:
```
let text = "hello world!";
let ch = text.chars().next().unwrap();
```
Vous pouvez également regarder si vous voulez vraiment le premier graphème.
Cela donne à la nle code de l'unité, mais char_at donne le code de l'unité de départ à l'octet n. Ce dernier est plus utile car la plupart des opérations de la chaîne traiter en octets indices. C'est l'équivalent de char_at (et aussi de la constante de temps):text[i..].chars().next().unwrap()
Je dirais qu'en réalité l'utilisation char_at est un peu dangereux comme l'index pourrait être la dans une unité de code.
Ensuite, vous obtenez un effet de panique, pas de corruption des données (à la fois avec char_at et le découpage de contournement). Si vous écrivez votre code correctement Unicode (c'est à dire, à l'aide de la chaîne existante méthodes et les itérateurs) qui n'arrive pas non plus. Et à l'aide de points de code des indices n'est pas vraiment réalisable, car (comme je l'ai dit avant) la plupart des opérations de la chaîne de ne pas les traiter. de Mixage point de code, des indices et des octets indices sont plus dangereux que ce soit.
Oui, le point de code indices ne fonctionnerait pas en O(1), de toute façon. Cependant, quand quelqu'un demande pour la n-ième caractère, ils pourraient se poser pour la n-ième codepoint ou la n-ième graphème cluster, mais il est peu probable qu'ils demandent pour la n-ième octet.

OriginalL'auteur Steve Klabnik
0

J'ai écrit une fonction qui retourne la tête d'un &str et le reste:
```
fn car_cdr(s: &str) -> (&str, &str) {
    for i in 1..5 {
        let r = s.get(0..i);
        match r {
            Some(x) => return (x, &s[i..]),
            None => (),
        }
    }

    (&s[0..0], s)
}
```
L'utiliser comme ceci:
```
let (first_char, remainder) = car_cdr("test");
println!("first char: {}\nremainder: {}", first_char, remainder);
```
La sortie ressemble à ceci:
```
first char: t
remainder: est
```
Il fonctionne très bien avec les caractères qui sont plus de 1 octet.

Semble comme ce serait plus simple.
Shepmaster - votre version est en effet plus simple. Mais, je suis inquiet à propos de l'caractères() fonction -, il me semble que si l'analyse de l'ensemble de la chaîne et de l'analyse que dans un vecteur ou quelque chose, alors que mon code ne regarde que les 4 premiers caractères de la chaîne, tout au plus. Mais, peut-être que je suis l'incompréhension comment caractères() fonctionne?
Désolé, veut dire "les 4 premiers octets" pas "4 premiers caractères"

OriginalL'auteur Sean
-2

Accepté la réponse est un peu moche!
```
let text = "hello world!";

let ch = &text[0..1]; //this returns "h"
```
Cette réponse est complètement faux pour les données non-ASCII. Essayez &"日本語"[0..1]
Peut-être que Steve Klabnik, qui a écrit la accepté de répondre, devrait mettre à jour son livre qui est à l'honneur sur la Rouille site web, car il montre que cette méthode exacte (doc.rust-lang.org/book/second-edition/...).
Qui est brièvement abordés dans ce chapitre du livre ("world serait une tranche qui contient un pointeur pour la 6ème octet de s et une valeur de longueur 5", c'est moi qui souligne) et dans beaucoup plus de détails plus tard.

OriginalL'auteur FeFiFoFu

Vous devez vous connecter pour publier un commentaire.