Fonction C++ pour compter tous les mots dans une chaîne de caractères

M'a demandé ce, lors d'une interview et apparemment, c'est une question facile, mais il n'était pas et n'est toujours pas évident pour moi.

Donné une chaîne de caractères, nombre de tous les mots. N'a pas d'importance si elles sont répétées. Juste le nombre total comme dans un des fichiers de texte nombre de mots. Les mots sont loin d'être séparés par un espace et ponctuation n'a pas d'importance, tant que c'est une partie d'un mot.

Par exemple:
A very, very, very, very, very big dog ate my homework!!!! ==> 11 words

Mon "algorithme" juste passe par la recherche d'espaces et en incrémentant un compteur jusqu'à ce que je frappe un null. Depuis je n'ai pas eu le job, et a demandé de quitter les lieux après que je suppose que Ma solution n'était pas bonne? Quelqu'un a un de plus intelligent solution? Ai-je raté quelque chose?

"jusqu'à ce que je frappe un nul" - comment sont les valeurs null spéciaux dans une chaîne de caractères en C++?
Bien repéré. Je n'ai pas joindre les points.
Par les réponses données ci-dessous, il semble que plus le contexte est vraiment nécessaire. Certaines industries ont recours à la "modernité" de C++, de trouver que le coût de l'utilisation de la STL et boost fait plus de place pour les gains de productivité. D'autres industries préfèrent utiliser une C-comme la version de C++, de sorte qu'il y a une correspondance directe de lignes de code d'instructions du processeur. L'avenir des réponses à des questions le long de ces lignes serait bien servi à déterminer au moins de l'industrie, le candidat postule.
Vous avez contexte autant que je fais. L'intervieweur n'a pas été très coopérative et de ne pas avoir beaucoup de commentaires quand j'ai demandé si il était à la recherche de quelque chose d'intelligent ou tout simplement à la force brute. Tandis que Martin a donné un mauvais âne réponse ci-dessous et fantastique description, j'ai vraiment eu le sentiment de l'interviewer que c'était juste un test pour voir si je pouvais coder quelque chose de "de base". Mais encore une fois je n'ai pas profiter de l'offre, de sorte que sais-je...

OriginalL'auteur eviljack | 2010-09-08

c++string

7

Moins intelligent, le plus évident-pour-tous-de-la-programmeurs-sur-votre-équipe de méthode de le faire.
```
#include <cctype>

int CountWords(const char* str)
{
   if (str == NULL)
      return error_condition;  //let the requirements define this...

   bool inSpaces = true;
   int numWords = 0;

   while (*str != NULL)
   {
      if (std::isspace(*str))
      {
         inSpaces = true;
      }
      else if (inSpaces)
      {
         numWords++;
         inSpaces = false;
      }

      ++str;
   }

   return numWords;
}
```
Son relativement standard à utiliser l'opérateur >> pour obtenir de mots. Je ne vois pas en quoi cela est d'autant plus évidente qu'il faut du temps pour lire tout ce code et de le comprendre.
Mon mauvais. Je ne vois pas pourquoi tout de suite pourquoi cela fonctionne, mais les tests sur codepad semble fonctionner. Je pense que c'est pas intuitif.
J'ai supprimé ma réponse parce que j'ai trouvé certains cas, où il donne de mauvaises réponses. Cela dit, je pense que le design est plus intuitif que celui-ci.
Il peut être standard >> pour obtenir des mots, mais pour ceux d'entre nous qui n'ont jamais traiter avec les fichiers texte de la norme n'est pas pertinent. Le point de mon discours d'ouverture, c'est que ce code exige seulement que l'utilisateur comprend très pièces de base de la langue.
C'est la réponse que j'aimerais voir comme un enquêteur. Lorsque vous demandez à quelqu'un de mettre en œuvre un algorithme trivial dans une interview, l'intervieweur est généralement d'essayer de voir si la personne peut écrire un morceau de code du plus bas niveau sainement, sans introduire de surcharge inutile, de la complexité ou de l'obscurcissement. Ils ne sont pas de tenter d'adopter une bite-du concours de mesure plus obscures les fonctionnalités de la bibliothèque ou de contester la personne interrogée à un jeu de code de golf.

OriginalL'auteur dash-tom-bang
33

En supposant que les mots sont séparés par des espaces:
```
unsigned int countWordsInString(std::string const& str)
{
    std::stringstream stream(str);
    return std::distance(std::istream_iterator<std::string>(stream), std::istream_iterator<std::string>());
}
```
Remarque: Il peut y avoir plus d'un espace entre les mots. Aussi cela ne veut pas attraper d'autres caractères blancs comme de l'onglet nouvelle ligne ou un retour chariot. Si le comptage des espaces n'est pas assez.

Le flux d'entrée de l'opérateur >> lorsqu'il est utilisé pour lire une chaîne de caractères à partir d'un flux. Lit-on dans un espace blanc mot séparé. Ils étaient donc probablement à la recherche pour vous de l'utiliser pour identifier les mots.
```
std::stringstream  stream(str);
std::string        oneWord;

stream >> oneWord; //Reads one space separated word.
```
Quand pouvez l'utiliser pour compter le nombre de mots dans une chaîne de caractères.
```
std::stringstream  stream(str);
std::string        oneWord;
unsigned int       count = 0;

while(stream >> oneWord) { ++count;}
//count now has the number of words in the string.
```
Se complique:

Cours d'eau peut être traité comme tout autre récipient et y sont des itérateurs pour parcourir en boucle std::istream_iterator. Lorsque vous utilisez l'opérateur ++ sur un istream_iterator il suffit de lire les prochaines valeur du flux à l'aide de l'opérateur >>. Dans ce cas, nous sommes la lecture de std::string afin qu'il lit un espace séparé de parole.
```
std::stringstream  stream(str);
std::string        oneWord;
unsigned int       count = 0;

std::istream_iterator loop = std::istream_iterator<std::string>(stream);
std::istream_iterator end  = std::istream_iterator<std::string>();

for(;loop != end; ++count, ++loop) { *loop; }
```
En utilisant std::distance, tout encapsule tous les ci-dessus dans un paquet bien rangé comme il trouver la distance entre deux itérateurs en faisant ++ sur le premier jusqu'à ce que nous arrivons à la seconde.

Pour éviter la copie de la chaîne, nous pouvons être sournois:
```
unsigned int countWordsInString(std::string const& str)
{
    std::stringstream stream;

    //sneaky way to use the string as the buffer to avoid copy.
    stream.rdbuf()->pubsetbuf (str.c_str(), str.length() );
    return std::distance(std::istream_iterator<std::string>(stream), std::istream_iterator<std::string>());
}
```
Remarque: nous avons encore copie de chaque mot de l'original dans une mesure temporaire. Mais le coût est minime.

Facile à lire pour qui? L'auteur ou de l'inconnu responsable? (Il pourrait être qu'un lieu d'employer des demandes que les gens qui connaissent le C++ de la bibliothèque standard, mais je n'ai pas encore d'être employé par une telle installation. 🙂 ) (Noter que je pense que c'est une solution élégante, mais qui sont tellement loin de la bonne C++ depuis si longtemps que cela me prendrait par surprise à courir à travers elle.)
Err.. il est déraisonnable de demander à un programmeur C++ et attendre d'eux de ne pas connaître le C++. La bibliothèque standard est une partie de C++.
J'espère qu'il est facile pour n'importe qui de lire. Le point de l'ensemble d'une bibliothèque standard, c'est que tout le monde plutôt que d'inventer leur propre. Ainsi, même si vous ne saviez pas à propos de la distance que vous pourriez rechercher dans vingt secondes, le voir nous en utilisant les itérateurs en déduire que nous étions une itération à travers un ruisseau et des bobs votre oncle. Code déduit en 30 secondes.
Mon "opposition" est seulement à l'implication que chaque société a les mêmes besoins et exigences de votre propre. Mon secteur d'activité utilise généralement un sous-ensemble très strict de C++, et il est surprenant de trouver quelqu'un qui sait <algorithm> à tous, beaucoup moins dans l'aperçu. "Bibliothèque Standard" dans mon secteur "signifie" sans doute utile pour les personnes ayant des besoins différents que les nôtres."
C'est le genre de question que je demande pour savoir si l'entretien ne sais la STL. Un bon candidat va faire (ou au moins utiliser les flux de diviser l'entrée en mots (comme c'est très fréquent)). Les meilleurs d'entre eux pourront utiliser std::distanace() les bons utilisera une boucle de ceux que nous n'avons pas de location seront ceux qui parse un mot par eux-mêmes.

OriginalL'auteur Martin York
5

Autre coup de pouce en fonction de la solution qui peut fonctionner (non testé):
```
vector<string> result;
split(result, "aaaa bbbb cccc", is_any_of(" \t\n\v\f\r"), token_compress_on);
```
Plus d'informations peuvent être trouvées dans le Stimuler La Chaîne Des Algorithmes De La Bibliothèque

Alors qu'il travaille, ce n'est pas exactement ce que j'aimerais être à la recherche d'une interview.
Pourquoi pas? À moins que l'intervieweur demande spécifiquement pour une application qui n'utilise pas une grande quantité de stockage temporaire, ou qu'il ne devrait pas utiliser boost, puis je pense que c'est une bonne réponse. C'est certainement la plus lisible de toutes les solutions proposées et je pense que c'est un bon exemple de la idiomatiques C++.
Je voudrais aussi probablement continuer à leur demander comment ils pourraient la mettre en œuvre sans l'aide d'un vecteur de chaînes de caractères et sans coup de pouce. Un bon candidat doit être en mesure d'offrir les deux types de solution.
"Pendant qu'il fonctionne, ce n'est pas exactement ce que je serais à la recherche dans une interview." - vous voulez dire que vous seriez à la recherche de quelqu'un qui veut toujours écrit des choses le long chemin. 😉 Il serait utile pour moi, pour vous revenir sur votre commentaire.

OriginalL'auteur Christopher Hunt
3

Cela peut être fait sans rechercher manuellement à chaque personnage ou de la copie de la chaîne.
```
#include <boost/iterator/transform_iterator.hpp>
#include <cctype>

boost::transform_iterator
    < int (*)(int), std::string::const_iterator, bool const& >
    pen( str.begin(), std::isalnum ), end( str.end(), std::isalnum );

size_t word_cnt = 0;

while ( pen != end ) {
    word_cnt += * pen;
    pen = std::mismatch( pen+1, end, pen ).first;
}

return word_cnt;
```
J'ai pris la liberté d'utiliser isalnum au lieu de isspace.

Ce n'est pas quelque chose que je ferais à l'entrevue d'emploi. (Ce n'est pas compilé la première fois.)

Ou, pour tous, le coup de pouce rageux ;v)
```
if ( str.empty() ) return 0;

size_t word_cnt = std::isalnum( * str.begin() );

for ( std::string::const_iterator pen = str.begin(); ++ pen != str.end(); ) {
    word_cnt += std::isalnum( pen[ 0 ] ) && ! std::isalnum( pen[ -1 ] );
}

return word_cnt;
```
cela fonctionne encore mieux avec std::string::const_iterator
Aussi, tout sauf size_t word_cnt… et return… pourrait aller à l'intérieur d'un for boucle.
Cette réponse est impressionnant, mais, fondamentalement, illisible, et nécessite un lourd 3ème partie de la bibliothèque tristement célèbre pour exploser les temps de construire. Si quelqu'un a tenté cela sur une interview que je serais probablement passer sur eux.
Ouais le isalnum vs isspace est une question ouverte en raison de la nature ambiguë de l'OP, post; j'ai analysé comme "la ponctuation n'est pas un espace de sorte qu'il est considéré comme un caractère de mot."
Avec un peu de commentaires, il ne serait pas si mal, parce que le travail de la transform_iterator est assez simple. À l'aide de mismatch pour trouver les transitions de l'état est généralement utile. Certains programmeurs C++ sont aussi pointilleux sur si léger Boost composants sont permis...

OriginalL'auteur Potatoswatter

Vous pouvez utiliser les std::count ou std::count_if de le faire. Ci-dessous un exemple simple avec std::count:

//Count the number of words on string
#include <iostream>
#include <string>
#include <algorithm> //count and count_if is declared here

int main () {
    std::string sTEST("Text to verify how many words it has.");

    std::cout << std::count(sTEST.cbegin(), sTEST.cend(), ' ')+1;

    return 0;
}

OriginalL'auteur TheArquitect

Un O(N) c'est aussi une solution très simple à comprendre et à mettre en œuvre:

(Je n'ai pas vérifié pour une chaîne vide d'entrée. Mais je suis sûr que vous pouvez le faire facilement.)

#include <iostream>
#include <string>
using namespace std;

int countNumberOfWords(string sentence){
    int numberOfWords = 0;
    size_t i;

    if (isalpha(sentence[0])) {
        numberOfWords++;
    }

    for (i = 1; i < sentence.length(); i++) {
        if ((isalpha(sentence[i])) && (!isalpha(sentence[i-1]))) {
            numberOfWords++;
        }
    }

    return numberOfWords;
}

int main()
{
    string sentence;
    cout<<"Enter the sentence : ";
    getline(cin, sentence);

    int numberOfWords = countNumberOfWords(sentence);
    cout<<"The number of words in the sentence is : "<<numberOfWords<<endl;

    return 0;
}

OriginalL'auteur totjammykd

Ici est un seul passage, sans branches (ou presque), les paramètres régionaux-connaissance de l'algorithme qui gère les cas avec plus d'un espace entre les mots:

Si la chaîne est de retour à vide 0

laisser les transitions = nombre d'adjacentes char paires (c1, c2) où c1 == ' ' et c2 != ' '

si la phrase commence par un espace, retour transitions else return transitions + 1

Voici un exemple avec string = "Un très, très, très, très, très gros chien a mangé mes devoirs!!!!"

 i | 0123456789
c1 | A very, very, very, very, very big dog ate my homework!!!!
c2 |  A very, very, very, very, very big dog ate my homework!!!!
   |  x     x     x     x     x    x   x   x   x  x

Explication

Let `i` be the loop counter.

When i=0: c1='A' and c2=' ', the condition `c1 == ' '` and `c2 != ' '` is not met
When i=1: c1=' ' and c2='A', the condition is met
... and so on for the remaining characters

Voici 2 solutions je suis venu avec

Naïf solution

size_t count_words_naive(const std::string_view& s)
{
    if (s.size() == 0) return 0;
    size_t count = 0;
    bool isspace1, isspace2 = true;
    for (auto c : s) {
        isspace1 = std::exchange(isspace2, isspace(c));
        count += (isspace1 && !isspace2);
    }
    return count;
}

Si vous réfléchissez bien, vous serez en mesure de réduire cette série d'opérations dans un produit scalaire (juste pour le fun, je ne recommande pas ce que c'est sans doute beaucoup moins lisible).

Intérieure de solution de produit

size_t count_words_using_inner_prod(const std::string_view& s)
{
    if (s.size() == 0) return 0;
    auto starts_with_space = isspace(s.front());
    auto num_transitions = std::inner_product(
            s.begin()+1, s.end(), s.begin(), 0, std::plus<>(),
            [](char c2, char c1) { return isspace(c1) && !isspace(c2); });
    return num_transitions + !starts_with_space;
}

OriginalL'auteur Lakshay Garg

Très concis O(N) approche:

bool is_letter(char c) { return c >= 'a' && c <= 'z' || c >= 'A' && c <= 'Z'; }

int count_words(const string& s) {
    int i = 0, N = s.size(), count = 0;
    while(i < N) {
        while(i < N && !is_letter(s[i])) i++;
        if(i == N) break;
        while(i < N && is_letter(s[i])) i++;
        count++;
    }
    return count;
}

Un divide-and-conquer approche, la complexité est également en O(N):

int DC(const string& A, int low, int high) {
if(low > high) return 0;
int mid = low + (high - low) / 2;
int count_left = DC(A, low, mid-1);
int count_right = DC(A, mid+1, high);
if(!is_letter(A[mid])) 
return count_left + count_right;
else {
if(mid == low && mid == high) return 1;
if(mid-1 < low) {
if(is_letter(A[mid+1])) return count_right;
else return count_right+1;
} else if(mid+1 > high) {
if(is_letter(A[mid-1])) return count_left;
else return count_left+1;
}
else {
if(!is_letter(A[mid-1]) && !is_letter(A[mid+1])) 
return count_left + count_right + 1;
else if(is_letter(A[mid-1]) && is_letter(A[mid+1]))
return count_left + count_right - 1;
else
return count_left + count_right;
}
}
}
int count_words_divide_n_conquer(const string& s) {
return DC(s, 0, s.size()-1);
}

OriginalL'auteur sunjerry

Vous devez vous connecter pour publier un commentaire.