close() est de ne pas fermer correctement le connecteur

J'ai un serveur multithread (pool de threads) qui est la manipulation d'un grand nombre de demandes (jusqu'à 500/sec pour un nœud), à l'aide de 20 fils. Il y a un thread d'écoute qui accepte les connexions entrantes et les files d'attente pour le gestionnaire de threads du processus. Une fois que la réponse est prêt, les fils puis écrire sur le client et fermer le socket. Tout semblait bien se passer jusqu'à récemment, un client de test du programme commencé à traîner au hasard après la lecture de la réponse. Après beaucoup de creuser, il semble que le close() du serveur n'est pas fait de débrancher la prise. J'ai ajouté un peu de débogage imprime le code avec le descripteur de fichier numéro et je reçois ce type de sortie.

Processing request for 21
Writing to 21
Closing 21

La valeur de retour de close() est 0, ou il y aurait un autre debug déclaration imprimée. Après cette sortie avec un client qui se bloque, lsof est montrant une connexion établie.

SERVEUR 8160 racine 21u IPv4 32754237 TCP localhost:9980->localhost:47530 (ÉTABLI)

CLIENT 17747 racine 12u IPv4 32754228 TCP localhost:47530->localhost:9980 (ÉTABLI)

C'est comme si le serveur n'envoie jamais de la séquence d'arrêt pour le client, et cet état se bloque jusqu'à ce que le client est tué, laissant le côté serveur en état d'attente

SERVEUR 8160 racine 21u IPv4 32754237 TCP localhost:9980->localhost:47530 (CLOSE_WAIT)

Aussi, si le client dispose d'un délai spécifié, il expire au lieu de la pendaison. Je peux aussi exécuter manuellement

call close(21)

dans le serveur gdb, et le client puis de le déconnecter. Cela se produit peut-être une fois dans plus de 50 000 demandes, mais peut ne pas se produire pour de longues périodes.

La version Linux: 2.6.21.7-2.fc8xen
Centos version: 5.4 (Final)

socket actions sont comme suit

SERVEUR:

int client_socket;
struct sockaddr_in client_addr;
socklen_t client_len = sizeof(client_addr);

while(true) {
  client_socket = accept(incoming_socket, (struct sockaddr *)&client_addr, &client_len);
  if (client_socket == -1)
    continue;
  /*  insert into queue here for threads to process  */
}

Alors le fil ramasse le socket et construit la réponse.

/*  get client_socket from queue  */

/*  processing request here  */

/*  now set to blocking for write; was previously set to non-blocking for reading  */
int flags = fcntl(client_socket, F_GETFL);
if (flags < 0)
  abort();
if (fcntl(client_socket, F_SETFL, flags|O_NONBLOCK) < 0)
  abort();

server_write(client_socket, response_buf, response_length);
server_close(client_socket);

server_write et server_close.

void server_write( int fd, char const *buf, ssize_t len ) {
    printf("Writing to %d\n", fd);
    while(len > 0) {
      ssize_t n = write(fd, buf, len);
      if(n <= 0)
        return;//I don't really care what error happened, we'll just drop the connection
      len -= n;
      buf += n;
    }
  }

void server_close( int fd ) {
    for(uint32_t i=0; i<10; i++) {
      int n = close(fd);
      if(!n) {//closed successfully                                                                                                                                   
        return;
      }
      usleep(100);
    }
    printf("Close failed for %d\n", fd);
  }

CLIENT:

Côté Client est à l'aide de libcurl v 7.27.0

CURL *curl = curl_easy_init();
CURLcode res;
curl_easy_setopt( curl, CURLOPT_URL, url);
curl_easy_setopt( curl, CURLOPT_WRITEFUNCTION, write_callback );
curl_easy_setopt( curl, CURLOPT_WRITEDATA, write_tag );

res = curl_easy_perform(curl);

Rien de compliqué, juste une base curl connexion. Client se bloque dans le transfert.c (dans libcurl) parce que le socket n'est pas perçue comme étant fermé. Il est en attente pour plus de données à partir du serveur.

Choses que j'ai essayé jusqu'à présent:

D'arrêt avant de fermer

shutdown(fd, SHUT_WR);                                                                                                                                            
char buf[64];                                                                                                                                                     
while(read(fd, buf, 64) > 0);                                                                                                                                         
/*  then close  */

Réglage SO_LINGER à proximité de force en 1 seconde

struct linger l;
l.l_onoff = 1;
l.l_linger = 1;
if (setsockopt(client_socket, SOL_SOCKET, SO_LINGER, &l, sizeof(l)) == -1)
  abort();

Ces ont fait aucune différence. Toutes les idées seraient grandement appréciés.

MODIFIER, et Cela finissait par être un thread problème de sécurité à l'intérieur d'une file d'attente de la bibliothèque origine du socket pour être manipulé par plusieurs threads.

Êtes-vous à 100% positif, aucun autre thread ne pouvait l'être à l'aide de la prise lorsque vous appelez close sur elle? Comment faites-vous votre non-blocage de lit?
J'ai peur, j'ai juste connecté ici et se souvint de ce problème. J'ai découvert plus tard qu'il y a un thread problème de sécurité dans une file d'attente utilisé pour transmettre les connexions autour de. Il n'y a pas de bug ici. Désolé pour la désinformation.

InformationsquelleAutor DavidMFrey | 2012-10-04

c client-server sockets tcp

60

Voici un code que j'ai utilisé sur de nombreux systèmes Unix (e.g SunOS 4, SGI IRIX, hp-ux 10.20, CentOS 5, Cygwin) pour fermer un socket:
```
int getSO_ERROR(int fd) {
   int err = 1;
   socklen_t len = sizeof err;
   if (-1 == getsockopt(fd, SOL_SOCKET, SO_ERROR, (char *)&err, &len))
      FatalError("getSO_ERROR");
   if (err)
      errno = err;              //set errno to the socket SO_ERROR
   return err;
}

void closeSocket(int fd) {      //*not* the Windows closesocket()
   if (fd >= 0) {
      getSO_ERROR(fd); //first clear any errors, which can cause close to fail
      if (shutdown(fd, SHUT_RDWR) < 0) //secondly, terminate the 'reliable' delivery
         if (errno != ENOTCONN && errno != EINVAL) //SGI causes EINVAL
            Perror("shutdown");
      if (close(fd) < 0) //finally call close()
         Perror("close");
   }
}
```
Mais le ci-dessus ne garantit pas qu'un tampon d'écriture est envoyé.

Gracieux près: Il m'a fallu environ 10 ans pour comprendre comment fermer un socket. Mais pour un autre 10 ans, j'ai paresseusement appelé usleep(20000) pour un léger retard pour "assurer" que la mémoire tampon d'écriture a été rincé avant de le fermer. De toute évidence, cela n'est pas très intelligent, parce que:
- Le délai était trop long la plupart du temps.
- Le délai était trop court de temps en temps, peut-être!
- Un signal de telles SIGCHLD pourrait se produire à la fin de usleep() (mais j'ai l'habitude appelé usleep() deux fois pour gérer ce cas--un hack).
- Il n'y a aucune indication que cela fonctionne. Mais c'est peut-être pas important si l') réinitialise dur sont parfaitement ok, et/ou b) vous avez le contrôle sur les deux côtés de la liaison.
Mais faire une bonne chasse est étonnamment difficile. À l'aide de SO_LINGER est apparemment pas la voie à suivre; voir, par exemple:
- http://msdn.microsoft.com/en-us/library/ms740481%28v=vs.85%29.aspx
- https://www.google.ca/#q=the-ultimate-so_linger-page
Et SIOCOUTQ semble être spécifique à Linux.

Note shutdown(fd, SHUT_WR) n'est pas arrêter d'écrire, contrairement à son nom, et peut-être contrairement à man 2 shutdown.

Ce code flushSocketBeforeClose() attend jusqu'à ce qu'une lecture de zéro octets, ou jusqu'à l'expiration de la minuterie. La fonction haveInput() est un simple wrapper pour sélectionner(2), et est configuré pour bloquer jusqu'à 1/100e de seconde.
```
bool haveInput(int fd, double timeout) {
   int status;
   fd_set fds;
   struct timeval tv;
   FD_ZERO(&fds);
   FD_SET(fd, &fds);
   tv.tv_sec  = (long)timeout; //cast needed for C++
   tv.tv_usec = (long)((timeout - tv.tv_sec) * 1000000); //'suseconds_t'

   while (1) {
      if (!(status = select(fd + 1, &fds, 0, 0, &tv)))
         return FALSE;
      else if (status > 0 && FD_ISSET(fd, &fds))
         return TRUE;
      else if (status > 0)
         FatalError("I am confused");
      else if (errno != EINTR)
         FatalError("select"); //tbd EBADF: man page "an error has occurred"
   }
}

bool flushSocketBeforeClose(int fd, double timeout) {
   const double start = getWallTimeEpoch();
   char discard[99];
   ASSERT(SHUT_WR == 1);
   if (shutdown(fd, 1) != -1)
      while (getWallTimeEpoch() < start + timeout)
         while (haveInput(fd, 0.01)) //can block for 0.01 secs
            if (!read(fd, discard, sizeof discard))
               return TRUE; //success!
   return FALSE;
}
```
Exemple d'utilisation:
```
   if (!flushSocketBeforeClose(fd, 2.0)) //can block for 2s
       printf("Warning: Cannot gracefully close socket\n");
   closeSocket(fd);
```
Ci-dessus, mon getWallTimeEpoch() est similaire à time(), et Perror() est un wrapper pour perror().

Edit: Quelques commentaires:
- Ma première entrée est un peu gênant. Les OP et Nemo contesté le besoin de nettoyer l'intérieur so_error avant de fermer, mais je ne trouver aucune référence à cela. Le système en question était-UX 10.20. Après l'échec d'une connect(), juste appeler close() n'a pas communiqué le descripteur de fichier, parce que le système a souhaité offrir une remarquable erreur pour moi. Mais j'ai, comme la plupart des gens, jamais pris la peine de vérifier la valeur de retour de close. j'ai Donc finalement manqué de descripteurs de fichiers (ulimit -n), qui a finalement obtenu mon attention.
- (très petite), Un commentateur a objecté à la codées en dur des arguments numériques à shutdown(), plutôt que, par exemple, SHUT_WR pour 1. La réponse la plus simple est que Windows utilise différents #définit la/les énumérations, par exemple SD_SEND. Et de nombreux autres auteurs (par exemple, Beej) utiliser des constantes, comme le font de nombreux systèmes hérités.
- Aussi, j'ai toujours, toujours, ensemble FD_CLOEXEC sur toutes mes prises, puisque dans mes applications, je ne veux plus jamais les transmettre à un enfant et, plus important encore, je ne veux pas d'un enfant accroché à l'impact de moi.
Exemple de code pour définir CLOEXEC:
```
   static void setFD_CLOEXEC(int fd) {
      int status = fcntl(fd, F_GETFD, 0);
      if (status >= 0)
         status = fcntl(fd, F_SETFD, status | FD_CLOEXEC);
      if (status < 0)
         Perror("Error getting/setting socket FD_CLOEXEC flags");
   }
```
- Je souhaite que je pourrais voter cette fois. C'est seulement la deuxième échantillon d'une socket fermée, j'ai vu à l'état sauvage.
- Avez-vous une référence pour les "erreurs ... va provoquer close() pour être ignoré"? De préférence à partir de la POSIX spec?
- Les tests de cette maintenant... je vais poster une fois que c'est fini
- Je pense que shutdown doit être utilisé avec les macros SHUT_RD etc
- J'ai peur que cela se produit toujours avec cette séquence d'arrêt. @JosephQuinsey-pouvez-vous la liste de la documentation pour fermer() d'être ignoré pour une raison quelconque?
- Lire sur le glorieux FINWAIT caractéristique de TCP.
- Votre code de correction d'un problème dans mon client, où il ne pouvait pas se reconnecter immédiatement après avoir été déconnecté par le serveur, parce que le client envoie un SYN avant même d'accusé de réception avec FIN.
- Merci, cela a été très utile. Je viens de close()ing un socket, mais il était encore bloque sur accept(). Une fois que j'ai utilisé shutdown(), il n'est plus bloquant. Vous avez enregistré plusieurs heures pour moi. Si cela fonctionne vraiment indépendant de la plateforme, dans l'ensemble, je serai heureux d'attribuer un +50 bounty pour vous!
InformationsquelleAutor Joseph Quinsey
2

Grande réponse de Joseph Quinsey. J'ai des commentaires sur le haveInput fonction. Vous vous demandez comment il est probable que select retourne un fd vous n'avez pas inclus dans votre ensemble. Ce serait un des grands OS bug à mon humble avis. C'est le genre de chose que je voudrais vérifier si j'ai écrit des tests unitaires pour le select la fonction, non pas dans une simple application.
```
if (!(status = select(fd + 1, &fds, 0, 0, &tv)))
   return FALSE;
else if (status > 0 && FD_ISSET(fd, &fds))
   return TRUE;
else if (status > 0)
   FatalError("I am confused"); //<--- fd unknown to function
```
Mon autre commentaire se rapporte à la manipulation de EINTR. En théorie, vous pourriez obtenir coincé dans une boucle infinie si select cesse de revenir EINTR, car cette erreur permet à la boucle de recommencer. Compte tenu du très court délai (0.01), il semble hautement improbable. Cependant, je pense que la façon appropriée de traiter ce serait pour les erreurs de retour à l'appelant (flushSocketBeforeClose). L'appelant peut continuer à appeler haveInput a longtemps que son délai d'attente n'a pas expiré, et de déclarer l'échec pour les autres erreurs.

PLUS #1

flushSocketBeforeClose ne sera pas en sortir rapidement en cas de read de retourner une erreur. Il gardera en boucle jusqu'à l'expiration de ce délai. Vous ne pouvez pas compter sur les select à l'intérieur de haveInput d'anticiper toutes les erreurs. read a des erreurs de ses propres (ex: EIO).
```
     while (haveInput(fd, 0.01)) 
        if (!read(fd, discard, sizeof discard)) <-- -1 does not end loop
           return TRUE; 
```
InformationsquelleAutor
0

Cela me semble être un bug dans votre distribution Linux.

La Bibliothèque C de GNU de documentation dit:

Lorsque vous avez fini d'utiliser un support, vous pouvez simplement fermer son fichier
descripteur avec close

Rien de compensation tous les indicateurs d'erreur ou d'attente pour les données seront supprimées ou quelque chose de ce genre.

Votre code est très bien; votre O/S a un bug.
- Se penchant vers cette réponse. Il faudra un peu de travail pour obtenir un autre os pour tester. Je vais revoir tout cela une fois que j'ai testé. Je veux ajouter ce lien à partir de @Nemo comme il semble pertinent à la question. et la réponse qui lui a été attaché à a été supprimé. sites.google.com/site/michaelsafyan/software-engineering/...
- Je suis d'accepter cette réponse, que la modification de mon thread-safe file d'attente à utiliser les sémaphores plutôt que pthread conditions a inexplicablement (pour moi en tout cas) a résolu le problème.
- Nothing about clearing any error flags or waiting for the data to be flushed or any such thing. Sans doute, "l'attente pour que les données soient vidées" relève "lorsque vous avez fini d'utiliser un socket".
- Cela voudrait dire il y a près de 100% de chance pour que votre code a/a une erreur de logique/bug ou d'une condition de concurrence au lieu d'être un système d'exploitation de bug.
- Cette supposition est extrêmement peu probable. Si close() ne fonctionne pas, rien ne fonctionnerait.
- Vous avez manqué le point essentiel de ma réponse. Pour fermer un socket, tout ce que vous avez à faire est d'appeler close(). C'est en fonction de chaque norme (p. ex. POSIX) et la mise en œuvre (par exemple, la glibc) documentation quelqu'un a cité ici. Si vous avez rien d'autre à faire pour fermer un socket, c'est un bug dans votre bibliothèque C ou S/S... Et comme vous pouvez le voir sur certains autres réponses ici, de tels bugs a existent dans différentes implémentations Unix au fil des ans.
InformationsquelleAutor Nemo

Vous devez vous connecter pour publier un commentaire.