Un très simple multithreading parallèle URL extraction (sans file d'attente)

J'ai passé une journée entière à la recherche pour le plus simple possible multithread URL de l'outil de récupération en Python, mais la plupart des scripts que j'ai trouvé sont à l'aide de files d'attente ou de multitraitement ou bibliothèques complexes.

Enfin je l'ai écrit moi-même, que je suis déclaration comme une réponse. N'hésitez pas à suggérer toute amélioration.

Je suppose que d'autres personnes pourraient avoir été la recherche de quelque chose de similaire.

  • juste pour ajouter:en Python cas, le multithreading, n'est pas natif de base en raison de GIL.
  • Il alambics semble que l'extraction de l'Url en parallèle est plus rapide que de le faire en série. Pourquoi est-ce? est-ce dû au fait que (je suppose) l'interpréteur Python n'est pas exécuté en continu pendant une requête HTTP?
  • Mais si je veux analyser le contenu de ces pages web, j'extrais? Est-il préférable de faire l'analyse dans chaque thread, ou devrais-je le faire de façon séquentielle après avoir rejoint les threads de travail pour le thread principal?
InformationsquelleAutor Daniele B | 2013-04-23