Comment avez-vous archive un site web pour une consultation hors connexion?
Nous avons brûlé statique/copies archivées de notre asp.net sites web pour les clients de nombreuses fois. Nous avons utilisé WebZip jusqu'à maintenant, mais nous avons eu des problèmes sans fin avec les crashs, les pages téléchargées pas besoin d'être re-liée correctement, etc.
Nous avons essentiellement besoin d'une application que les analyses et les téléchargements statique des copies de tout sur nos asp.net site web (pages, images, documents, css, etc) et traite ensuite les pages téléchargées, de sorte qu'ils peuvent être parcourus en local sans connexion internet (se débarrasser des url absolues des liens, etc). Le plus idiot proof le mieux. Cela semble assez commun, et (relativement) simple, mais j'ai essayé quelques autres applications et ont été vraiment impressionné
Quelqu'un aurait-il le logiciel d'archivage ils recommanderaient? Quelqu'un aurait-il vraiment un processus simple, ils partagent?
- Découvrez archivebox.io, c'est un open-source, auto-hébergé outil qui crée un local, statique, consultable HTML clone de sites web (il enregistre en HTML, JS, des fichiers multimédias, de fichiers Pdf, capture d'écran, statique actifs et plus).
Vous devez vous connecter pour publier un commentaire.
Dans Windows, vous pouvez regarder HTTrack. Il est très configurable vous permettant de régler la vitesse des téléchargements. Mais vous pouvez vous suffit de le pointer vers un site web et de l'exécuter avec aucune configuration à tous.
Dans mon expérience, c'était vraiment un bon outil et fonctionne bien. Certaines des choses que j'aime à propos de HTTrack sont:
brew install httrack
Vous pouvez utiliser wget:
wget --mirror --convert-links --backup-converted --adjust-extension http://url/of/web/site
La Wayback Machine Downloader par hartator est simple et rapide.
Installer via Ruby, puis courir avec le domaine de votre choix et en option horodatage de la Internet Archive.
- Je utiliser Le Crabe Bleu sur OSX et WebCopier sur Windows.
wget -r -k
... et d'enquêter sur le reste des options. J'espère que vous avez suivi ces lignes directrices:http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html donc toutes vos ressources sont en sécurité avec les requêtes GET.
Je viens de l'utiliser:
wget -m <url>
.Si vos clients sont l'archivage pour les questions de conformité, vous voulez vous assurer que le contenu peut être authentifié. Options de la liste sont très bien pour le simple affichage, mais ils ne sont pas légalement admissible. Dans ce cas, vous êtes à la recherche pour les horodatages et les signatures numériques. Beaucoup plus compliqué si vous le faites vous-même. Je vous suggère un service tel que PageFreezer.
Pour OS X, les utilisateurs, j'ai trouvé l'application sitesucker trouvé ici fonctionne bien sans la configuration de rien, mais à quelle profondeur il suit les liens.
J'ai été en utilisant HTTrack depuis plusieurs années maintenant. Il gère l'ensemble de l'inter-liaison de page, etc. l'amende juste. Ma seule plainte est que je n'ai pas trouvé un bon moyen de le garder limitée à un sous-site très bien. Par exemple, si il ya un site http://www.foo.com/steve que je veux les archives, il sera probablement de suivre les liens vers http://www.foo.com/rowe et des archives de trop. Sinon, c'est génial. Hautement configurable et fiable.