Comment avez-vous archive un site web pour une consultation hors connexion?

Nous avons brûlé statique/copies archivées de notre asp.net sites web pour les clients de nombreuses fois. Nous avons utilisé WebZip jusqu'à maintenant, mais nous avons eu des problèmes sans fin avec les crashs, les pages téléchargées pas besoin d'être re-liée correctement, etc.

Nous avons essentiellement besoin d'une application que les analyses et les téléchargements statique des copies de tout sur nos asp.net site web (pages, images, documents, css, etc) et traite ensuite les pages téléchargées, de sorte qu'ils peuvent être parcourus en local sans connexion internet (se débarrasser des url absolues des liens, etc). Le plus idiot proof le mieux. Cela semble assez commun, et (relativement) simple, mais j'ai essayé quelques autres applications et ont été vraiment impressionné

Quelqu'un aurait-il le logiciel d'archivage ils recommanderaient? Quelqu'un aurait-il vraiment un processus simple, ils partagent?

Découvrez archivebox.io, c'est un open-source, auto-hébergé outil qui crée un local, statique, consultable HTML clone de sites web (il enregistre en HTML, JS, des fichiers multimédias, de fichiers Pdf, capture d'écran, statique actifs et plus).

InformationsquelleAutor jskunkle | 2009-02-11

37

Dans Windows, vous pouvez regarder HTTrack. Il est très configurable vous permettant de régler la vitesse des téléchargements. Mais vous pouvez vous suffit de le pointer vers un site web et de l'exécuter avec aucune configuration à tous.

Dans mon expérience, c'était vraiment un bon outil et fonctionne bien. Certaines des choses que j'aime à propos de HTTrack sont:
- Licence Open Source
- Reprend cessé de téléchargements
- Pouvez mettre à jour une archive existante
- Vous pouvez le configurer pour être non-agressif lorsqu'il télécharge afin de ne pas gaspiller de la bande passante et la bande passante du site.
- httrack existe aussi pour linux.
- Il existe aussi pour Mac - brew install httrack
InformationsquelleAutor Jesse Dearing
65

Vous pouvez utiliser wget:
```
wget -m -k -K -E http://url/of/web/site
```
- À partir de l' --help, je peux voir ce que le reste, mais ne les drapeaux K (capital) et E faire?
- N'oubliez pas le commutateur-p pour obtenir des images et d'autres objets incorporés, trop. (-E pour la conversion à l'extension html. -K est de sauvegarder le fichier d'origine avec l'extension .orig)
- Le plus long, mais moins cryptique version: wget --mirror --convert-links --backup-converted --adjust-extension http://url/of/web/site
- Pour moi, cela devient de la index.html
- Oui, pour moi aussi, il récupère uniquement index.html. Et le squarespace site j'essaie de récupérer localement de garde de me donner l'erreur 429 "Trop de Demandes". 🙁 J'ai événement d'installation de la limitation du débit et de l'attendre.
- ne fonctionne pas si les liens sont avec javascrpts. Javascript wget ne prennent pas en charge.
- Pour moi, HTTrack travaillé beaucoup mieux. Je archivées d'un très ancien page php et toutes les balises img souligné un fichier php avec la requête params. HTTrack renommé pour .jpg / .les fichiers png et ajusté la balise img en conséquence.
InformationsquelleAutor chuckg
6

La Wayback Machine Downloader par hartator est simple et rapide.

Installer via Ruby, puis courir avec le domaine de votre choix et en option horodatage de la Internet Archive.
```
sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
```
InformationsquelleAutor jtheletter
4

- Je utiliser Le Crabe Bleu sur OSX et WebCopier sur Windows.
- Le Crabe bleu est une sacrément crashy application aujourd'hui.
InformationsquelleAutor Syntax
2

wget -r -k

... et d'enquêter sur le reste des options. J'espère que vous avez suivi ces lignes directrices:http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html donc toutes vos ressources sont en sécurité avec les requêtes GET.

InformationsquelleAutor Joel Hoffman
1

Je viens de l'utiliser: wget -m <url>.
- Ce n'obtient que la page d'accueil, pas de l'ensemble du site.
InformationsquelleAutor Aram Verstegen
1

Si vos clients sont l'archivage pour les questions de conformité, vous voulez vous assurer que le contenu peut être authentifié. Options de la liste sont très bien pour le simple affichage, mais ils ne sont pas légalement admissible. Dans ce cas, vous êtes à la recherche pour les horodatages et les signatures numériques. Beaucoup plus compliqué si vous le faites vous-même. Je vous suggère un service tel que PageFreezer.

InformationsquelleAutor Dieghito
1

Pour OS X, les utilisateurs, j'ai trouvé l'application sitesucker trouvé ici fonctionne bien sans la configuration de rien, mais à quelle profondeur il suit les liens.
- sitesucker.nous site web ne prend pas en charge à partir de janvier 2018.
- fonctionne à nouveau, mais a changé d'url où sitesucker.nous réorienter à l'auteur du site de développement ricks-apps.com
InformationsquelleAutor user1011743
0

J'ai été en utilisant HTTrack depuis plusieurs années maintenant. Il gère l'ensemble de l'inter-liaison de page, etc. l'amende juste. Ma seule plainte est que je n'ai pas trouvé un bon moyen de le garder limitée à un sous-site très bien. Par exemple, si il ya un site http://www.foo.com/steve que je veux les archives, il sera probablement de suivre les liens vers http://www.foo.com/rowe et des archives de trop. Sinon, c'est génial. Hautement configurable et fiable.

InformationsquelleAutor Steve Rowe

Vous devez vous connecter pour publier un commentaire.