Comment gratter tout le contenu d'un site web?
Je développe des sites web et parfois, les clients ont déjà des sites web, mais besoin totalement remanié, mais la plupart du contenu et les images doivent rester les mêmes. Je suis à la recherche pour le logiciel, même si ça coûte ou est une application de bureau qui sera facilement permettez-moi d'entrer une URL et gratter tout le contenu d'un dossier sur ma machine locale. Toute aide serait grandement appréciée.
- Fichier > Enregistrer sous... > [ Site web, Complète ] — Il ne sera pas vous chaque page, mais vous aurez de la totalité de l'actif sur la page en cours.
- double possible de les Meilleures méthodes pour analyser HTML
- double possible si Enregistrer Pleine Page web
Vous devez vous connecter pour publier un commentaire.
htttrack fonctionnent très bien pour vous. C'est un navigateur hors ligne qui va tirer vers le bas les sites web. Vous pouvez configurer comme vous le souhaitez. Ce ne sera pas tirer vers le bas PHP évidemment depuis php côté serveur code. La seule chose que vous pouvez tirer vers le bas est le html et le javascript et les images poussé vers le navigateur.
Économiser de l'argent pour la charité.
Par le contenu voulez-vous dire la totalité du contenu de la page, car vous pouvez simplement "enregistrer sous..." l'ensemble de la page avec la plupart des média inclus.
Firefox, dans l'Outil -> Page d'Info -> les Médias, il comporte une liste de tous les médias sur la page que vous pouvez télécharger.
Ne vous embêtez pas avec PHP pour quelque chose comme ça. Vous pouvez utiliser
wget
de saisir l'ensemble d'un site trivialement. Cependant, être conscient de ne pas analyser les choses comme CSS pour vous, afin de ne pas attraper tous les fichiers référencés via (dire)background-image: URL('/images/pic.jpg')
, mais s'accrochera à plus tout le reste pour vous.Cette classe peut vous aider à gratter le contenu: http://simplehtmldom.sourceforge.net/
Vous pouvez atteindre cet objectif en option enregistrer sous du navigateur, allez dans fichier->enregistrer la page sous firefox et toutes les images et js sera sauvegardée dans un dossier
J'ai commencé à utiliser HTTrack il y a quelques années et je suis heureux avec elle. Il semble sortir de son chemin pour obtenir les pages je ne serais pas le voir même sur mon propre.
Vous pouvez gratter des sites web avec http://scrapy.org et obtenir le contenu que vous souhaitez.
Scrapy est un moyen rapide de haut niveau de capture d'écran et de l'analyse web-cadre, utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de leurs pages. Il peut être utilisé pour un large éventail d'applications, à partir de l'exploration de données pour la surveillance et les tests automatisés.