Comment gratter tout le contenu d'un site web?

Je développe des sites web et parfois, les clients ont déjà des sites web, mais besoin totalement remanié, mais la plupart du contenu et les images doivent rester les mêmes. Je suis à la recherche pour le logiciel, même si ça coûte ou est une application de bureau qui sera facilement permettez-moi d'entrer une URL et gratter tout le contenu d'un dossier sur ma machine locale. Toute aide serait grandement appréciée.

Fichier > Enregistrer sous... > [ Site web, Complète ] — Il ne sera pas vous chaque page, mais vous aurez de la totalité de l'actif sur la page en cours.
double possible de les Meilleures méthodes pour analyser HTML
double possible si Enregistrer Pleine Page web

InformationsquelleAutor cklingdesigns | 2011-04-25

7

htttrack fonctionnent très bien pour vous. C'est un navigateur hors ligne qui va tirer vers le bas les sites web. Vous pouvez configurer comme vous le souhaitez. Ce ne sera pas tirer vers le bas PHP évidemment depuis php côté serveur code. La seule chose que vous pouvez tirer vers le bas est le html et le javascript et les images poussé vers le navigateur.
- Merci beaucoup, c'est exactement ce que je cherchais.
- Pas de problème. Merci pour la case à cocher.
InformationsquelleAutor k to the z

file_put_contents('/some/directory/scrape_content.html', file_get_contents('http://google.com'));

Économiser de l'argent pour la charité.

InformationsquelleAutor John Cartwright

2

Par le contenu voulez-vous dire la totalité du contenu de la page, car vous pouvez simplement "enregistrer sous..." l'ensemble de la page avec la plupart des média inclus.

Firefox, dans l'Outil -> Page d'Info -> les Médias, il comporte une liste de tous les médias sur la page que vous pouvez télécharger.

InformationsquelleAutor Tony Lukasavage
1

Ne vous embêtez pas avec PHP pour quelque chose comme ça. Vous pouvez utiliser wget de saisir l'ensemble d'un site trivialement. Cependant, être conscient de ne pas analyser les choses comme CSS pour vous, afin de ne pas attraper tous les fichiers référencés via (dire) background-image: URL('/images/pic.jpg'), mais s'accrochera à plus tout le reste pour vous.

InformationsquelleAutor Marc B
1

Cette classe peut vous aider à gratter le contenu: http://simplehtmldom.sourceforge.net/
- Suggéré tiers des alternatives à la SimpleHtmlDom qui en fait utiliser les DOM au lieu de traitement de Chaîne: phpQuery, Zend_Dom, QueryPath et FluentDom.
- Merci pour les suggestions, Gordon. Vraiment bonne. 😀
InformationsquelleAutor Klaus S.
0

Vous pouvez atteindre cet objectif en option enregistrer sous du navigateur, allez dans fichier->enregistrer la page sous firefox et toutes les images et js sera sauvegardée dans un dossier

InformationsquelleAutor jimy
0

J'ai commencé à utiliser HTTrack il y a quelques années et je suis heureux avec elle. Il semble sortir de son chemin pour obtenir les pages je ne serais pas le voir même sur mon propre.

InformationsquelleAutor Pete Wilson
0

Vous pouvez gratter des sites web avec http://scrapy.org et obtenir le contenu que vous souhaitez.

Scrapy est un moyen rapide de haut niveau de capture d'écran et de l'analyse web-cadre, utilisé pour l'analyse des sites et d'en extraire des données structurées à partir de leurs pages. Il peut être utilisé pour un large éventail d'applications, à partir de l'exploration de données pour la surveillance et les tests automatisés.

InformationsquelleAutor OguzKaganAslan

Vous devez vous connecter pour publier un commentaire.