Copier du texte à partir d'une page web
Disons que nous avons un site internet speedywap.com
Quand j'ouvre le site dans mon navigateur, puis j'ai copier la page dans le presse-papiers et quand je colle dans mon bloc-notes (windows) seul le texte reste. Tout le code est supprimée sauf pour le texte qui a été dans les liens etc (j'.e affiché sur l'écran).
Je veux faire quelque chose de similaire avec php parce que je suis en train de créer un analyseur de densité des mots clés. Si je veux quelque chose qui est en mesure de conserver le texte à partir d'une page web qui s'affiche sur l'écran.
Mon serveur est en cours d'exécution d'apache, php, centos et mysql
OriginalL'auteur Speedy Wap | 2010-12-27
Vous devez vous connecter pour publier un commentaire.
vous pouvez utiliser strip_tags à la bande des balises à partir d'elle, alors vous êtes juste à gauche avec le texte.
OriginalL'auteur Vishvadeep
Pour un très naïf de démarrage, vous pouvez utiliser ceci:
Obtenir le "texte" de l'arbitraire à l'Url tel qu'il apparaît après que javascript a été exécutée est très, très difficile avec la matière première PHP. J'ai dit "arbitraire Url" parce que vous devez parler d'autres sites aussi - à la seule différence que je peux voir entre speedywap.com avec et sans javascript est les annonces disparaissent sans JS. Toutefois, si vous êtes à la construction d'un "analyseur de densité des mots clés", vous ne devriez pas vous soucier de contenu via AJAX, comme les moteurs de recherche ne peuvent pas le voir.
mais il y a des sites comme facebook etc, où c'est le contenu essentiel.
Vous avez besoin pour le rendre plus clair ce que vous essayez de le faire; vous avez besoin de s'étendre sur ce que vous pensez d'un "analyseur de densité des mots clés". Si vous voulez "analyser" facebook pages (posts, commentaires), c'est totalement différent à faire pour arbitraire sites sur l'internet. Facebook a un API, par exemple.
Que ce soit clair: si vous le faites à partir d'un point de vue RÉFÉRENCEMENT, le contenu qui est derrière l'AJAX n'est pas pertinent parce que les moteurs de recherche (Google) ne peut pas le voir (sauf si le site est à l'aide de ceci).
OriginalL'auteur thirtydot
cURL est plusieurs fois plus rapide que la pratique de l'excision.
Vous pouvez utiliser strip_tags mais ce n'est pas pour rien garantir, le seul moyen est d'analyser manuellement la page, à l'aide de str_replace, preg_replace etc.
C'est ce que vous obtenez en utilisant strip_tags :
http://pokit.etf.ba/get/47a07bd62ea42dd3d447f060c01ccfb5.png
OriginalL'auteur Dejan Marjanovic
développer votre code sur ce point ->http://www.barattalo.it/2010/03/01/php-curl-bot-to-update-facebook-status/
OriginalL'auteur Speedy Wap
Utiliser file_get_contents ou curl, si vous voulez obtenir la fantaisie.
OriginalL'auteur phihag
Vous pouvez utiliser
file_get_contents('http://www.speedywap.com/');
pour obtenir le code source de la page, puis l'utilisation de certains filtres/expressions régulières pour obtenir le texte dont vous avez besoin.OriginalL'auteur Mironor
Vous pouvez également utiliser
strip_tags
: http://php.net/manual/en/function.strip-tags.phpOriginalL'auteur Brian Clapper