Extraire des données à partir du Web Scraping C#
Je suis MVC ASP.NET développeur.
J'ai reçu le contenu à partir de n'importe quelle url, c'est à dire http, https, etc. à l'aide de WebRequest classe.
J'ai reçu tout le contenu de l'url. (pour l'instant j'ai pris http://google.com)
Ma prochaine étape est d'extraire des boutons, en-tête, pied de page, les couleurs, le texte, etc.
Voici mon code pour l'instant:
public ActionResult GetContent(UrlModel model) //model having a string URL
which is entered in a text box and method hits using submit button.
{
//WebRequest request = WebRequest.Create(model.URL);
WebRequest request = WebRequest.Create(model.URL);
request.Credentials = CredentialCache.DefaultCredentials;
WebResponse response = request.GetResponse();
Stream dataStream = response.GetResponseStream();
StreamReader reader = new StreamReader(dataStream);
string responseFromServer = reader.ReadToEnd();
ViewBag.Response = responseFromServer;
reader.Close();
response.Close();
return View();
}
Quelqu'un peut m'aider à écrire le code ?
Aussi ne me suggérer avec certaines techniques d'extraction de données en C#.
- Jetez un oeil à cette question stackoverflow.com/questions/16303828/...
Vous devez vous connecter pour publier un commentaire.
C'est votre façon d'aller
http://htmlagilitypack.codeplex.com/
Il y a de nombreux stackoverflow postés à ce sujet. Vous pouvez facilement obtenir les éléments de l'html.