Analyse HTML pour obtenir du contenu à l'aide de C#

Je suis en train d'écrire une application qui analyse un groupe de mes pages web. Plutôt que de prendre la totalité du code source de la page je voudrais profiter de tout le contenu et les conserver et être capable de stocker de la page de texte en clair dans une base de données. Le contenu sera utilisé dans d'autres applications et pas lu par les utilisateurs donc il n'y a pas besoin d'être parfaitement lisible.

Au début, je pensais à l'aide d'expressions régulières, mais je n'ai pas de contrôle sur la validité des pages web, et il ya une grande chance qu'aucune expression régulière pourrait me donner le contenu.

Si j'ai le code source à l'intérieur d'une chaîne, comment puis-je activer cette chaîne de code source dans le contenu en C#?

Définir un "contenu"... tout le html est le contenu, vous pouvez donc stocker le code html. Voulez-vous dire "juste le texte, pas de balisage"? ou quoi?
pourquoi ne pas u "XML" les analyser ? de cette façon vous pouvez lire les nœuds et prendre juste le contenu ... mais je ne suis pas sûr si d'analyse XML peut lire à fermeture automatique des balises ..
XML supporte l'auto-fermeture des balises, mais malheureusement, beaucoup de soi-disant documents HTML, malheureusement, contiennent beaucoup de mal formés balises.
thx pour l'info 🙂
Assez bien "juste le texte", bien que je ne serais pas d'accord que le code HTML est le contenu que pour moi il ne sert que de la structure et il serait inutile de le stocker.

OriginalL'auteur Mike B | 2010-01-10