L'extraction de texte Interne du CORPS HTML nœud avec Html Agility Pack
Besoin d'un peu d'aide avec HTML Agility Pack!
Fondamentalement, je veux saisir texte brut dans le corps nœud de l'HTML.
Jusqu'à présent j'ai essayé ceci dans vb.net et il ne parvient pas à retourner le sens innertext
aucune modification n'est observée, bien au moins de ce que je peux voir.
Dim htmldoc As HtmlDocument = New HtmlDocument
htmldoc.LoadHtml(html)
Dim paragraph As HtmlNodeCollection = htmldoc.DocumentNode.SelectNodes("//body")
If Not htmldoc Is Nothing Then
For Each node In paragraph
node.ParentNode.RemoveChild(node, True)
Next
End If
Return htmldoc.DocumentNode.WriteContentTo
J'ai essayé ceci:
Return htmldoc.DocumentNode.InnerText
Mais toujours pas de chance!
Des conseils???
double possible de Saisir tout le texte de html avec du code Html Agility Pack
OriginalL'auteur Kevin | 2011-07-27
Vous devez vous connecter pour publier un commentaire.
Comment sur:
Eh bien il n'y a pas beaucoup que vous pouvez faire à ce sujet que, à l'exception de nettoyer le code html de l'indésirables. InnerText comprend tout ce que vous voyez dans le document qui ne fait pas partie de l'élément. Donc cela inclut les espaces, de code dans le script nœuds, etc. Si votre objectif est d'obtenir le texte tel qu'il ressemble rendu dans un navigateur web, vous n'allez pas vous faire de cette façon.
Hmm je comprends ce que tu veux dire. Peut-être que j'ai confondu avec innertext et clair. L'objectif principal est de revenir propre texte ou HTML analysée de retour avec le texte principal contenu en elle. Pourriez-vous me montrer comment nous avons obtenu cette s'il vous plaît.
Je ne sais pas vraiment pour être honnête. Ce que je voudrais faire est de le charger dans un navigateur et d'obtenir le texte de l'écran (pas de source). Le faire par programmation est une chose différente tous ensemble.
Tu veux dire contrôle webbrowser?
OriginalL'auteur Jeff Mercado
Jeff solution est ok si vous n'avez pas les tables, parce que le texte situé dans le tableau est coller comme un cell1cell2cell3.
Pour éviter ce problème, utilisez ce code (C#):
OriginalL'auteur EminST