À l'aide de SeleniumDriver d'extraire toutes les lignes et les colonnes étant donné un élément de tableau

Je suis grattant une table qui va finalement être exportés en format CSV. Il y a plusieurs cas, j'ai peut-être besoin à considérer, tels que des tableaux imbriqués, s'étend sur des lignes ou des cellules, etc. mais pour l'instant je vais juste ignorer ces cas et de les assumer, j'ai une table très très simple. Par "simple", je veux dire, nous avons juste les lignes et les cellules, éventuellement, à une inégalité dans le nombre de cellules par ligne, mais c'est encore assez basique dans la structure.

<table>
  <tr>
    <td>text </td>
    <td>text </td>
  </tr>
  <tr>
    <td>text </td>
  </tr>
</table>

Mon approche est de simplement parcourir les lignes et les colonnes

String[] rowTxt;
WebElement table = driver.findElement(By.xpath(someLocator));
for (WebElement rowElmt : table.findElements(By.tagName("tr")))
{
    List<WebElement> cols = rowElmt.findElements(By.tagName("td"));
    rowTxt = new String[cols.size()];
    for (int i = 0; i < rowTxt.length; i++)
    {
        rowTxt[i] = cols.get(i).getText();
    }
}

Cependant, c'est assez lent. Pour un fichier CSV avec 218 lignes (ce qui signifie, ma table a 218 lignes), chaque ligne ayant pas plus de 5 colonnes, il a pris 45 secondes à gratter de la table.

J'avais essayé d'éviter une itération sur chaque cellule à l'aide de getText sur l'élément de ligne en espérant que la sortie serait délimité par quelque chose, mais il n'était pas.

Est-il un meilleur moyen de gratter un tableau?

Sinon, j'ai peut envisager l'utilisation de sélénium pour obtenir le code source de la page, et ensuite utiliser Jsoup pour faire l'analyse HTML, car j'ai bien aimé Jsoup de la performance.

InformationsquelleAutor That Umbrella Guy | 2014-01-20

4

Plutôt que d'utiliser le sélénium pour parser le HTML, j'utilise Jsoup. Alors que le Sélénium fournit des fonctionnalités pour voyager à travers une table, Jsoup est beaucoup plus efficace. J'ai décidé d'utiliser le Sélénium seulement de la page web de l'automatisation, et de déléguer toutes les tâches analyse de Jsoup.

Mon approche est la suivante
1. Obtenir le source HTML de l'élément requis
2. Pass qu'à Jsoup comme une chaîne de caractères à analyser
Le code que j'ai fini par écrire était très semblable à du sélénium version
```
String source = "<table>" + driver.findElement(By.xpath(locator)).getAttribute("innerHTML") + "<table>";
Document doc = Jsoup.parse(source, "UTF-8");
for (Element rowElmt : doc.getElementsByTag("tr"))
{
    Elements cols = rowElmt.getElementsByTag("th");
    if (cols.size() == 0 )
        cols = rowElmt.getElementsByTag("td");

    rowTxt = new String[cols.size()];
    for (int i = 0; i < rowTxt.length; i++)
    {
        rowTxt[i] = cols.get(i).text();
    }
    csv.add(rowTxt);
}
```
Le Sélénium analyseur prend 5 minutes pour lire un 1000 ligne de la table, tandis que le Jsoup analyseur prend moins de 10 secondes. Alors que je n'ai pas passer beaucoup de temps sur le benchmarking, je suis assez satisfait des résultats.
- il fournit une fonctionnalité de connexion à un site comme le sélénium faire?
- un de plus c'est le site web-je me connecter ne peut pas être interrogé avec seulement le déplacement de l'URL, il faut être cliqué sur le lien, et envoyer l'URL il suffit de prendre vous à la mauvaise page.
InformationsquelleAutor That Umbrella Guy
2

Le plus certainement est lente, peu importe si vous utilisez xpath, id ou css à faire de votre emplacement. Cela dit, si vous utilisez l' pageObject modèle, vous pourriez faire usage de la @CacheLookup annotation. À partir de la source:
- Par défaut, l'élément ou la liste est recherché chaque fois qu'une méthode est appelée sur elle.
- Pour changer ce comportement, il suffit d'annoter le terrain avec l' {@link CacheLookup}.
J'ai fait un test à l'aide de la table de 100 lignes et 6 colonnes, le test est interrogée sur le texte de chaque et tous les td de l'élément. Sans le @CacheLookup le temps (élément a été localisé par XPath comme dans votre cas) env. 40sec. À l'aide de recherche dans le cache, elle est tombée à environ. 20sec, mais il est encore trop.

De toute façon, si vous perdez le firefox pilote et vous pouvez exécuter des tests sans tête (à l'aide de interface htmlunit), la vitesse permettrait d'augmenter de façon drastique. Exécutant le même test sans tête, les temps étaient entre 100-200ms, de sorte qu'il pourrait même être plus rapide que Jsoup.

Vous pouvez vérifier/tester mon code de test ici.
- Je vais voir si HtmlUnitDriver prend en charge le site que je suis en l'utilisant sur, depuis que j'ai eu un certain nombre de javascript liées à des questions que je n'avais pas compris comment faire pour obtenir autour. Je suis donc allé avec un navigateur pour gérer le javascript pour moi.
InformationsquelleAutor Erki M.

Je suis en utilisant HtmlAgilityPack installé en tant que Nuget pour analyser les dynamiques des tables html. ses très rapide et comme par cette réponse vous pouvez interroger les résultats à l'aide de linq. J'ai utilisé ceci pour stocker le résultat comme un DataTable. Voici les publics de la méthode d'extension de la classe:-

public static class HtmlTableExtensions
{
    private static readonly ILog Log = LogManager.GetLogger(typeof(HtmlTableExtensions));

    ///<summary>
    ///    based on an idea from https://stackoverflow.com/questions/655603/html-agility-pack-parsing-tables
    ///</summary>
    ///<param name="tableBy"></param>
    ///<param name="driver"></param>
    ///<returns></returns>
    public static HtmlTableData GetTableData(this By tableBy, IWebdriverCore driver)
    {
        try
        {
            var doc = tableBy.GetTableHtmlAsDoc(driver);
            var columns = doc.GetHtmlColumnNames();
            return doc.GetHtmlTableCellData(columns);
        }
        catch (Exception e)
        {
            Log.Warn(String.Format("unable to get table data from {0} using driver {1} ",tableBy ,driver),e);
            return null;
        }
    }

    ///<summary>
    ///    Take an HtmlTableData object and convert it into an untyped data table,
    ///    assume that the row key is the sole primary key for the table,
    ///    and the key in each of the rows is the column header
    ///    Hopefully this will make more sense when its written!
    ///    Expecting overloads for swichting column and headers,
    ///    multiple primary keys, non standard format html tables etc
    ///</summary>
    ///<param name="htmlTableData"></param>
    ///<param name="primaryKey"></param>
    ///<param name="tableName"></param>
    ///<returns></returns>
    public static DataTable ConvertHtmlTableDataToDataTable(this HtmlTableData htmlTableData,
        string primaryKey = null, string tableName = null)
    {
        if (htmlTableData == null) return null;
        var table = new DataTable(tableName);

        foreach (var colName in htmlTableData.Values.First().Keys)
        {
            table.Columns.Add(new DataColumn(colName, typeof (string)));
        }
        table.SetPrimaryKey(new[] { primaryKey });
        foreach (var values in htmlTableData
            .Select(row => row.Value.Values.ToArray<object>()))
        {
            table.Rows.Add(values);
        }

        return table;
    }


    private static HtmlTableData GetHtmlTableCellData(this HtmlDocument doc, IReadOnlyList<string> columns)
    {
        var data = new HtmlTableData();
        foreach (
            var rowData in doc.DocumentNode.SelectNodes(XmlExpressions.AllDescendants + HtmlAttributes.TableRow)
                .Skip(1)
                .Select(row => row.SelectNodes(HtmlAttributes.TableCell)
                    .Select(n => WebUtility.HtmlDecode(n.InnerText)).ToList()))
        {
            data[rowData.First()] = new Dictionary<string, string>();
            for (var i = 0; i < columns.Count; i++)
            {
                data[rowData.First()].Add(columns[i], rowData[i]);
            }
        }
        return data;
    }

    private static List<string> GetHtmlColumnNames(this HtmlDocument doc)
    {
        var columns =
            doc.DocumentNode.SelectNodes(XmlExpressions.AllDescendants + HtmlAttributes.TableRow)
                .First()
                .SelectNodes(XmlExpressions.AllDescendants + HtmlAttributes.TableHeader)
                .Select(n => WebUtility.HtmlDecode(n.InnerText).Trim())
                .ToList();
        return columns;
    }

    private static HtmlDocument GetTableHtmlAsDoc(this By tableBy, IWebdriverCore driver)
    {
        var webTable = driver.FindElement(tableBy);
        var doc = new HtmlDocument();
        doc.LoadHtml(webTable.GetAttribute(HtmlAttributes.InnerHtml));
        return doc;
    }
}

Le code html de l'objet de données est simplement une extension de dictionnaire:-

public class HtmlTableData : Dictionary<string,Dictionary<string,string>>
{

}

IWebdriverCore pilote est un wrapper sur IWebDriver ou IRemoteWebdriver qui expose l'une de ces interfaces comme une propriété en lecture seule, mais vous pourriez tout simplement la remplacer avec IWebDriver.

HtmlAttributes est statique lass holding const valeurs communes pour les attributs html pour économiser sur les fautes de frappe lorsque l'on se réfère à des éléments html/attributs/tags etc. dans le code c#: -

///<summary>
///config class holding common Html Attributes and tag names etc
///</summary>
public static class HtmlAttributes
{
    public const string InnerHtml = "innerHTML";
    public const string TableRow = "tr";
    public const string TableHeader = "th";
    public const string TableCell = "th|td";
    public const string Class = "class";

...
}

et SetPrimaryKey est une extension de la DataTable qui permet le réglage facile de la clé primaire d'une table de données:-

    public static void SetPrimaryKey(this DataTable table,string[] primaryKeyColumns)
    {
        int size = primaryKeyColumns.Length;
        var keyColumns = new DataColumn[size];
        for (int i = 0; i < size; i++)
        {
            keyColumns[i] = table.Columns[primaryKeyColumns[i]];
        }
        table.PrimaryKey = keyColumns;
    }

J'ai trouvé que c'était assez performant - < 2 ms pour analyser un 30*80 table, et son un doddle à utiliser.

cela peut-il fournir avec possibilité de connexion à un site web comme le sélénium faire?
un de plus c'est le site web-je me connecter ne peut pas être interrogé avec seulement le déplacement de l'URL, il faut être cliqué sur le lien, et envoyer l'URL il suffit de prendre vous à la mauvaise page.

InformationsquelleAutor Dave00Galloway

Vous devez vous connecter pour publier un commentaire.