Comment faire pour supprimer les lignes vides à partir du fichier XML?

En bref, j'ai beaucoup de lignes vides générés dans un fichier XML, et je suis à la recherche d'un moyen de les éliminer comme un moyen de se pencher le fichier. Comment puis-je le faire ?

Pour une explication détaillée; j'ai actuellement ce fichier XML :

<recent>
  <paths>
    <path>path1</path>
    <path>path2</path>
    <path>path3</path>
    <path>path4</path>
  </paths>
</recent>

Et j'utilise ce code Java pour supprimer toutes les balises, et en ajouter de nouveaux à la place :

public void savePaths( String recentFilePath ) {
    ArrayList<String> newPaths = getNewRecentPaths();
    Document recentDomObject = getXMLFile( recentFilePath );  //Get the <recent> element.
    NodeList pathNodes = recentDomObject.getElementsByTagName( "path" );   //Get all <path> nodes.

    //1. Remove all old path nodes :
        for ( int i = pathNodes.getLength() - 1; i >= 0; i-- ) { 
            Element pathNode = (Element)pathNodes.item( i );
            pathNode.getParentNode().removeChild( pathNode );
        }

    //2. Save all new paths :
        Element pathsElement = (Element)recentDomObject.getElementsByTagName( "paths" ).item( 0 );   //Get the first <paths> node.

        for( String newPath: newPaths ) {
            Element newPathElement = recentDomObject.createElement( "path" );
            newPathElement.setTextContent( newPath );
            pathsElement.appendChild( newPathElement );
        }

    //3. Save the XML changes :
        saveXMLFile( recentFilePath, recentDomObject ); 
}

Après l'exécution de cette méthode un certain nombre de fois, j'obtiens un fichier XML avec de bons résultats, mais avec de nombreuses lignes vides après les "chemins" de la balise et avant le premier "chemin" de la balise, comme ceci :

<recent>
  <paths>





    <path>path5</path>
    <path>path6</path>
    <path>path7</path>
  </paths>
</recent>

Quelqu'un sait comment résoudre ce problème ?

------------------------------------------- Edit: Ajout de la getXMLFile(...), saveXMLFile(...) du code.

public Document getXMLFile( String filePath ) { 
    File xmlFile = new File( filePath );

    try {
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        DocumentBuilder db = dbf.newDocumentBuilder();
        Document domObject = db.parse( xmlFile );
        domObject.getDocumentElement().normalize();

        return domObject;
    } catch (Exception e) {
        e.printStackTrace();
    }

    return null;
}

public void saveXMLFile( String filePath, Document domObject ) {
    File xmlOutputFile = null;
    FileOutputStream fos = null;

    try {
        xmlOutputFile = new File( filePath );
        fos = new FileOutputStream( xmlOutputFile );
        TransformerFactory transformerFactory = TransformerFactory.newInstance();
        Transformer transformer = transformerFactory.newTransformer();
        transformer.setOutputProperty( OutputKeys.INDENT, "yes" );
        transformer.setOutputProperty( "{http://xml.apache.org/xslt}indent-amount", "2" );
        DOMSource xmlSource = new DOMSource( domObject );
        StreamResult xmlResult = new StreamResult( fos );
        transformer.transform( xmlSource, xmlResult );  //Save the XML file.
    } catch (FileNotFoundException e) {
        e.printStackTrace();
    } catch (TransformerConfigurationException e) {
        e.printStackTrace();
    } catch (TransformerException e) {
        e.printStackTrace();
    } finally {
        if (fos != null)
            try {
                fos.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
    }
}

Il pourrait être utile de voir le contenu de votre saveXMLFile méthode.
Bien sûr, j'ai édité la question.
Vous pourriez avoir un coup d'oeil à la Suppression de Nœuds et les Lignes Vides dans XML à l'Aide de Java et stackoverflow.com/questions/7190639/...

OriginalL'auteur Brad | 2012-10-01

16

D'abord, une explication de pourquoi cela se produit — ce qui pourrait être un peu hors sujet, puisque vous n'avez pas à inclure le code qui est utilisé pour charger le fichier XML dans un objet DOM.

Lorsque vous lisez un document XML à partir d'un fichier, les espaces entre les balises constituent en réalité valide les nœuds DOM, conformément à la spécification DOM. Par conséquent, l'analyseur XML traite chaque séquence d'espaces comme les nœuds DOM (de type TEXT);

Pour se débarrasser d'elle, il y a trois approches que je peux penser:
- Associer le XML avec un schéma, et ensuite utiliser setValidating(true) avec setIgnoringElementContentWhitespace(true) sur le DocumentBuilderFactory.
  
  (Note: setIgnoringElementContentWhitespace ne fonctionnera que si l'analyseur est en mode de validation, qui est pourquoi vous devez utiliser setValidating(true))
- Écrire une feuille de style XSL pour traiter tous les nœuds, en filtrant les espaces seule TEXT nœuds.
- Utilisation de code Java pour ce faire: utiliser XPath pour trouver tous les espaces seule TEXT nœuds, parcourir et supprimer chacun de ses parents (à l'aide de getParentNode().removeChild()). Quelque chose comme ceci ferait (doc serait votre DOM document object):
```
XPath xp = XPathFactory.newInstance().newXPath();
NodeList nl = (NodeList) xp.evaluate("//text()[normalize-space(.)='']", doc, XPathConstants.NODESET);

for (int i=0; i < nl.getLength(); ++i) {
    Node node = nl.item(i);
    node.getParentNode().removeChild(node);
}
```
Je ne sais pas comment le faire :), mais j'ai ajouté le getXMLFile(...) le code de la question.
OK, je vais modifier ma réponse à inclure le code Java requis.
Une autre possibilité serait de définir un Schéma XML pour valider le document, puis utiliser DocumentBuilderFactory "setIgnoringElementContentWhitespace" en collaboration avec "setValidating". De nombreuses façons de la peau, ce chat.
Le code Java fonctionne parfaitement pour moi.

OriginalL'auteur Isaac
3

J'ai été en mesure de résoudre ce problème en utilisant ce code après la suppression de tous les anciens "chemin" nœuds :
```
while( pathsElement.hasChildNodes() )
    pathsElement.removeChild( pathsElement.getFirstChild() );
```
Cela permettra d'éliminer tous les générées espaces vides dans le fichier XML.

Un merci spécial à MadProgrammer pour les commentaires avec le lien utile mentionnés ci-dessus.

Je ne voudrais pas être un grand fan de aveuglément suppression de nœuds enfants sans savoir ce qu'ils sont. Au moins, j'avais un test ici pour voir que j'ai vraiment suis suppression d'un vide nœud de texte (à l'aide de 'getNodeType" et "getNodeValue').
Je suis d'accord avec vous, mais dans mon cas, je suis sûr qu'ils sont tous vides, parce que j'ai déjà supprimé moi-même. Au contraire, si il y a quelque chose qui manque et non supprimés, alors je veux l'enlever 🙂
veuillez vérifier ma réponse: goo.gl/06Qd9 , j'ai expliqué comment faire pour supprimer ces lignes vides sans aveugles enlever tous les nœuds enfants, et a écrit quelque chose sur la cause d'un tel comportement.

OriginalL'auteur Brad

Vous pourrait ressembler à quelque chose comme cette si vous avez seulement besoin de "nettoyer" votre xml rapidement.
Puis vous pourriez avoir une méthode comme:

public static String cleanUp(String xml) {
    final StringReader reader = new StringReader(xml.trim());
    final StringWriter writer = new StringWriter();
    try {
        XmlUtil.prettyFormat(reader, writer);
        return writer.toString();
    } catch (IOException e) {
        e.printStackTrace();
    }
    return xml.trim();
}

Aussi, pour comparer anche vérifier les différences, si vous en avez besoin: XMLUnit

OriginalL'auteur mdm

1

J'ai été confrontée au même problème, et je n'avais aucune idée pour le temps, mais maintenant, après ce Brad et sa propre réponse à sa propre question, j'ai compris où est le problème.

J'ai ajouter ma propre réponse, parce que Brad n'est pas vraiment parfait, comment Isaac dit:

Je ne serais pas un grand fan de aveuglément suppression de nœuds enfants sans savoir ce qu'ils sont

Donc, c'est mieux "solution" (cité car il est plus probable solution de contournement) est:
```
pathsElement.setTextContent("");
```
Cela supprime complètement inutile des lignes vides. Il est certainement mieux que l'élimination de tous les nœuds enfants. Brad, cela devrait fonctionner pour vous aussi.

Mais, c'est un effet, non une cause, et nous avons obtenu comment faire pour supprimer cet effet et non la cause.

Cause est: quand nous appelons removeChild(), il supprime cet enfant, mais il laisse tiret de l'enfant supprimé, et saut de ligne trop. Et ce indent_and_like_break est traité comme un texte de contenu.

Donc, pour supprimer la cause, nous devrions comprendre comment faire pour supprimer à l'enfant et à son retrait. Bienvenue sur mon question à propos de cette.

Yup, beaucoup plus simple... en supposant que vous NE voulez aveuglément supprimer tous les nœuds enfants sans savoir ce qu'ils sont. 🙂

OriginalL'auteur Dmitry Frank

Je suis à l'aide de code ci-dessous:

System.out.println("Start remove textnode");
        i=0;
        while (parentNode.getChildNodes().item(i)!=null) {
            System.out.println(parentNode.getChildNodes().item(i).getNodeName());
            if (parentNode.getChildNodes().item(i).getNodeName().equalsIgnoreCase("#text")) {
                parentNode.removeChild(parentNode.getChildNodes().item(i));
                System.out.println("text node removed");
            }
            i=i+1;

        }

Merci ça fonctionne parfaitement !

OriginalL'auteur Jlearner

0

Quelques remarques:
1) Lors de la manipulation de XML (suppression des éléments /ajout de nouveau) je conseil vivement de vous utiliser XSLT (et pas DOM)
2) Lorsque vous transformer un Document XML en XSLT (comme vous le faites dans votre méthode save), définissez la OutputKeys.TIRET à "no"
3) Pour une simple post-traitement de vos données xml (en supprimant les espaces blancs, les commentaires, etc.) vous pouvez utiliser un simple SAX2 filtre

OriginalL'auteur rmuller

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setIgnoringElementContentWhitespace(true);

Ce ne sera pas ignorer les espaces blancs dans le nouveau XML généré.Testé cette.

OriginalL'auteur Tai Le

0

Il y a un moyen très simple de se débarrasser des lignes vides si à l'aide d'un DOM de la manipulation de l'API (par exemple DOM4J):
- place le texte que vous souhaitez conserver dans une variable(c'est à dire text)
- définir le nœud de texte pour "" à l'aide de node.setText("")
- définir le nœud de texte à text à l'aide de node.setText(text)
et le tour est joué! il n'y a plus des lignes vides. Les autres réponses délimiter très bien comment les extra lignes vides dans le fichier xml de sortie sont en fait des extra nœuds de type texte.

Cette technique peut être utilisée avec n'importe quel DOM l'analyse du système, tant que le nom de le texte est modifié pour l'adapter à celle de votre API, donc la façon de représenter un peu plus abstraite.

Espère que cela aide:)

OriginalL'auteur GMasucci

Vous devez vous connecter pour publier un commentaire.