Un fichier XML non valide de caractères (Unicode: 0xc) a été trouvé

L'analyse d'un fichier XML à l'aide de Java DOM parser résultats dans:

[Fatal Error] os__flag_8c.xml:103:135: An invalid XML character (Unicode: 0xc) was found in the element content of the document.
org.xml.sax.SAXParseException: An invalid XML character (Unicode: 0xc) was found in the element content of the document.
    at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
    at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
    at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)

InformationsquelleAutor Ashish | 2011-04-21

40

Il y a quelques personnages qui sont dissallowed dans des documents XML, même si vous encapsuler les données dans CDATA-blocs.

Si vous avez créé le document, vous devrez ~~entité encoder ou~~ bande de sortir. Si vous avez un errorneous document, vous devez vous débarrasser de ces personnages avant d'essayer de l'analyser.

Voir des dolmens de réponse dans ce fil: Caractères non valides dans le XML

Où il a des liens vers cet article: http://www.w3.org/TR/xml/#charsets

Fondamentalement, tous les caractères ci-dessous 0x20 est rejetée, à l'exception de 0x9 (ONGLET), 0xA (CR?), 0xD (LF?)
- +1 - pour l'essentiel, l'OP problème est que le fichier XML, il est tentant d'analyser n'est pas valide.
- codage d'entité ne fonctionne pas; la valeur n'est tout simplement pas autorisés dans le texte en XML
- bon à savoir, va modifier la réponse en conséquence
InformationsquelleAutor jishi

public String stripNonValidXMLCharacters(String in) {
    StringBuffer out = new StringBuffer(); //Used to hold the output.
    char current; //Used to reference the current character.

    if (in == null || ("".equals(in))) return ""; //vacancy test.
    for (int i = 0; i < in.length(); i++) {
        current = in.charAt(i); //NOTE: No IndexOutOfBoundsException caught here; it should not happen.
        if ((current == 0x9) ||
            (current == 0xA) ||
            (current == 0xD) ||
            ((current >= 0x20) && (current <= 0xD7FF)) ||
            ((current >= 0xE000) && (current <= 0xFFFD)) ||
            ((current >= 0x10000) && (current <= 0x10FFFF)))
            out.append(current);
    }
    return out.toString();
}

Si vous pouvez Écrire une Regex solution serait robuste et rapide
regex est généralement plus lent, le code ci-dessus serait plus rapide car il seulement une chose

InformationsquelleAutor Dima

6

Le caractère 0x0C est invalide en XML 1.0, mais serait un caractère valide dans XML 1.1. Donc, à moins que le fichier xml spécifie la version 1.1 dans le prologue, il est tout simplement pas valide et vous devriez vous plaindre pour le producteur de ce fichier.

InformationsquelleAutor Jörn Horstmann
2

Ce lien a un code java qui fonctionne parfaitement bien.

http://blog.mark-mclaren.info/2007/02/invalid-xml-characters-when-valid-utf8_5873.html

InformationsquelleAutor Vikram
2

Chaque fois que xml non valide personnage vient xml, il donne une telle erreur. Lorsque u ouvrir dans notepad++ il ressemble VT, SOH,FF, comme ceux-ci xml non valide caractères. Je m à l'aide de xml version 1.0 et je valide les données de texte avant d'entrer dans la base de données par le modèle
```
Pattern p = Pattern.compile("[^\u0009\u000A\u000D\u0020-\uD7FF\uE000-\uFFFD\u10000-\u10FFF]+"); 
retunContent = p.matcher(retunContent).replaceAll("");
```
Il veille à ce qu'aucun invalid char spécial entrera en xml
- Le modèle que vous fournissez sont correctes, mais ne compile pas car il est. Vous avez besoin de s'échapper. Le bon est Pattern.compile("[^\\u0009\\u000A\\u000D\\u0020-\\uD7FF\\uE000-\\uFFFD\\u10000-\\u10FFF]+")
InformationsquelleAutor Komal

Vous pouvez filtrer tous les 'invalide' caractères avec un custom FilterReader classe:

public class InvalidXmlCharacterFilter extends FilterReader {

    protected InvalidXmlCharacterFilter(Reader in) {
        super(in);
    }

    @Override
    public int read(char[] cbuf, int off, int len) throws IOException {
        int read = super.read(cbuf, off, len);
        if (read == -1) return read;

        for (int i = off; i < off + read; i++) {
            if (!XMLChar.isValid(cbuf[i])) cbuf[i] = '?';
        }
        return read;
    }
}

Et l'exécuter comme ceci:

InputStream fileStream = new FileInputStream(xmlFile);
Reader reader = new BufferedReader(new InputStreamReader(fileStream, charset));
InvalidXmlCharacterFilter filter = new InvalidXmlCharacterFilter(reader);
InputSource is = new InputSource(filter);
xmlReader.parse(is);

InformationsquelleAutor Vadim Zin4uk

0

J'ai fait face à un problème similaire où XML contenant des caractères de contrôle. Lorsque l'on regarde le code, j'ai trouvé qu'une classe déprécié,StringBufferInputStream, a été utilisé pour la lecture de la chaîne de contenu.

http://docs.oracle.com/javase/7/docs/api/java/io/StringBufferInputStream.html
```
This class does not properly convert characters into bytes. As of JDK 1.1, the preferred way to create a stream from a string is via the StringReader class.
```
Je l'ai changé pour ByteArrayInputStream et il a bien fonctionné.

InformationsquelleAutor Mohit
0

Pour les personnes qui sont la lecture de tableau d'octets en Chaîne et en essayant de les convertir à l'objet avec JAXB, vous pouvez ajouter "iso-8859-1" de l'encodage par la création de la Chaîne de tableau d'octets comme ceci:

Chaîne JAXBallowedString= new String(byte [entrée], "iso-8859-1");

Ce serait de remplacer le conflit octet de octet de codage qui JAXB peut gérer. Évidemment, cette solution est uniquement pour parser le xml.

InformationsquelleAutor user2770401
0

Toutes ces réponses semblent partir du principe que l'utilisateur est la génération de la mauvaise XML, plutôt que de la recevoir de gSOAP, qui devrait savoir mieux!
- Puis à nouveau, il pourrait être un problème d'accès à la mémoire qui corrompt le contenu.
InformationsquelleAutor Jerry Miller

Vous devez vous connecter pour publier un commentaire.