Est-il un moyen d'échapper à une CDATA fin jeton en xml?

Je me demandais si il existe un moyen d'échapper à une CDATA fin jeton (]]>) dans une section CDATA dans un document xml. Ou, plus généralement, s'il existe une séquence d'échappement pour l'utilisation dans un CDATA (mais si ça existe, je pense qu'il faudrait probablement seulement du sens pour échapper à commencer ou à la fin des jetons, de toute façon).

Fondamentalement, vous pouvez avoir un début ou de fin de jeton incorporé dans un CDATA et de dire à l'analyseur de ne pas l'interpréter, mais de la traiter comme une séquence de caractères.

Probablement, vous devez juste refactoriser votre structure xml ou votre code si vous vous trouvez en essayant de le faire, mais même si j'ai été travailler avec xml sur une base quotidienne pour les 3 dernières années et je n'ai jamais eu ce problème, je me demandais si c'était possible. Juste de la curiosité.

Edit:

Autres que d'utiliser le codage html...

Tout d'abord, j'accepte la réponse comme correcte mais attention: Rien n'empêche quelqu'un de codage > comme > dans CData à assurer intégré ]]> ne sera pas analysée comme CDEnd. Cela signifie tout simplement que c'est inattendu et que & doit d'ABORD être encodé comme & trop de sorte que les données peuvent être correctement décodés. Les utilisateurs de ce document doit savoir décoder ce CData trop. Il n'est pas rare, car une partie de l'objet de la CData est de contenir le contenu que le consommateur comprenne comment gérer. Une telle CData tout ne peut pas être prévu pour être interprété correctement par n'importe quel générique de consommation.
CDATA fournit simplement une façon explicite de déclarer nœud de texte de contenu, telles que la langue des jetons dans un délai de (autre que ]]>) n'obtiennent pas analysée. Concrètement, il ne se développe pas de références d'entité > pour cette raison, donc, dans un bloc CDATA, cela veut simplement dire que ces quatre caractères, pas " >'. Pour le mettre en perspective: dans le xml spécification, tout le texte contenu est appelé "cdata", et pas seulement de ces séquences ("données de caractère"). Ce n'est pas le sujet spécifique de consommer des agents. (Une telle chose n'existe pas si -- instructions de traitement (<?instruction cible?>).
(Je dois ajouter, même si ce genre de chose va à l'encontre de l'intention initiale du nœud, tout est juste dans la long & tortueux bataille avec XML. Je viens de sentir qu'elle pourrait être utile pour les lecteurs de savoir que <![CDATA[]]> n'a pas été conçu à cette fin.)
CDATA a été conçu pour permettre quoi que ce soit: ils sont utilisés pour échapper à des blocs de texte contenant des caractères qui seraient autrement reconnu comme le balisage Qui implique CDATA trop car il est aussi le balisage. Mais, en fait, vous n'avez pas besoin du double encodage, j'implicite. ]]> est un moyen acceptable de codage d'un CDEnd dans un CDATA.
Vrai, vous n'auriez pas besoin de double encodage -- mais vous auriez encore besoin de l'agent d'avoir de connaissances particulières, puisque l'analyseur de ne pas analyser les > comme >. C'est ce que tu veux dire mais, je pense? Que vous pourriez les remplacer comme bon vous semble, après l'analyse?

InformationsquelleAutor Juan Pablo Califano | 2008-10-21

133

Clairement, cette question est purement académique. Heureusement, il a une réponse définitive.

Vous ne pouvez pas échapper à une CDATA fin de la séquence. La Production de la règle 20 du XML spécification est tout à fait clair:
```
[20]    CData      ::=      (Char* - (Char* ']]>' Char*))
```
EDIT: Ce produit règle signifie littéralement "Une section CData peut contenir tout ce que vous voulez, MAIS la séquence"]] >'. Aucune exception.".

EDIT2: Le même section lit aussi:

Dans une section CDATA, seul le CDEnd chaîne est reconnu comme le balisage, de sorte que l'angle gauche des crochets et des arobases peut se produire dans leur littérale de la forme; ils ne doivent pas (et ne peut) être échappé à l'aide de "<" et "&". Les sections CDATA ne peut pas nid.

En d'autres termes, il n'est pas possible d'utiliser de l'entité de référence, de balisage ou de toute autre forme d'interpréter la syntaxe. La seule analysé le texte à l'intérieur d'une section CDATA est ]]>, et il termine la section.

Par conséquent, il n'est pas possible d'échapper à ]]> dans une section CDATA.

EDIT3: La même section lit aussi:

2.7 Sections CDATA

[Définition: les sections CDATA peut se produire n'importe où de caractères de données peut se produire; ils sont utilisés pour échapper à des blocs de texte contenant des caractères qui seraient autrement reconnu comme le balisage. Les sections CDATA commence par la chaîne "<![CDATA[" et à la fin avec la chaîne de caractères "]]>":]

Alors il y a peut être une section CDATA partout personnage de données peut se produire, y compris adjacentes multiples sections CDATA en place d'une seule section CDATA. Qui permet qu'il soit possible de diviser le ]]> jeton et mettre les deux parties adjacentes des sections CDATA.

ex:
```
<![CDATA[Certain tokens like ]]> can be difficult and <invalid>]]> 
```
devrait être écrit comme
```
<![CDATA[Certain tokens like ]]]]><![CDATA[> can be difficult and <valid>]]> 
```
- En effet. Eh bien, je ne suis pas un type académique, mais comme je l'ai dit dans la question, je suis juste curieux au sujet de cette. Pour être honnête, je vais juste prendre votre parole, parce que je peux à peine le sens de la syntaxe utilisée pour la règle. Merci pour votre réponse.
- Il se lit comme ceci: Char* (l'ensemble de toutes les séquences de caractères) - (sauf) Char* ']]>' Char* (l'ensemble de toutes les séquences de caractères qui comprennent la sous-chaîne ']]>').
- Merci pour la clarification. Je suis de l'acceptation de votre réponse que celle qui est de mieux répondre à la question que j'avais posée. (S. Lott réponse fournit un travail autour de, ce qui est bien, bien qu'il ne s'adresse pas spécifiquement face à une réelle évasion char ou d'une séquence.
- Ce n'est pas une question purement théorique. Pensez à un flux RSS d'un blog qui contient une discussion sur CDATA.
- Je voulais dire "académique" dans le sens: "intéressant de discuter, mais sans usage pratique". Généralement, CDATA n'est pas utile, c'est juste une façon de sérialiser texte XML, et c'est sémantiquement équivalent à échapper les caractères spéciaux à l'aide des entités de caractères < > et ". Caractères entités est la plus simple et la plus robuste et la plus générale de la solution, afin de l'utiliser à la place des sections CDATA. Si vous utilisez une bonne bibliothèque XML (au lieu de construire XML de chaînes de caractères), vous n'avez même pas à y penser.
- Je viens d'avoir mordu par ce parce que je suis en train de coder certains Javascript compressés dans un <script> tag: <script>/*<![CDATA[*/javascript goes here/*]]>*/</script> et mon javascript comprend juste que séquence de! J'aime l'idée de diviser en plusieurs sections CDATA ...
- Si vous deviez ajouter une CDATA extrait de code dans Sublime Text, il faudrait que vous échapper à la séquence de fin (configuration de Sublime se fait presque exclusivement par le biais de JSON et XML fichiers).
- Au lieu de s'échapper à la fin du texte Sublime, vous pouvez le faire: ]${1:Delete me then move along--required to escape CDATA end-tag}]>. Outils > Nouveau Fragment de code... m'agace, parce que l'impression de l'extrait de code de modèle dans un nouveau fichier. Je ne veux pas d'un nouveau fichier, j'ai donc simplement dupliqué le vide extrait de texte dans un autre fichier d'extrait...d'où le besoin.
- J'ai vécu cela dans le monde réel. En lisant le wikipedia de vidage et d'écrire un fichier xml que j'ai rencontré sur la page de la National Transportation Safety Board. Il contenait US$>100 millions de dollars (2013) pour le budget dans l'infobox. La source xml contenu [[United States dollar|US$]]>100 million (2013) qui a été traduit à [[United States dollar|US$]]>100 million (2013) par le lecteur et l'écrivain ont opté pour l'utilisation CDATA pour échapper au texte et a échoué.
- re: it's just a way to serialize XML text ou binaire (non imprimable) de données. re: Characters entities is the simplest, most robust and most general solution pour le texte qui pourraient confondre l'analyseur XML, mais si il y en a beaucoup, il peut être plus efficace de l'espace à utiliser CDATA.
- re: If you use a proper XML library et une bibliothèque digne de ce nom aura méthodes pour ajouter CDATA (imprimable ou non imprimable), qui traitera de l'évasion pour vous, s'il le faut. À l'aide d'une bibliothèque digne de ce nom est certainement le chemin à parcourir.
- Re @jesse-chisholm: je ne suis pas sûr de ce que vous essayez de dire. CDATA pourrait être plus efficace de l'espace, mais pas d'une manière qui devrait avoir de l'importance, puisque personne ne devrait être le transfert de données xml qui n'est pas au format gzip. Après l'analyse, l'utilisation de la mémoire devrait être le même.
- J'ai été en se référant à l'observation Characters entities is the simplest, most robust and most general solution, so use that instead of CDATA sections. If you use a proper XML library (instead of building XML out of strings) you don't even have to think about it. j'ai été acceptez que l'utilisation d'une bibliothèque digne de ce nom a été meilleure que la construction d'XML à la main, mais en désaccord que les entités sont toujours, la plus robuste, car si vous avez beaucoup, puis une CDATA est plus efficace. De toute façon un proper library s'en chargera pour vous. Et gzip rend les données binaires qui a vraiment besoin CDATA.
- donc, la réponse est évidente: ]]> doit être remplacé par: ]]>]]><![CDATA[, en d'autres termes: à proximité de l'actuel CDATA, de type "normal" ]]> mais de s'échapper de la fermeture > et ensuite ouvrir un autre CDATA. Ce serait pour l'astuce.
- La réponse est correcte. Les sections CDATA de ne pas échapper le contenu. Je ne crois pas, si c'est académique mais. Si vous utilisez le format XML pour stocker le contenu dans les sections CDATA, alors vous ne pouvez pas stocker tout le contenu XML car il ne peut pas faire la différence entre le contenu et le balisage. Pour cette raison, la conception de XML est cassé. Il ne parvient pas à la règle fondamentale de l'analyse et de séparateurs: que vous pouvez incorporer des séparateurs dans le contenu à l'échappement. La conception de la CDATA enfreint cette règle. Il y a beaucoup d'autres choses de mal avec le langage XML ainsi, comme la façon dont c'est le droit de jouer avec les espaces dans le contenu. L'utilisation de JSON.
- Mon point est que CDATA est inutile dans le XML. Il n'ajoute pas de l'expressivité (tout ce que vous pouvez faire avec CDATA vous pouvez faire sans elle) et qu'elle offre un idiome qui invite à la erroné fragile modèles: la production de XML par la chaîne de l'interpolation et de consommer de l'XML sans un bon analyseur. Donc CDATA doit être évitée. Par conséquent, les limitations dans CDATA sont "académique".
- C'est très agréable lorsque vous essayez de supprimer les données de caractères à partir de l'html
InformationsquelleAutor ddaa
166

Vous devez briser vos données en morceaux afin de dissimuler la ]]>.

Voici la chose:

<![CDATA[]]]]><![CDATA[>]]>

La première <![CDATA[]]]]> a la ]]. La deuxième <![CDATA[>]]> a la >.
- Merci pour votre réponse. J'étais plutôt à la recherche de quelque chose comme une barre oblique inverse (équivalent au sein de chaînes de caractères en C, PHP, Java, etc). Selon la règle citée par ddaa, il semble comme il n'y a pas une telle chose.
- Ce doit être la accepté de répondre. s'Échapper est un peu ambigu terme, mais cette réponse certainement adresses de l'esprit de s'échapper. Dommage qu'il ne rentre pas dans les OP de la conception étroite de s'échapper, qui arbitrairement exige le caractère barre oblique inverse pour être impliqués pour une raison quelconque.
- C'est la réponse correcte. La question est mal.
- J'aime ce que je peut "obtenir" cette réponse.
- Donc en résumé, échapper ]]> comme ]]]]><![CDATA[>. 5 fois la longueur... wow. Mais alors, il est rare qu'une séquence.
- Non seulement le 5x longueur hilarant, il n'est même pas rare qu'une séquence de code, qui est le principal cas d'utilisation de la CDATA! En supposant comprimé JavaScript qui supprime les espaces, vous pourriez être l'accès à un champ par nom à partir d'un tableau de noms par l'indice, telles que "if(champs[fieldnames[0]]>3)" et maintenant, vous avez à changer pour "if(champs[fieldnames[0]]]]><![CDATA[>3)", qui va à l'encontre de l'objectif de l'aide CDATA à la rendre plus lisible, LOL. J'aimerais verbalement claque celui qui est venu avec la CDATA de la syntaxe.
- S'échapper, ou plus correctement, en les citant, les moyens d'insérer du texte dans un contexte où le texte brut n'a de sens SANS quitter le contexte. Il n'a rien à voir avec les barres obliques inverses. Et cette réponse n'est pas s'échapper ou de le citer car il produit de deux sections CDATA au lieu d'un.
- L'article de Wikipedia pour CDATA est en fait vraiment la question de savoir comment échapper ]]> est répondu par en.wikipedia.org/wiki/CDATA#Nesting -- et non évidente subtils (mais mal) problème d'encodage est discuté trop en.wikipedia.org/wiki/CDATA#Issues_with_encoding où des problèmes peuvent survenir en raison CDATA peut contenir des caractères qui ne sont pas valides pour le codage XML, mais ne peut pas être convertie à quoi que ce soit valide, car ils sont dans la section CDATA.
- c'est un bon exemple. Il suffirait d'insérer un espace unique: if(fields[fieldnames[0]] >3), ou deux espaces autour de >, mais cela rend automatique JS minification plus difficile. (> et >> opérateurs?).
- Ceux qui s'opposent sur le sens de "s'échapper" sont en train d'être pédant. C'est comme dire que vous ne pouvez pas appeler a='<scr'+'ipt>' ou foo.com/bar%20gaz s'échapper, tout simplement parce que bien que linguistiquement précises, il n'est pas l'exacte nomenclature technique. Oui il y a plusieurs sections CDATA, et oui, dans de rares cas, des questions. Mais, selon Oxford la définition large de l'informatique est de "causer des caractère(s) d'interpréter différemment". Dans ce cas et les cas mentionnés, il arrive.
InformationsquelleAutor S.Lott
15

Vous n'échappent pas à la ]]> mais vous échapper à la > après ]] par l'insertion, ]]><![CDATA[ avant la >, pensez à ceci comme un \ en C/Java/PHP/Perl chaîne, mais seulement nécessaire avant de > et après un ]].

BTW,

S. Lott la réponse est la même comme cela, il suffit de libellée différemment.
- Je préfère cette formulation. 🙂
- Cette manière de dire qu'il donne aux gens une idée fausse. C'est pas s'échapper. ]]]]><![CDATA[> n'est pas une suite magique pour ]]>. ]]]]> a ]] personnages de données, et ]]> met fin à une section CDATA. <![CDATA[> commence une nouvelle section CDATA et met > en elle. Ils sont en fait deux éléments différents et seront traités différemment lorsque l'on travaille avec un DOM parser. Vous devriez être conscient de cela. Cette façon de faire, il est semblable à ]]]><![CDATA[]>, sauf qu'il met ] dans la première et la ]> dans la deuxième CDATA. La différence reste.
- La différence est surestimé, car CDATA contenu est traité comme un littéral span échappé de texte. Seulement lorsque déconner avec le DOM est-il vraiment important, et à ce niveau, vous avez à traiter avec d'autres des frontières invisibles de toute façon, comme du texte, des commentaires et des instructions de traitement de nœuds.
InformationsquelleAutor Jason Pyeron
7

S. Lott la réponse est juste: vous n'avez pas encoder la balise de fin, vous cassez travers de multiples sections CDATA.

Comment exécuter sur ce problème dans le monde réel: à l'aide d'un éditeur XML pour créer un document XML qui seront introduits dans un système de gestion de contenu, essayez d'écrire un article sur les sections CDATA. Votre ordinaire truc de l'incorporation des exemples de code dans une section CDATA échouera vous ici. Vous pouvez imaginer comment j'ai appris cela.

Mais dans la plupart des cas, vous ne rencontrerez pas de cela, et voici pourquoi: si vous voulez enregistrer (par exemple) le texte d'un document XML comme le contenu d'un élément XML, vous aurez probablement utiliser une méthode DOM, par exemple:
```
XmlElement elm = doc.CreateElement("foo");
elm.InnerText = "<[CDATA[[Is this a problem?]]>";
```
Et les DOM très raisonnablement s'échappe de l' < et >, ce qui signifie que vous n'avez pas par inadvertance a incorporé une section CDATA dans votre document.

Oh, et c'est intéressant:
```
XmlDocument doc = new XmlDocument();

XmlElement elm = doc.CreateElement("doc");
doc.AppendChild(elm);

string data = "<![[CDATA[This is an embedded CDATA section]]>";
XmlCDataSection cdata = doc.CreateCDataSection(data);
elm.AppendChild(cdata);
```
C'est probablement une ideosyncrasy de la .NET DOM, mais qui ne lance pas d'exception. L'exception est lancée ici:
```
Console.Write(doc.OuterXml);
```
Je suppose que ce qui se passe sous le capot, c'est que le XmlDocument est à l'aide d'un XmlWriter produire sa sortie, et le XmlWriter vérifie les documents bien-formés comme il écrit.
- Eh bien, j'ai eu presque le "monde réel" par exemple. J'ai l'habitude de charger le fichier Xml à partir de Flash qui contient des balises html à l'intérieur des sections CDATA. Avoir un moyen de s'échapper, il pourrait être utile, je pense. Mais de toute façon, dans ce cas, la CDATA contenu est généralement valide XHTML, et ainsi de l ' "extérieur" CDATA pourraient être évités.
- CDATA peut presque toujours être évités. Je trouve que les gens qui luttent avec CDATA très souvent ne comprennent pas ce qu'ils sont vraiment en train de faire et/ou comment la technologie qu'ils utilisent fonctionne vraiment.
- Oh, je dois aussi ajouter que la seule raison que le CMS je l'ai mentionné dans ma réponse utilisé CDATA était que je l'ai écrit, et je ne comprenais pas ce que j'étais vraiment en train de faire et/ou le fonctionnement de la technologie. Je n'ai pas besoin d'utiliser CDATA.
- Si vous êtes en utilisant .net, le précédent commentaire à propos CDATA être évitable en spot - il suffit d'écrire le contenu d'une chaîne et le cadre va faire tous les s'échapper (et unescaping sur la lecture) pour vous dans le monde réel....... xmlStream.WriteStartElement("UnprocessedHtml"); xmlStream.WriteString(UnprocessedHtml); xmlStream.WriteEndElement();
InformationsquelleAutor Robert Rossney
5

il suffit de remplacer ]]> avec ]]]]><![CDATA[>

InformationsquelleAutor Thomas Grainger
3

Voici un autre cas d' ]]> doit être échappé. Supposons que nous avons besoin d'enregistrer un bon document HTML à l'intérieur d'un bloc CDATA d'un document XML et le code source HTML qui arrive à avoir son propre bloc CDATA. Par exemple:
```
<htmlSource><![CDATA[ 
    ... html ...
    <script type="text/javascript">
        /* <![CDATA[ */
        -- some working javascript --
        /* ]]> */
    </script>
    ... html ...
]]></htmlSource>
```
le commentaire CDATA suffixe doit être modifié pour:
```
        /* ]]]]><![CDATA[> *//
```
depuis un analyseur XML n'est pas de savoir comment gérer le javascript blocs de commentaires
- Ce n'est pas un cas particulier. Il suffit de remplacer ]]> avec ]]]]><![CDATA[> s'applique encore ici. Le fait que c'est du JavaScript, ou de commentaire n'est pas important.
InformationsquelleAutor Shawn Becker
1

En PHP: '<![CDATA['.implode(explode(']]>', $string), ']]]]><![CDATA[>').']]>'

InformationsquelleAutor user2194495

D'une façon plus propre en PHP:

   function safeCData($string)
   {
      return '<![CDATA[' . str_replace(']]>', ']]]]><![CDATA[>', $string) . ']]>';
   }

N'oubliez pas d'utiliser un multi-octets sûr str_replace si nécessaire (non latin1 $string):

   function mb_str_replace($search, $replace, $subject, &$count = 0)
   {
      if (!is_array($subject))
      {
         $searches = is_array($search) ? array_values($search) : array ($search);
         $replacements = is_array($replace) ? array_values($replace) : array ($replace);
         $replacements = array_pad($replacements, count($searches), '');
         foreach ($searches as $key => $search)
         {
            $parts = mb_split(preg_quote($search), $subject);
            $count += count($parts) - 1;
            $subject = implode($replacements[$key], $parts);
         }
      }
      else
      {
         foreach ($subject as $key => $value)
         {
            $subject[$key] = mb_str_replace($search, $replace, $value, $count);
         }
      }
      return $subject;
   }

Pouvez-vous expliquer votre downvote? Dire que j'ai fait une erreur n'est pas aussi utile que d'expliquer où il est.

InformationsquelleAutor Alain Tiemblo

0

Une autre solution est de remplacer ]]> par ]]]><![CDATA[]>.
- Double de une autre réponse.
- n'est pas égal à ]]]]><![CDATA[>
- Le principe est le même et la différence est si modeste qu'il ne mérite pas une autre réponse, de l'OMI.
InformationsquelleAutor mik
0

Voir cette structure:
```
<![CDATA[
   <![CDATA[
      <div>Hello World</div>
   ]]]]><![CDATA[>
]]>
```
Pour l'intérieure de la balise CDATA(s), vous devez fermer avec ]]]]><![CDATA[> au lieu de ]]>. Simple que cela.

InformationsquelleAutor Chad Kuehn

Vous devez vous connecter pour publier un commentaire.