Moins utilisés caractère délimiteur de texte normal < ASCII 128

Pour le codage des raisons qui seraient horrifiés vous (je suis trop gêné pour le dire), j'ai besoin de stocker un certain nombre d'éléments de texte dans une chaîne unique.

Je vais délimiter entre eux à l'aide d'un personnage.

Le caractère qui est le meilleur à utiliser pour ce, c'est à dire le caractère qui est le moins susceptible d'apparaître dans le texte? Doit être imprimable et probablement moins de 128 en ASCII pour éviter de paramètres régionaux questions.

Merci de ne pas être embarrased. Vous devez ignorer toutes les personnes qui disent "oh, c'est une merde manière, le faire à la place". Ce n'est pas pour les intervenants à la question pourquoi, pour eux de répondre à comment. Je ne m'inquiète pas pourquoi vous êtes dans cette position. J'ai été dans un peu de moi. Bonne chance!
J'ai eu ce même problème..et je suis allé avec tube avant de le googler ou la pile déborde...parce que j'ai aimé la façon dont il a regardé--- | ----comme un skinney personne.
Il dépend du type de texte. Certains types de texte utilise rarement les caractères de tabulation j'ai donc souvent aller avec qui. Mais d'autres types de texte y compris le code source souvent le fait de l'utiliser. Ne pouvez-vous pas faire quelques stats sur votre texte source? Ne pouvez-vous pas ajouter des caractères d'échappement dans votre texte source et ainsi utiliser tout ce que vous voulez comme délimiteur?
ne se posant pas de & ne pas essayer c'est bien pire que d'être gêné de poser tout type de question. Je suis ici pour répondre à la même question et je suis fière de moi que j'ai quelques autres personnes qui partagent le même problème avec moi 🙂
Pour ceux qui ont un | dans leur texte, j'ai effectivement eu un cas où j'avais besoin de garder les caractères vers un minimum autant que possible. Puisque la plupart des domaines où les cordes avec un texte intéressant, CSV ne fonctionne pas en raison de trop s'échapper. Notre séparateur de champ est /|. La barre oblique n'est que modérément commune, mais couplé avec un tuyau de ne jamais vous exécutez en elle. J'ai été en utilisant un moteur qui reçoit beaucoup de données transmises par le biais de tous les jours. Cela n'a jamais rompu, et je n'ai jamais eu besoin d'encapsuler une seule chaîne de caractères, ou d'échapper à un caractère spécial. En moyenne, ce mécanisme nous a sauvés d'un peu de pourcentage de texte.

InformationsquelleAutor | 2009-01-29

31

En supposant que pour certains embarrassant raison pour laquelle vous ne pouvez pas utiliser CSV, je dirais aller avec les données. Prenons quelques exemples de données, et de faire une simple nombre de caractères pour chaque valeur de 0 à 127. Choisissez l'un de ceux qui ne se produit pas. Si il y a trop de choix à obtenir un plus grand ensemble de données. Il ne prendra pas beaucoup de temps pour écrire, et vous aurez la réponse le mieux pour vous.

La réponse sera différente pour différents domaines de problème, de sorte que | (pipe) est commun dans les scripts shell, ^ est commun dans les formules mathématiques, et la même chose est probablement vrai pour la plupart des autres personnages.

Personnellement, je pense que j'irais pour | (pipe), si, étant donné un choix, mais d'aller avec des données réelles est plus sûr.

Et quoi que vous fassiez, assurez-vous que vous avez travaillé un échapper schéma!
- Je n'irais pas le ridiculiser ici. Dans un magento 2 d'exportation de produits de fusion d'un certain nombre d'attributs à une seule colonne de csv appelé additional_attributes.
- Pourquoi ne pas simplement remplacer tous les caractères de tabulation dans le texte avec quatre espaces et utiliser un caractère de tabulation \t comme délimiteur?
InformationsquelleAutor Nick Fortescue
21

Je choisirais "Unité de Séparateur" code ASCII "NOUS": ASCII 31 (0x1F)

Dans l'ancien, le vieux jours, la plupart des choses ont été faites en série, sans accès aléatoire. Cela signifie que quelques-uns des codes de contrôle ont été intégrés en ASCII.
```
ASCII 28 (0x1C) File Separator - Used to indicate separation between files on a data input stream.
ASCII 29 (0x1D) Group Separator - Used to indicate separation between tables on a data input stream (called groups back then).
ASCII 30 (0x1E) Record Separator - Used to indicate separation between records within a table (within a group).  These roughly map to a tuple in modern nomenclature.
ASCII 31 (0x1F) Unit Separator - Used to indicate separation between units within a record.  The roughly map to fields in modern nomenclature.
```
Unité de Séparateur est en ASCII, et il est le support de l'Unicode pour l'affichage (généralement un "nous" dans le même glyphe), mais de nombreuses polices de ne pas l'afficher.

Si vous devez l'afficher, je vous recommande de les afficher dans l'application, après qu'il a été analysé dans les champs.

InformationsquelleAutor Edwin Buck
17

Probablement | ou ^ ou ~ vous pouvez également combiner deux personnages
- en utilisant deux fois la même volonté d'éviter tout malentendu. Comme || ou ##
InformationsquelleAutor SQLMenace
14

Lors de l'utilisation de langues différentes, ce symbole:

s'est avéré être le meilleur. Cependant, je suis encore en test.
- J'aime cette idée, mais je suis curieux de savoir si vous êtes en mesure de fichier contenant des chaînes de caractères comme "Billy""Voiture""Rouge""Garage""3" et l'utilisation de coupe. (ie. $cut-d"" -f1 myfile.delim)
- J'ai ajouté à cette question à pile ici: stackoverflow.com/questions/19821639/...
- Ce n'est pas l'ASCII.
InformationsquelleAutor Icarin
13

Vous avez dit "imprimable", mais qui peut inclure des caractères tels que un onglet (0x09) ou de la forme de l'aliment (0x0c). J'ai presque toujours choisir des onglets plutôt que de virgules pour les fichiers délimités par des, depuis des virgules peuvent parfois apparaître dans le texte.

(Curieusement le table ascii a des caractères GS (0x1D), RS (0x1E), et NOUS (0x1F) pour le groupe, d'enregistrer et de l'unité de séparateurs, quelle que soit ceux sont/ont.)

Si par "imprimer" vous voulez dire un personnage qu'un utilisateur pouvait reconnaître et d'entrer facilement, je pencherais pour le tuyau | symbole d'abord, avec quelques autres caractères bizarres (@ ou ~ ou ^ ou \, ou backtick qui je n'arrive pas à entrer ici) comme une possibilité. Ces caractères +=!$%&*()-'":;<>,.?/ semblent comme ils seraient plus susceptibles de se produire dans la saisie de l'utilisateur. Comme pour souligner _ de hachage et de # et les supports {}[] je ne sais pas.
- Le code ASCII standard tableau ne comprennent quatre codes de contrôle spécialement conçu à cet effet, tel que mentionné par Jason S ci-dessus. Ils sont: 28 FS Séparateur de Fichiers, 29 GS Séparateur de Groupe, 30 RS le Séparateur d'Enregistrement, 31 US Unité de Séparateur. Malheureusement, presque personne ne les utilise bien, c'est exactement ce à quoi ils étaient destinés. Personnellement, j'ai horreur de CSV format de fichiers que beaucoup de gens ne pense pas que des choses à travers et faire un désordre que nous les programmeurs ont à traiter si nous voulons soutenir leurs formats de fichier.
- c'est probablement la meilleure réponse ici. À moins que l'contient des données binaires ou non-standard ascii/unicode puis ce sera toujours travailler dans n'importe quelle langue. Vous devez activer cette une réponse.
- avez-vous des pouvoirs pour marquer ce que l'on a accepté la réponse ? Plus utiles lorsque vous traitez avec de l'utilisateur des données d'entrée pleine de détritus. Note pour les autres: ALT+31 à NOUS (0x1F) dans Windows.
InformationsquelleAutor Jason S
13

Que diriez-vous d'utiliser un fichier CSV format de style? Les caractères peuvent être échappé dans un standard format CSV, et il y a déjà beaucoup d'analyseurs déjà écrit.
- J'aime mieux que mon idée. +1.
- Je pense qu'une virgule compte comme caractère commun dans le texte normal. Si c'était aussi simple que d'utiliser CSV je doute qu'il y aurait un besoin de poser la question...
- csv traite avec des virgules dans le texte normal ainsi que quelques autres questions. Donc, il dosn pas question qu'il y a une virgule déjà dans le texte. Autant que je me souvienne, il met le texte entre guillemets et s'échappe des citations.
- tout à fait exact. Voici un article de wikipédia mentionner comment échapper schéma fonctionne: en.wikipedia.org/wiki/Comma-separated_values
- Pour dire les choses crûment: CVS traiter toutes les questions qui vous n'avez pas pensé et assurez-vous que vous n'aurez pas à fixer votre "solution" à toutes les deux semaines, car il se décompose en raison de certains imprévus d'entrée.
- J'ai été en supposant que (peut-être à tort) que les données ne sont pas échappé et pour quelque raison il y a une maîtrise insuffisante de la source de données pour s'assurer qu'il sera correctement échappé. Sinon, il est toujours préférable d'utiliser une bibliothèque existante de cours.
InformationsquelleAutor Alex Fort
9

Pouvez-vous utiliser un symbole de canal? C'est généralement le plus souvent délimiteur après la virgule ou tabulation des chaînes de caractères. Il est peu probable que la plupart de texte contenant une pipe, et ord('|') retourne 124 pour moi, donc, qui semble correspondre à vos besoins.

InformationsquelleAutor Jay
8

Rapide pour s'échapper-je utiliser des trucs comme ça:
dites que vous voulez concatinate str1, str2 et str3
ce que je fais, c'est:
```
delimitedStr=str1.Replace("@","@a").Replace("|","@p")+"|"+str2.Replace("@","@a").Replace("|","@p")+"|"+str3.Replace("@","@a").Replace("|","@p");
```
puis de récupérer usage d'origine:
```
splitStr=delimitedStr.Split("|".ToCharArray());
str1=splitStr[0].Replace("@p","|").Replace("@a","@");
str2=splitStr[1].Replace("@p","|").Replace("@a","@");
str3=splitStr[2].Replace("@p","|").Replace("@a","@");
```
remarque: l'ordre de les remplacer est important

ses incassable et facile à mettre en œuvre
- C'est vraiment la meilleure réponse ici, et le seul bon omi. C'est la seule réponse qui ne peut pas être brisé. Toutes les autres réponses seulement de réduire la probabilité de l'entrée de briser le format, mais c'est une très mauvaise approche. La réponse sélectionnée, à juste titre, parle de l'utilisation d'un échappement schéma comme celui - ci, mais une fois que vous faites le choix de la france est essentiellement hors de propos.
- Le séparateur est pas tout à fait hors de propos. Si vous choisissez un caractère commun - dire un espace ou la lettre "e" - votre échappé à la chaîne va être assez longue, et difficile à lire. Préférable de choisir un personnage hors du commun, c'est pourquoi je préfère encore le symbole de canal pour ce genre de chose.
InformationsquelleAutor Mohammad Amin
2

Tuyau pour la victoire! |

InformationsquelleAutor Eppz
2

Nous utilisons ascii 0x7f qui est de la pseudo-imprimable et à peine vient jamais en utilisation régulière.

InformationsquelleAutor Joe
2

Cela peut être bon ou mauvais (généralement mauvais) en fonction de la situation et de la langue, mais garder l'esprit l'esprit que vous pouvez toujours Base64 encode le tout. Ensuite, vous n'avez pas à vous inquiéter au sujet de l'évasion et de l'unescaping des motifs différents de chaque côté, et vous pouvez simplement les séparer et diviser les chaînes basé sur un personnage qui n'est pas utilisée dans votre Base64 charset.

J'ai eu recours à cette solution lorsqu'ils sont confrontés à mettre des documents XML en XML des propriétés ou des nœuds. Les propriétés ne peuvent pas avoir CDATA blocs en tout, et les nœuds échappé que CDATA de toute évidence ne peut pas avoir plus CDATA des blocs à l'intérieur que sans casser la structure.

CSV est probablement une meilleure idée pour la plupart des situations, si.
- base64 encode est une solution simple, cependant, la principale raison CSV est utilisé, c'est parce que vous n'avez pas à l'analyse du texte, en utilisant base64 vous pourriez tout aussi bien inventer votre propre format entièrement.
InformationsquelleAutor Coxy
1

Bien ça va dépendre de la nature de votre texte dans une certaine mesure, mais une barre verticale 0x7C ne pas des cultures dans le texte très souvent.

InformationsquelleAutor Jackson
1

Je ne pense pas que j'ai jamais vu un commercial suivi par une virgule dans le texte naturel, mais vous pouvez vérifier d'abord le fichier pour voir s'il contient le séparateur, et si oui, utiliser une solution de rechange. Si vous voulez toujours être en mesure de savoir que le délimiteur vous utilisez ne seront pas provoquer un conflit, puis de faire une boucle de vérifier le fichier pour le délimiteur vous voulez, et si elle existe, alors le double de la corde jusqu'à ce que le fichier n'a plus de match. Il n'a pas d'importance si il y a des chaînes similaires parce que votre programme ne exactes délimiteur de matchs.

InformationsquelleAutor
1

À la fois de la pipe et caret sont les choix évidents. Je tiens à préciser que si les utilisateurs sont attendus pour la saisie de la totalité de la réponse, l'accent circonflexe est plus facile à trouver sur un clavier que de la pipe.

InformationsquelleAutor Will Johnson

Vous devez vous connecter pour publier un commentaire.