Créer le fichier de Sortie avec plusieurs lignes (Python)

J'ai un fichier avec des données spécifiques, je voudrais tirer.

Le fichier ressemble à ceci:

DS User ID 1  
random garbage  
random garbage  
DS  N user name 1   
random garbage  
DS User ID 2   
random garbage  
random garbage  
DS  N user name 2

Pour l'instant j'ai:

import sys  
import re  
f = open(sys.argv[1])

strToSearch = ""

for line in f:
        strToSearch += line

patFinder1 = re.compile('DS\s+\d{4}|DS\s{2}\w\s{2}\w.*|DS\s{2}N', re.MULTILINE)

for i in findPat1:  
    print(i)

Ma sortie à l'écran ressemble à ceci:

DS user ID 1  
DS  N user name 1  
DS user ID 2  
DS  N user name 2

Si je écrire ce fichier à l'aide de:

outfile = "test.dat"   
FILE = open(outfile,"a")  
FILE.writelines(line)  
FILE.close()

Tout est poussé à une seule ligne:

DS user ID 1DS  N user name 1DS user ID 2DS  N user name 2

Je peux vivre avec le premier scénario de la sortie. Idéalement si j'aimerais bande de la " DS " et "DS N' à partir du fichier de sortie et l'ont séparés par des virgules.

User ID 1,user name 1  
User ID 2, username 2

Aucune idée sur la façon d'obtenir ce que c'est possible?

Salut, bienvenue sur StackOverflow. Veuillez prendre quelques minutes pour vous familiariser avec l'éditeur, en particulier le Code du bouton {} que vous pouvez utiliser pour mettre en forme le code.
Ce qui est bien évidemment pas votre véritable programme. Pour un, vous n'êtes jamais à l'aide de la regex. Il également ne pas correspondre les échantillons que vous avez fourni, au moins la plupart d'entre eux. Vous n'avez jamais définir findPat1.
Veuillez décrire clairement ce que vos données d'entrée ressemble à et quels sont les critères que vous utilisez pour correspondre. À partir de vos échantillons, il semble que la recherche de lignes qui commencent par DS devrait être assez - si ce n'est pas le cas, veuillez indiquer les règles. Vous semblez essayer de faire correspondre correspondant ID d'utilisateur/nom d'utilisateur entrées. Nous pouvons sûrement vous montrer une meilleure façon de le faire, si nous savons ce que vous faites.

OriginalL'auteur user639302 | 2011-03-01

python text

5

Il est difficile de fournir une solution robuste sans compréhension réelle des format des données d'entrée, le degré de flexibilité est permise, et comment l'analyse des données va être utilisé.

Juste l'exemple d'entrée/sortie de données ci-dessus, on peut faire cuire rapidement un exemple de code:
```
out = open("test.dat", "a") # output file

for line in open("input.dat"):
    if line[:3] != "DS ": continue # skip "random garbage"

    keys = line.split()[1:] # split, remove "DS"
    if keys[0] != "N": # found ID, print with comma
        out.write(" ".join(keys) + ",")
    else: # found name, print and end line
        out.write(" ".join(keys[1:]) + "\n")
```
Fichier de sortie sera:
```
User ID 1,user name 1
User ID 2,user name 2
```
Ce code peut bien sûr être beaucoup plus robuste à l'aide de regex si la spécification de format est connu. Par exemple:
```
import re
pat_id = re.compile(r"DS\s+(User ID\s+\d+)")
pat_name = re.compile(r"DS\s+N\s+(.+\s+\d+)")
out = open("test.dat", "a")

for line in open("input.dat"):
    match = pat_id.match(line)
    if match: # found ID, print with comma
        out.write(match.group(1) + ",")
        continue
    match = pat_name.match(line)
    if match: # found name, print and end line
        out.write(match.group(1) + "\n")
```
Les deux exemples ci-dessus suppose que l'Utilisateur "ID X" vient toujours avant "N nom d'utilisateur X", d'où l'respectives de fuite caractères de "," et "\n".

Si la commande n'est pas spécifique, on peut stocker les valeurs dans un dictionnaire à l'aide de l'IDENTIFIANT numérique comme une clé, puis imprimer l'ID/nom de pair après tous les commentaires ont été analysés.

Si vous fournissez plus d'infos, peut-être que nous pouvons être de plus d'aide.

Fonctionne très bien et exactement ce dont j'avais besoin. Merci. En essayant de se débarrasser de la DS et DS N et il sera parfait.
Excellent truc incroyablement utile explication.

OriginalL'auteur Shawn Chin
4

print ajoute un caractère de saut de ligne après les arguments, mais writelines ne le fait pas. Donc, vous devez écrire comme:
```
file = open(outfile, "a")
file.writelines((i + '\n' for i in findPat1))
file.close()
```
La writelines déclaration peut aussi être écrit comme:
```
for i in findPat1:
    file.write(i + '\n')
```
nice one, +1 de moi.

OriginalL'auteur Jan Hudec
1
```
FILE.writelines(line)
```
ne pas ajouter de ligne de séparateurs.

Viens de faire:
```
FILE.write(line + "\n")
```
Ou:
```
FILE.write("\n".join(lines))
```
OriginalL'auteur stderr

import re

ch ='''\
DS User ID 1
random garbage
random garbage
DS  N user name 1
random garbage
DS User ID 2
random garbage
random garbage
DS  N user name 2'''

RE = '^DS (User ID (\d+)).+?^DS  N( user name \)'

with open('outputfile.txt','w') as f:
    for match in re.finditer(RE,ch,re.MULTILINE|re.DOTALL):
        f.write(','.join(match.groups())+'\n')

EDIT:

remplacé

RE = '^DS (User ID \d+).+?^DS  N( user name \d+)'

avec

RE = '^DS (User ID (\d+)).+?^DS  N( user name \)'

OriginalL'auteur eyquem

Vous devez vous connecter pour publier un commentaire.