L'importation de données et les noms de variables à partir d'un fichier texte en Python

J'ai un fichier texte contenant les données de simulation (60 colonnes, 100k lignes):

... où, dans la première ligne sont les noms des variables, et au-dessous (en colonnes) est le correspondant de données (type float).

J'ai besoin d'utiliser l'ensemble de ces variables avec leurs données en Python pour d'autres calculs. Par exemple, lorsque j'insère:

print(b)

J'ai besoin de recevoir les valeurs de la deuxième colonne.

Je sais comment importer des données:

data=np.genfromtxt("1.txt", unpack=True, skiprows = 1)

Attribuer des variables "à la main":

a,b,c=np.genfromtxt("1.txt", unpack=True, skiprows = 1)

Mais je vais avoir de la difficulté à obtenir les noms de variable:

reader = csv.reader(open("1.txt", "rt"))
for row in reader: 
   list.append(row)
variables=(list[0])

Comment puis-je modifier ce code pour obtenir tous les noms de variables à partir de la première ligne et de les affecter à l'importés des tableaux ?

Je ne suis pas tout à fait suite à cette dernière phrase. Demandez-vous comment utiliser les caractères individuels dans la première ligne que les noms de variables que puis maintenez chaque colonne?
Oui, j'ai besoin d'avoir des noms de variables prises à partir de cellules de premier rang. Plus tard, j'ai besoin de multiplier une colonne par un autre ou par une équation et tracer les résultats/enregistrer le fichier.

OriginalL'auteur Michal | 2013-08-10

2

Au lieu d'essayer d'attribuer des noms, vous pouvez penser à l'aide d'un tableau associatif, qui est connu dans Python comme un dict, pour stocker vos variables et de leurs valeurs. Le code pourrait alors ressembler à ceci (emprunt généreusement de la csv docs):
```
import csv
with open('1.txt', 'rt') as f:
  reader = csv.reader(f, delimiter=' ', skipinitialspace=True)

  lineData = list()

  cols = next(reader)
  print(cols)

  for col in cols:
    # Create a list in lineData for each column of data.
    lineData.append(list())


  for line in reader:
    for i in xrange(0, len(lineData)):
      # Copy the data from the line into the correct columns.
      lineData[i].append(line[i])

  data = dict()

  for i in xrange(0, len(cols)):
    # Create each key in the dict with the data in its column.
    data[cols[i]] = lineData[i]

print(data)
```
data contient alors chacun de vos variables, qui peuvent être accessibles via data['varname'].

Ainsi, par exemple, vous pourriez faire data['a'] pour obtenir la liste ['1', '2', '3', '4'] compte tenu de l'entrée fourni dans votre question.

Je pense que d'essayer de créer des noms basés sur les données dans votre document peut être un peu maladroit façon de le faire, par rapport à la dict basée sur la méthode indiquée ci-dessus. Si vous voulez vraiment le faire, cependant, vous devriez regarder dans la réflexion en Python (un sujet que je ne connais vraiment rien à ce sujet).

OriginalL'auteur andyg0808
2

La réponse est: vous ne voulez pas le faire.

Dictionnaires sont conçus pour exactement cet effet: la structure de données que vous fait voulez va être quelque chose comme:
```
data = {
    "a": [1, 2, 3, 4],
    "b": [11, 22, 33, 44],
    "c": [111, 222, 333, 444],
}
```
... que vous pouvez ensuite accéder facilement à l'aide par exemple data["a"].

C'est possible à faire ce que vous voulez, mais la manière habituelle est un hack qui repose sur le fait que Python utilise (roulement de tambour) un dict en interne pour stocker les variables - et depuis votre code ne connais pas le nom de ces variables, vous serez coincé à l'aide du dictionnaire d'accès pour les retrouver ... de sorte que vous pourriez tout aussi bien utiliser un dictionnaire en premier lieu.

Il est intéressant de souligner que c'est délibérément rendue difficile en Python, parce que si votre code ne connaissent pas les noms de vos variables, ils sont par définition des données plutôt que de la logique, et doit être traitée comme telle.

Dans le cas où vous n'êtes pas encore convaincu, voici un bon article sur ce sujet:

Stupide Python Idées: Pourquoi vous ne voulez pas créer dynamiquement des variables

Le "dictionnaire" méthode fonctionne très bien! Cette méthode est adaptée pour les gros fichiers (par exemple, 100 MO de fichiers txt avec 50k lignes)? Que dois-je faire pour multiplier data["un"]*["b"]*la fonction ?
Pour multiplier les éléments de la liste dans data, vous pouvez utiliser, par exemple,data["a"][0] * data["a"][0]. En général, vous seriez de parcourir ces listes au lieu d'accéder à un membre individuel, mais c'est vraiment en dehors de la portée de cette question, et un peu trop à expliquer correctement dans un commentaire.
Encore une fois, des moyens efficaces pour gérer de gros volumes de données sont en dehors de la portée de cette question - si vous avez une nouvelle question résultant de la réponse à un précédent, vous effectuez une recherche pour voir s'il a déjà été répondu, et si non, à demander séparément.

OriginalL'auteur Zero Piraeus

Grâce à @andyg0808 et @Zéro Pirée, j'ai trouvé une autre solution. Pour moi, le meilleur - à l'aide de Pandas de l'Analyse des Données de la Bibliothèque.

   import pandas as pd

   data=pd.read_csv("1.txt",
           delim_whitespace=True,
           skipinitialspace=True)

  result=data["a"]*data["b"]*3
  print(result)

  0     33
  1    132
  2    297
  3    528

...où 0,1,2,3 sont l'index de ligne.

OriginalL'auteur Michal

Voici un moyen simple de convertir un .txt fichier de noms de variables et les données des tableaux NumPy.

D = np.genfromtxt('1.txt',dtype='str')    # load the data in as strings
D_data = np.asarray(D[1::,:],dtype=float) # convert the data to floats
D_names = D[0,:]                          # save a list of the variable names

for i in range(len(D_names)):
    key = D_names[i]                      # define the key for this variable 
    val = D_data[:,i]                     # set the value for this variable 
    exec(key + '=val')                    # build the variable  code here

J'aime bien cette méthode, car il est facile à suivre et simple à entretenir. Nous pouvons compact ce code comme suit:

D = np.genfromtxt('1.txt',dtype='str')     # load the data in as strings
for i in range(D.shape[1]):
    val = np.asarray(D[1::,i],dtype=float) # set the value for this variable 
    exec(D[0,i] + '=val')                  # build the variable

Les deux codes faire la même chose, le retour des tableaux NumPy nommées a,b, et c avec les données qui leur sont associées.

OriginalL'auteur Austin Downey

Vous devez vous connecter pour publier un commentaire.