Comment puis-je lire des données au format CSV dans un tableau d'enregistrements dans NumPy?

Je me demande si il y a un moyen direct pour importer le contenu d'un fichier CSV dans un tableau d'enregistrements de la même manière que R read.table(), read.delim(), et read.csv() de la famille des importations de données à la R du bloc de données?

Ou est la meilleure façon d'utiliser csv.reader() puis appliquer quelque chose comme numpy.core.records.fromrecords()?

Double Possible de Comment lire et écrire des fichiers CSV avec Python?

InformationsquelleAutor hatmatrix | 2010-08-19

533

Vous pouvez utiliser Numpy est genfromtxt() méthode pour le faire, par la définition de la delimiter kwarg d'une virgule.
```
from numpy import genfromtxt
my_data = genfromtxt('my_file.csv', delimiter=',')
```
Plus d'informations sur la fonction peut être trouvé à ses la documentation.
- Que faire si vous voulez quelque chose de différents types? Comme les chaînes et les services de renseignements?
- np.genfromtxt('monfichier.csv',delimiter=',',dtype=None)
- numpy.loadtxt a fonctionné assez bien pour moi aussi
- J'ai essayé cela, mais je suis seulement un nan valeurs, pourquoi? Aussi avec loadtxt, je suis UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 155: ordinal not in range(128). J'ai trémas comme ä et ö dans les données d'entrée.
- essayez d'ajouter encoding="utf8" argument. Python est l'un des rares logiciels modernes pièces qui provoque souvent des problèmes d'encodage de texte, qui se sentent comme des choses du passé.
InformationsquelleAutor Andrew
153

Je recommanderais le read_csv fonction de la pandas bibliothèque:
```
import pandas as pd
df=pd.read_csv('myfile.csv', sep=',',header=None)
df.values
array([[ 1. ,  2. ,  3. ],
       [ 4. ,  5.5,  6. ]])
```
Cela donne une pandas DataFrame - permettant de nombreuses fonctions de manipulation de données qui ne sont pas directement disponibles avec numpy enregistrement des tableaux.

DataFrame est un 2-dimensions marquées structure de données avec des colonnes de
potentiellement différents types. Vous pouvez la considérer comme une feuille de calcul ou
Table SQL...

Je vous recommande également les genfromtxt. Cependant, la question demande une tableau d'enregistrements, par opposition à un tableau normal, le dtype=None paramètre doit être ajouté à la genfromtxt appel:

Donné un fichier d'entrée, myfile.csv:
```
1.0, 2, 3
4, 5.5, 6

import numpy as np
np.genfromtxt('myfile.csv',delimiter=',')
```
donne un tableau:
```
array([[ 1. ,  2. ,  3. ],
       [ 4. ,  5.5,  6. ]])
```
et
```
np.genfromtxt('myfile.csv',delimiter=',',dtype=None)
```
donne un tableau d'enregistrements:
```
array([(1.0, 2.0, 3), (4.0, 5.5, 6)], 
      dtype=[('f0', '<f8'), ('f1', '<f8'), ('f2', '<i4')])
```
Cela a l'avantage de fichier avec plusieurs types de données, y compris des chaînes de caractères) peut être facilement importé.
- read_csv travaille avec des virgules à l'intérieur des guillemets. Recommander ce cours genfromtxt
- utiliser l'en-tête=0 à ignorer la première ligne de dans la les valeurs, si votre fichier a 1 ligne d'en-tête
- pands.valeurs est un numpy.ndarray...fonctionne parfaitement
InformationsquelleAutor atomh33ls
65

Vous pouvez également essayer recfromcsv() qui peut deviner les types de données et de retourner correctement formaté tableau d'enregistrements.
- Si vous voulez maintenir la commande / les noms de colonnes du fichier CSV, vous pouvez utiliser l'invocation suivante: numpy.recfromcsv(fname, delimiter=',', filling_values=numpy.nan, case_sensitive=True, deletechars='', replace_space=' ') Les principaux arguments sont les trois derniers.
InformationsquelleAutor btel
60

J'ai chronométré le
```
from numpy import genfromtxt
genfromtxt(fname = dest_file, dtype = (<whatever options>))
```
contre
```
import csv
import numpy as np
with open(dest_file,'r') as dest_f:
    data_iter = csv.reader(dest_f,
                           delimiter = delimiter,
                           quotechar = '"')
    data = [data for data in data_iter]
data_array = np.asarray(data, dtype = <whatever options>)
```
sur les 4,6 millions de lignes avec environ 70 colonnes et a constaté que la NumPy chemin a 2 min 16 sec et le csv-liste de compréhension de la méthode a pris 13 secondes.

Je recommanderais le csv-liste de compréhension de la méthode car il est le plus susceptible s'appuie sur les bibliothèques pré-compilées et non l'interprète autant que NumPy. Je soupçonne les pandas méthode aurait similaire interprète les frais généraux.
- J'ai testé un code similaire à celui avec un fichier csv contenant 2,6 millions de lignes et 8 colonnes. numpy.recfromcsv() a pris environ 45 secondes, np.asarray(liste des caractères(csv.reader())) a pris environ 7 secondes, et les pandas.read_csv() a pris environ 2 secondes (!). (Le fichier a été récemment lu à partir du disque dans tous les cas, il était donc déjà dans le système d'exploitation du fichier de cache.) Je pense que je vais aller avec les pandas.
- Je viens de remarquer il y a quelques remarques à propos de la conception de pandas rapide csv analyseur au wesmckinney.com/blog/... . L'auteur prend de la vitesse et de la mémoire des exigences très au sérieux. Il est également possible d'utiliser as_recarray=True pour obtenir le résultat directement comme un Python tableau d'enregistrements plutôt que d'une pandas dataframe.
InformationsquelleAutor William komp

Que j'ai essayé les deux façons à l'aide de NumPy et les Pandas, à l'aide de pandas a beaucoup d'avantages:

Plus rapide
Moins de ressources PROCESSEUR
1/3 de l'utilisation de la RAM par rapport à NumPy genfromtxt

C'est mon code de test:

$ for f in test_pandas.py test_numpy_csv.py ; do  /usr/bin/time python $f; done
2.94user 0.41system 0:03.05elapsed 109%CPU (0avgtext+0avgdata 502068maxresident)k
0inputs+24outputs (0major+107147minor)pagefaults 0swaps

23.29user 0.72system 0:23.72elapsed 101%CPU (0avgtext+0avgdata 1680888maxresident)k
0inputs+0outputs (0major+416145minor)pagefaults 0swaps

test_numpy_csv.py

from numpy import genfromtxt
train = genfromtxt('/home/hvn/me/notebook/train.csv', delimiter=',')

test_pandas.py

from pandas import read_csv
df = read_csv('/home/hvn/me/notebook/train.csv')

Fichier de données:

du -h ~/me/notebook/train.csv
 59M    /home/hvn/me/notebook/train.csv

Avec NumPy et les pandas au versions:

$ pip freeze | egrep -i 'pandas|numpy'
numpy==1.13.3
pandas==0.20.2

InformationsquelleAutor HVNSweeting

5

Vous pouvez utiliser ce code pour envoyer le fichier CSV des données dans un tableau:
```
import numpy as np
csv = np.genfromtxt('test.csv', delimiter=",")
print(csv)
```
InformationsquelleAutor chamzz.dot

J'ai essayé ceci:

import pandas as p
import numpy as n

closingValue = p.read_csv("<FILENAME>", usecols=[4], dtype=float)
print(closingValue)

InformationsquelleAutor muTheTechie

2

À l'aide de numpy.loadtxt

Un très simple méthode. Mais il exige de tous les éléments de type float (int et ainsi de suite)
```
import numpy as np 
data = np.loadtxt('c:\.csv',delimiter=',',skiprows=0)  
```
InformationsquelleAutor Xiaojian Chen
2

C'est le moyen le plus facile:

import csv with open('testfile.csv', newline='') as csvfile: data = list(csv.reader(csvfile))

Maintenant chaque entrée de données est un record, représenté comme un tableau. Donc, vous avez un tableau 2D. Il m'a sauvé beaucoup de temps.

InformationsquelleAutor Matthew Park
1

Je voudrais suggérer à l'aide de tableaux (pip3 install tables). Vous pouvez enregistrer votre .csv fichier à .h5 à l'aide de pandas (pip3 install pandas),
```
import pandas as pd
data = pd.read_csv("dataset.csv")
store = pd.HDFStore('dataset.h5')
store['mydata'] = data
store.close()
```
Vous pouvez ensuite facilement et avec moins de temps, même pour une quantité énorme de données, charger vos données dans un tableau NumPy.
```
import pandas as pd
store = pd.HDFStore('dataset.h5')
data = store['mydata']
store.close()

# Data in NumPy format
data = data.values
```
InformationsquelleAutor Jatin Mandav

Vous devez vous connecter pour publier un commentaire.