Lecture de tous les fichiers csv à partir d'un répertoire à l'aide de Python

J'espère que ce n'est pas trivial, mais je me pose des questions suivantes:

Si j'ai un dossier spécifique avec n csv fichiers, comment pourrais-je de manière itérative lire tous, un à un, et d'effectuer certains calculs sur leurs valeurs?

Pour un seul fichier, par exemple, je fais quelque chose comme ça et d'effectuer certains calculs sur le x tableau:

import csv
import os

directoryPath=raw_input('Directory path for native csv file: ') 
csvfile = numpy.genfromtxt(directoryPath, delimiter=",")
x=csvfile[:,2] #Creates the array that will undergo a set of calculations

Je sais que je peux vérifier combien de csv de fichiers dans un dossier donné (vérifier ici):

import glob
for files in glob.glob("*.csv"):
    print files

Mais je n'ai pas réussi à comprendre comment, éventuellement, nest la numpy.genfromtxt() fonction dans une boucle for, de sorte que j'ai lu dans tous les csv les fichiers d'un répertoire que c'est à moi de le préciser.

MODIFIER

Le dossier que j'ai seulement a jpg et csv fichiers. Ces derniers sont nommés eventX.csv, où X varie de 1 à 50. Le for boucle, je me réfère à devraient donc prendre en compte les noms de fichier de la façon dont ils sont.

OriginalL'auteur FaCoffee | 2015-11-03

11

C'est ce que je ferais:
```
import os

directory = os.path.join("c:\\","path")
for root,dirs,files in os.walk(directory):
    for file in files:
       if file.endswith(".csv"):
           f=open(file, 'r')
           #  perform calculation
           f.close()
```
Peut le f.close() ligne être placé juste après j'définir x=csvfile[:,2]? Le nombre 2 est juste exemplificative.
Et, si je peux ajouter, c'est votre code de vérification pour tous les csv fichiers dans TOUS les dossiers directory?
comme une note, la méthode recommandée pour l'ouverture de fichiers est with open(file) as file cela a l'avantage de fermer automatiquement lorsque vous êtes hors de portée
pour votre première question: vous pouvez le faire mais vous ne serez pas en mesure de faire toute autre opération sur le fichier. Comme pour le second, il n'répertorie tous les fichiers dans un répertoire. Si vous voulez tous les fichiers de tous les dossiers à l'intérieur d'un direcory vous pouvez stocker chaque dossier de répertoire dans une liste et obtenir les .csv à partir de chaque dossier à la fois.

OriginalL'auteur
4

Je pense que vous voyez quelque chose comme ce
```
import glob

for file_name in glob.glob(directoryPath+'*.csv'):
    x = np.genfromtxt(file_name,delimiter=',')[:,2]
    # do your calculations
```
Modifier

Si vous voulez obtenir tous les csv fichiers d'un dossier (y compris le sous-dossier) vous pouvez utiliser subprocess au lieu de glob (à noter que ce code ne fonctionne que sur les systèmes linux)
```
import subprocess
file_list = subprocess.check_output(['find',directoryPath,'-name','*.csv']).split('\n')[:-1]

for i,file_name in enumerate(file_list):
    x = np.genfromtxt(file_name,delimiter=',')[:,2]
    # do your calculations
    # now you can use i as an index
```
Il recherche en premier le dossier et sous-dossiers pour tous file_names à l'aide de la find commande du shell et applique vos calculs par la suite.

Eh bien, je ressemble à cette pratique et à court de solution, mais je l'ai testé et il n'a pas donné ce que je voulais. J'ai créé un nouveau dossier vide, placé trois csv fichiers nommé file_1.csv, file_2.csv, et file_3.csv, chacun de qui a de la valeur 1, 2, et 3 comme valeur unique (sans en-tête). Puis j'ai créé a=numpy.zeros(3) de le remplir avec ces valeurs, mais je reçois a=([0,0,0]). Dans le for boucle, les nouvelles valeurs de a sont affectés comme ceci: a[file_name]=numpy.genfromtxt(file_name,delimiter=',')[0,0]. Au lieu de a=([1,2,3]) - je obtenir a=([0,0,0]).
Hmm ... il a travaillé pour mes exemples simples ... laissez-moi vérifier ce qui pourrait aller mal ...
est une chaîne de caractères dans mon code ... que voulez-vous dire avec a[file_name]? a[...] nécessite un entier ... ne sont pas là toutes les erreurs?
Non, pas d'erreurs. J'ai été de tenter de l'utiliser file_name comme une variable de compteur puisqu'elle porte le nombre exact de fichiers (et de valeurs) de ce cas de test. J'ai fait cela juste pour tester votre indice. Si nous ne pouvons pas utiliser file_name comme compteur, que pourrions-nous utiliser? Doit-on ajouter une boucle imbriquée pour ajouter un compteur allant de 1 à 3?
Oh, puis le problème est que vous utilisez Windows, parce que (pour autant que je sache) la commande find n'existe pas (ou ne fonctionne pas) que j'ai utilisé dans mon programme. ... Hmm, laissez-moi voir si je peux réécrire la partie afin de travailler pour vous

OriginalL'auteur plonser
2

Selon la la documentation de numpy.genfromtxt(), le premier argument peut être un

De fichier, nom de fichier, ou un générateur à lire.

Qui signifie que vous pourriez écrire un générateur qui donne les lignes de tous les fichiers comme ceci:
```
def csv_merge_generator(pattern):
    for file in glob.glob(pattern):
        for line in file:
            yield line

# then using it like this

numpy.genfromtxt(csv_merge_generator('*.csv')) 
```
devrait fonctionner. (Je n'ai pas de numpy installé, donc ne peut pas tester facilement)

Votre dernière ligne être imbriqué dans un for boucle?
nonono, il est passé dans le générateur, et en tant que tel obtient tous les fichiers

OriginalL'auteur Ward

Vous devez vous connecter pour publier un commentaire.