Comment faire pour convertir un fichier excel des données dans un tableau numpy à l'aide de pandas?

Je suis vraiment nouveau dans keras bibliothèque et aussi Python. J'essaie d'importer un fichier excel à l'aide de pandas et de le convertir à une numpy.ndarray à l'aide de as_matrix() fonction des pandas. Mais il coutures pour lire mon fichier de mal. Comme j'ai un 90x1049 ensemble de données dans un fichier Excel. Mais quand j'essaie de le convertir en un tableau numpy il lit mes données 89x1049. Je suis en utilisant le code suivant, qui n'est pas de travail:

training_data_x = pd.read_excel("/home/workstation/ANN/new_input.xlsx")
X_train = training_data_x.as_matrix()

Je devine votre fichier excel n'a pas de ligne d'en-tête sur la première ligne. Pourriez-vous inclure un échantillon de la pandas.DataFrame?

InformationsquelleAutor Rian Zaman | 2016-04-02

3

Probablement ce qui se passe, c'est que votre fichier Excel n'a pas de ligne d'en-tête et ainsi de pandas.read_excel consomme votre première ligne de données en tant que telle.

J'ai essayé de créer un xlsx contenant
```
1   2   3
2   3   4
3   4   5
4   5   6
5   6   7
6   7   8
7   8   9
8   9   10
9   10  11
10  11  12
```
De lecture qui a abouti à
```
In [3]: df = pandas.read_excel('test.xlsx')

In [4]: df
Out[4]: 
    1   2   3
0   2   3   4
1   3   4   5
2   4   5   6
3   5   6   7
4   6   7   8
5   7   8   9
6   8   9  10
7   9  10  11
8  10  11  12
```
Comme on peut le voir, la première ligne de données a été utilisé comme étiquettes de colonnes.

Pour éviter de consommer de la première ligne de données que les en-têtes, passer headers=None à read_excel. Il est intéressant de noter la la documentation ne faisait pas mention de cet usage avant, mais a été corrigé depuis:

en-tête : int, liste d'entiers, par défaut 0

Ligne (0-indexés) à utiliser pour les étiquettes de colonne de l'analyse DataFrame. Si une liste d'entiers est passé ces positions de ligne seront combinés en un MultiIndex. Utilisez None si il n'y a pas d'en-tête.

InformationsquelleAutor Ilja Everilä
2

Si vous n'avez pas d'en-tête, essayez les solutions suivantes:
```
training_data = pd.read_excel("/home/workstation/ANN/new_input.xlsx", header=None)

X_train = training_data_x.as_matrix()
```
Voir aussi les réponses à partir d'un question précédente.
- Lors de l'utilisation de .as_matrix l'avertissement suivant s'affiche: FutureWarning: Méthode .as_matrix sera supprimée dans une future version. Utilisation .values à la place. Donc, en utilisant .values est probablement une meilleure option maintenant
InformationsquelleAutor pylang

Vous devez vous connecter pour publier un commentaire.