Python sas7bdat utilisation du module

J'ai pour le vidage des données de SAS ensembles de données. J'ai trouvé un module Python appelé sas7bdat.py qui dit qu'il peut lire SAS .sas7bdat ensembles de données, et je pense qu'il serait plus simple et plus facile à faire le projet en Python plutôt que de SAS en raison des autres fonctionnalités requises. Cependant, l'aide(sas7bdat) en interactif Python n'est pas très utile et le seul exemple que j'ai pu trouver pour le dump d'un jeu de données comme suit:

import sas7bdat
from sas7bdat import *
# following line is sas dataset to convert
foo = SAS7BDAT('/support/sas/locked_data.sas7bdat')
#following line is txt file to create
foo.convertFile('/support/textfiles/locked_data.txt','\t')

Ce n'est pas faire ce que je veux, parce que a) il utilise le SAS des noms de variables comme en-têtes de colonne et j'ai besoin d'utiliser la variable d'étiquettes, et b) qu'il utilise "nan" pour désigner le manque de valeurs numériques où je préfère laisser simplement la valeur vide.

Quelqu'un peut-il m'indiquer une documentation utile sur les méthodes incluses dans sas7bdat.py? J'ai Googlé chaque permutation de mots clés que je pouvais penser, avec pas de chance. Si non, quelqu'un peut-il me donner un exemple ou deux de l'aide readColumnAttributes(), readColumnLabels(), et/ou readColumnNames()?

Merci à tous.

OriginalL'auteur at_sea | 2013-10-28

python sas

4

Ce n'est qu'une réponse partielle comme je l'ai pas trouvé facile à lire] le béton de la documentation.

Vous pouvez afficher le code source ici

Cette montre quelques informations de base concernant quels sont les arguments, les méthodes de besoin, tels que:
- readColumnAttributes(auto, colattr)
- readColumnLabels(auto, collabs, coltext, colcount)
- readColumnNames(auto, colname, coltext)
Je pense que la plupart de ce que vous êtes après est stocké dans la "tête" de la classe retournée lors de la création d'un objet avec SAS7BDAT. Si vous avez juste l'impression que la classe que vous aurez beaucoup de l'info, mais vous pouvez également accéder à des attributs de classe. Je pense que la plupart de ce que vous cherchez peut-être serait sous foo.l'en-tête.des cols. Je soupçonne que vous utilisez divers attributs de l'en-tête en tant que paramètres pour les méthodes que vous mentionnez.

Peut-être quelque chose comme cela vous rapprochera?
```
from sas7bdat import SAS7BDAT
foo = SAS7BDAT(inFile) #your file here...

for i in foo.header.cols:
    print '"Atrributes"', i.attr
    print '"Labels"', i.label
    print '"Name"', i.name
```
edit: sans rapport avec cette question en particulier, mais le type() et dir() commandes viennent dans maniable quand à essayer de comprendre ce qui se passe dans une classe inconnue/bibliothèque

OriginalL'auteur Richard W
2

Personnellement, je pense que la meilleure approche serait d'exporter les données à l'aide de SAS ensuite le fichier externe au besoin à l'aide de Python.

En SAS, vous pouvez le faire...
```
libname datalib "/support/sas";
filename sasdump "/support/textfiles/locked_data.txt";

proc export
    data = datalib.locked_data
    outfile = sasdump
    dbms = tab
    label
    replace;
run;
```
L'inconvénient de ceci est que, bien que les étiquettes de colonne sont utilisées plutôt que des noms de variables, les étiquettes sont entourées de guillemets doubles. Lors du traitement en Python, vous pouvez avoir besoin de programmation pour les supprimer si elles causent un problème. J'espère que ça aide, même si elle n'est pas utiliser Python comme tu le voulais.

Le monde n'a pas accès à la SAS -- vous avez juste à débourser plusieurs milliers de dollars par utilisateur pour cette solution. Ouch! Si vous allez à traiter les données en Python de toute façon, à l'aide d'une bibliothèque python pour charger les données minimise aussi le logiciel de dépendances et permet d'automatiser le traitement de plus de nombreux ensembles de données SAS.

OriginalL'auteur Alex A.
1

Je sais je suis en retard pour la réponse, mais dans le cas où quelqu'un des recherches pour la même question. La meilleure option est:
```
import sas7bdat
from sas7bdat import *
foo = SAS7BDAT('/support/sas/locked_data.sas7bdat')
# This converts to dataframe:
ds = foo.to_data_frame()
```
OriginalL'auteur Ingrid
0

Comme le temps passe, les solutions deviennent plus faciles. Je pense que c'est plus facile si vous voulez travailler avec des pandas:
```
import pandas as pd
df = pd.read_sas('/support/sas/locked_data.sas7bdat')
```
Notez qu'il est facile d'obtenir un tableau numpy en utilisant df.values

OriginalL'auteur Guido

Vous devez vous connecter pour publier un commentaire.