Importation de données SAS fichier en python bloc de données

Je suis en train de travailler sur un ensemble de données (PSID) qui donne des données dans un format SAS (un .txt et un autre fichier contenant des instructions pour l'interprétation des données). Je ne trouve rien en Python pour lire ce type de données.

Personne ne sait d'une pré-existant/module de script pour lire les données SAS?

Modifier (ajout d'un commentaire à une réponse): Les données en ascii/texte et le début d'une ligne de données ressemble à ceci:

3 10 1015000 150013200 00 002500 00 00

  • Un fichier txt n'est pas un ensemble de données SAS. Ouvrir le fichier et de l'examiner, il est plus probable CSV ou délimité par des tabulations.
  • Si je me souviens bien, PSID fichiers de données sont fournis à titre fixe-format des fichiers texte, avec un SAS de données ou de l'étape de Stata fichier dct étant nécessaire pour lire les données et de les assigner les variables et les formats. D'où la nécessité apparente de lire les données dans SAS puis les importer dans Python.
  • Me semble que vous pourrait lire en Python directement au lieu de passer par SAS? SAS les données de l'étape de la saisie d'un fichier texte est extrêmement facile à analyser.
  • Selon combien de milliers de variables OP sélectionné pour télécharger, il n'est probablement pas quelque chose que vous aimeriez faire à la main. Ne connaissant pas la syntaxe pour lire fixe-format de données en Python, je ne sais pas comment il serait difficile de convertir les données de l'étape de code d'un programme. Je suis sûr que c'est beaucoup plus facile de passer au travers de SAS ou Stata, si elles sont disponibles.
  • En passant, j'ai vérifié le PSID site web, et ils donnent aussi la possibilité de télécharger dBase fichier de données si vous avez sélectionné au moins de 1024 variables. Je parie que vous avez pu lire un fichier dBase directement en Python, éliminant la nécessité d'utiliser SAS ou Stata pour lire les fichiers ASCII.
  • Malheureusement, ce n'est pas vrai. PSID ne pas fournir une Stata fichier de données (.dta). Il fournit un fixe-format de fichier ASCII avec le logiciel Stata code (.n') pour lire le fichier ASCII dans un .fichier dta. En va de même pour les SAS et SPSS. Vous voir si vous êtes allé tout le chemin à la page de téléchargement.
  • désolé, mon mauvais. De ma lecture rapide j'ai pensé PSID était en fait que de fournir une variété de formats que d'autres endroits le font souvent. Donc, si PSID n'est fournie dans le texte/ascii, la meilleure approche de python/les pandas peuvent être read_csv ou read_table si c'est difficile à dire sans voir exactement comment les PSID sorties de données. Aussi, il n'est pas rare pour la 3ème parties à fournir des SAS ou stata ensembles de données de données accessibles au public, bien que je ne pouvais pas trouver que pour PSID. Je serais surpris si ce n'était pas hébergé quelque part, sauf si il y a une raison spécifique, il ne peut pas être fait (comme le PSID les gens de l'interdire)
  • En effet, votre premier commentaire était juste sur les deux fichiers. Je suis en train de travailler sur la conversion d'un package R, psidR qui construit les panneaux de la première psid ensembles de données, à Python.
  • Je n'utilise pas de R, mais je crois que R et les pandas peuvent partager des données via HDF, de sorte que vous pourriez aussi lire dans R, enregistrer sous HDF, puis de les lire que dans les pandas sans qu'il soit besoin pour la traduction d'un code de R pour les pandas.
  • Je pense que ce serait la plus practicle de la solution, et je préfère utiliser HDF, mais je voulais écrire un outil qui est entièrement en Python.

InformationsquelleAutor pdevar | 2015-06-18