Utilisez-vous attach() ou appeler des variables par nom ou de découpage?

De nombreux intro R de livres et de guides commencer avec la pratique de la fixation d'un data.frame de sorte que vous pouvez appeler les variables par leur nom. J'ai toujours trouvé ça favorable pour les variables d'appels avec $ ou de notation crochet de découpage [,2]. De cette façon, je peux utiliser plusieurs data.frames sans les confondre et/ou de l'utilisation itération à l'successivement les colonnes d'intérêt. J'ai remarqué que Google a récemment posté des directives de codage pour R qui inclus la ligne

1) joindre: éviter de l'utiliser

Comment les gens se sentent à propos de cette pratique?

InformationsquelleAutor kpierce8 | 2009-08-21

coding-style r

Je n'utilise jamais l'attacher. with et within sont vos amis.

Exemple de code:

> N <- 3
> df <- data.frame(x1=rnorm(N),x2=runif(N))
> df$y <- with(df,{
   x1+x2
 })
> df
          x1         x2          y
1 -0.8943125 0.24298534 -0.6513271
2 -0.9384312 0.01460008 -0.9238312
3 -0.7159518 0.34618060 -0.3697712
> 
> df <- within(df,{
   x1.sq <- x1^2
   x2.sq <- x2^2
   y <- x1.sq+x2.sq
   x1 <- x2 <- NULL
 })
> df
          y        x2.sq     x1.sq
1 0.8588367 0.0590418774 0.7997948
2 0.8808663 0.0002131623 0.8806532
3 0.6324280 0.1198410071 0.5125870

Edit: hadley mentionne transformer les dans les commentaires. voici un code:

 > transform(df, xtot=x1.sq+x2.sq, y=NULL)
       x2.sq       x1.sq       xtot
1 0.41557079 0.021393571 0.43696436
2 0.57716487 0.266325959 0.84349083
3 0.04935442 0.004226069 0.05358049

transform est une variation sur l'intérieur.
En fait je viens de remarquer que contrairement à attach(), with() n'est pas "résoudre par les" fonctions. D'abord configurer printx <- function { print(x) }. Maintenant, with(list(x=42), printx()) échoue, même si with(list(x=42), print(x)) et attach(list(x=42)); printx() réussir! 🙁

InformationsquelleAutor Eduardo Leoni

13

Je préfère utiliser with pour obtenir l'équivalent de attach sur une seule commande:
```
 with(someDataFrame,  someFunction(...))
```
Cela conduit naturellement à une forme où subset est le premier argument:
```
 with(subset(someDataFrame,  someVar > someValue),
      someFunction(...))
```
ce qui le rend assez clair que nous fonctionnons sur une sélection de données. Et tandis que de nombreux de la modélisation de la fonction à la fois data et subset arguments, l'utilisation ci-dessus est plus régulier car il s'applique également aux fonctions qui n'ont pas data et subset arguments.

InformationsquelleAutor Dirk Eddelbuettel
8

Le principal problème avec les joindre est qu'il peut entraîner un comportement indésirable. Supposons que vous avez un objet avec le nom xyz dans votre espace de travail. Maintenant, vous fixez dataframe abc, qui a une colonne nommée xyz. Si votre code de référence xyz, pouvez-vous garantir que c'est les références à l'objet ou le dataframe de la colonne? Si vous n'utilisez pas de joindre puis c'est facile. juste xyz se réfère à l'objet. abc$xyz se réfère à la colonne de la dataframe.

L'une des principales raisons qui attachent est fréquemment utilisé dans les manuels scolaires, c'est qu'il réduit le code.
- J'ai remarqué que certains manuels dire "ne faites pas ceci, joindre est utilisé pour simplifier les exemples".
InformationsquelleAutor Thierry
7

"Fixer" est un mal de la tentation. Le seul endroit où il travaille bien, c'est dans la salle de classe où l'on est reçu une seule dataframe et on s'attend à écrire des lignes de code pour faire l'analyse sur un dataframe. L'utilisateur est peu probable que jamais l'utiliser à nouveau des données une fois que le travail est fait et remis.

Cependant, dans le monde réel, plusieurs blocs de données peuvent être ajoutés à la collection de données dans un projet particulier. En outre, souvent, on copie et colle les blocs de code à utiliser pour quelque chose de similaire. Souvent, on est emprunt de quelque chose que l'on faisait il y a quelques mois et ne peut pas se rappeler les nuances de ce qui a été appelé à partir d'où. Dans ces circonstances, on obtient noyé par l'utilisation antérieure de la "attacher".

InformationsquelleAutor Farrel
3

Comme dit Leoni, with et within sont de parfaits substituts de attach, mais je ne serait pas tout à fait à rejeter. Je l'utilise parfois, quand je travaille directement à la R invite et que vous souhaitez tester certaines commandes avant de les écrire sur un script. En particulier lors de l'essai de plusieurs commandes, attach peut être un plus intéressant, pratique et même inoffensif alternative à with et within, car après l'exécution de attach, l'invite de commande est clair pour vous d'écrire des entrées et voir les résultats.

Assurez-vous de detach vos données une fois que vous avez terminé!

InformationsquelleAutor Waldir Leoncio
3

Je préfère ne pas utiliser de attach(), car il est beaucoup trop facile à exécuter un batch de code plusieurs fois à chaque fois que l'appel de attach(). La trame de données est ajouté au chemin de recherche à chaque fois, en prolongeant inutilement. Bien sûr, une bonne pratique est également detach() à la fin du bloc de code, mais qui est souvent oublié.

Au lieu de cela, j'utilise xxx$y ou xxx[,"y"]. C'est plus transparent.

Une autre possibilité est d'utiliser l'argument données disponibles dans de nombreuses fonctions qui permet à l'individu de variables pour être référencé au sein de la trame de données. par exemple, lm(z ~ y, data=xxx).
- Parfois, je fais appel à partir de différentes trames de données et des variables globales, et ce système permet de ne jamais avoir un mauvais calcul à effectuer.
InformationsquelleAutor Rob Hyndman
2

Alors que, moi aussi, je préfère ne pas utiliser de attach(), il a sa place quand vous avez besoin de persistance d'un objet (dans ce cas, un data.frame) par le biais de la durée de vie de votre programme quand vous avez plusieurs fonctions de l'utiliser. Au lieu de passer l'objet dans toutes les R la fonction qui l'utilise, je pense qu'il est plus commode de le garder dans un endroit et appeler ses éléments au besoin.

Cela dit, je voudrais l'utiliser seulement si je sais combien le souvenir que j'ai de disponible et que si je fais en sorte que je detach() ce data.frame une fois qu'il est hors de portée.

Suis-je logique?

InformationsquelleAutor AlexGilgur

Vous devez vous connecter pour publier un commentaire.