Comment diviser les données en formation/ensembles de test échantillon à l'aide de la fonction

J'ai juste commencé à l'aide de R et je ne suis pas sûr de savoir comment intégrer mon dataset avec l'exemple de code suivant:

sample(x, size, replace = FALSE, prob = NULL)

J'ai un jeu de données que j'ai besoin de mettre dans une formation (75%) et de test (25%) ensemble.
Je ne suis pas sûr que les informations que je suis censé mettre dans le x et la taille?
Soit x l'ensemble de données de fichier et la taille que le nombre d'échantillons que j'ai?

x peut être l'indice (ligne/col de la nsa. dire) de votre data. size peut être 0.75*nrow(data). Essayez sample(1:10, 4, replace = FALSE, prob = NULL) pour voir ce qu'il fait.

InformationsquelleAutor Susie Humby | 2013-06-19

r sample

229

Il existe de nombreuses approches pour atteindre le partitionnement des données. Pour une approche plus complète de prendre un coup d'oeil à la createDataPartition fonction dans le caTools paquet.

Voici un exemple simple:
```
data(mtcars)

## 75% of the sample size
smp_size <- floor(0.75 * nrow(mtcars))

## set the seed to make your partition reproducible
set.seed(123)
train_ind <- sample(seq_len(nrow(mtcars)), size = smp_size)

train <- mtcars[train_ind, ]
test <- mtcars[-train_ind, ]
```
- Je suis un peu confus ce que garantit ce code renvoie un test unique et train df? Il semble fonctionner, ne vous méprenez pas. Juste avoir de la difficulté à comprendre comment soustrayant les indices conduit à l'unique observations. Par exemple, si vous avez eu une df avec 10 lignes et une colonne et une colonne contenue 1,2,3,4,5,6,7,8,9,10, et vous avez suivi ce code, ce qui empêche un train d'indice 4 et test ayant -6 -> 10 - 6 = 4 ainsi?
- merci. J'ai essayé mtcars[!train_ind] et alors qu'il n'a pas manqué, il ne fonctionne pas comme prévu. Comment pourrais-je sous-ensemble à l'aide de la !?
- sont utilisés pour la logique (TRUE/FALSE) et pas d'indices. Si vous souhaitez sous-ensemble à l'aide de !, essayez quelque chose comme mtcars[!seq_len(nrow(mtcars)) %in% train_ind, ] (pas testé).
- Pourriez vous m'expliquer comment l'indexation par train_ind œuvres?
- lorsque vous utilisez "-" c'omettre tous les index dans train_ind à partir de vos données. Jetez un oeil à adv-r.had.co.nz/Subsetting.html . J'espère que ça aide
- L'indexation par les -train_ind est de ne pas faire ce qu'il prétend. Le moins fait un elementwise négation des numéros plutôt que de choisir pour ces indices train pas choisi par train_ind. Pas sûr de savoir comment cela a 93 upvotes depuis la formation et le test n'est pas séparée des ensembles de mtcars. Gaspillé demi-heure sur ce et a dû trouver une autre solution. C'est peut-être un héritage particulier artefact qui est changé depuis?
- Pouvez-vous expliquer avec un peu de code ou un résumé de l'information sur github ? il y a probablement d'autres de manière élégante de le faire. Il se trouve à 3 ans réponse probablement peu de choses ont changé, mais je n'ai pas vraiment obtenir ce que vous dites. Pouvez-vous poster sur un résumé de sorte que je comprends mieux pourquoi indice négatif ne fonctionne pas dans ce cas ? Si vous avez une meilleure (universelle) façon, je serais heureux de les modifier ma réponse. Meilleur
- Pourquoi cela ne fonctionne pas pouvez-vous expliquer avec un exemple à l'aide d'un gist par exemple. J'ai vraiment envie de comprendre pour améliorer cette réponse à partir de 2013. Merci
- Merci pour votre commentaire. Je suis de l'indexation par les numéros qui ne sont pas les noms de lignes, je ne comprends pas pourquoi vous voulez utiliser les noms de lignes au lieu d'un entier à l'index d'un dataframe? (perfectlyrandom.org/2015/06/16/...). Pour le point sur la taille des données, je ne comprends pas pourquoi il ne fonctionne pas sur vaste ensemble de données, tout reproductible exemple, vous pouvez partager avec moi, je ne comprends pas, mais je veux vraiment améliorer cette réponse. Enfin, si vous voulez m'enlever le plancher argument qui vous permettra de le remplacer par quoi ? (plafond? ronde?). Cheers
- J'ai supprimé mes commentaires, je ne peux pas reproduire le problème que j'ai déjà. Des excuses. Merci.
- Merci pour le commentaire et je vais rechercher des moyens d'améliorer cette réponse, probablement à l'aide de la nouvelle modelr paquet (github.com/tidyverse/modelr).
- Que faire si nous avons besoin d'un facteur 5 ou 10 fois la validation? comment pouvons-nous faire sans chevauchement des jeux de test?
- C'est la meilleure solution.
InformationsquelleAutor dickoa

Il peut être fait facilement par:

set.seed(101) # Set Seed so that same sample can be reproduced in future also
# Now Selecting 75% of data as sample from total 'n' rows of the data  
sample <- sample.int(n = nrow(data), size = floor(.75*nrow(data)), replace = F)
train <- data[sample, ]
test  <- data[-sample, ]

En utilisant caTools package:

require(caTools)
set.seed(101) 
sample = sample.split(data$anycolumn, SplitRatio = .75)
train = subset(data, sample == TRUE)
test  = subset(data, sample == FALSE)

J'ai récemment fait un cours avec le MIT et ils ont utilisé l'approche à l'aide de caTools tout au long de. Merci

InformationsquelleAutor TheMI

C'est presque le même code, mais en plus joli look

bound <- floor((nrow(df)/4)*3)         #define % of training and test set

df <- df[sample(nrow(df)), ]           #sample rows 
df.train <- df[1:bound, ]              #get training set
df.test <- df[(bound+1):nrow(df), ]    #get test set

Génial, merci.
Yup! Joli look!

InformationsquelleAutor Katrina Malakhova

27

Je voudrais utiliser dplyr pour cela, le rend super simple. Il nécessite une variable id de votre jeu de données, ce qui est une bonne idée de toute façon, non seulement pour créer des ensembles, mais aussi pour la traçabilité au cours de votre projet. Ajouter si elle ne contient pas déjà.
```
mtcars$id <- 1:nrow(mtcars)
train <- mtcars %>% dplyr::sample_frac(.75)
test  <- dplyr::anti_join(mtcars, train, by = 'id')
```
- Fonctionnait très bien, merci.
InformationsquelleAutor Edwin
21
```
library(caret)
intrain<-createDataPartition(y=sub_train$classe,p=0.7,list=FALSE)
training<-m_train[intrain,]
testing<-m_train[-intrain,]
```
- Si un code seule réponse est une réponse, il est préférable de fournir quelques explications.
- qu'est-ce que m_train? Je pense que tu voulais dire, sub_train les données d'origine.cadre. Par conséquent, le code révisé devrait être la formation<-sub_train[intrain,] et le test<-sub_train[-intrain,]. Je me demande pourquoi personne n'a été en mesure de repérer ce problème important de vous répondre dans les cinq dernières années!
InformationsquelleAutor pradnya chavan
21

Je vais split 'a' en train(70%) et de test(30%)
```
    a # original data frame
    library(dplyr)
    train<-sample_frac(a, 0.7)
    sid<-as.numeric(rownames(train)) # because rownames() returns character
    test<-a[-sid,]
```
fait
- vous avez besoin d'importer dpyr package require(dplyr)
- Cette réponse m'a aidé, mais je n'ai besoin de ruser pour obtenir les résultats escomptés. Comme il est, l'ensemble de données du "train" a rownames = sid séquentiel entiers: 1,2,3,4,... alors que vous, vous voulez sid à la rownumbers de l'ensemble de données initial 'a,' qui, depuis qu'ils sont choisis au hasard ne sera pas la séquence des nombres entiers. Donc, il est nécessaire de créer la variable id sur 'une' première.
- ligne.noms(mtcars) < NULL; train<-dplyr::sample_frac(mtcars, 0.5); test<-mtcars[-comme.numérique(rangée.noms(train)),] # je l'ai fait pour mes données, le code d'origine ne fonctionne pas si votre ligne le nom de numéros déjà
InformationsquelleAutor hyunwoo jeong
16

Ma solution est essentiellement la même que dickoa mais un peu plus facile à interpréter:
```
data(mtcars)
n = nrow(mtcars)
trainIndex = sample(1:n, size = round(0.7*n), replace=FALSE)
train = mtcars[trainIndex ,]
test = mtcars[-trainIndex ,]
```
- Qu'est-ce que la variable suisse?
- C'était une erreur, merci pour la sortir
InformationsquelleAutor AlexG

Juste un plus bref et de manière simple à l'aide génial dplyr bibliothèque:

library(dplyr)
set.seed(275) #to get repeatable data

data.train <- sample_frac(Default, 0.7)

train_index <- as.numeric(rownames(data.train))
data.test <- Default[-train_index, ]

Avez-vous l'intention d'utiliser Default[-train_index,] pour la dernière ligne.

InformationsquelleAutor Shayan Amani

5

Si vous tapez:
```
?sample
```
Si lancera un menu d'aide à expliquer ce que les paramètres de l'exemple de la fonction moyenne.

Je ne suis pas un expert, mais voici un code que j'ai:
```
data <- data.frame(matrix(rnorm(400), nrow=100))
splitdata <- split(data[1:nrow(data),],sample(rep(1:4,as.integer(nrow(data)/4))))
test <- splitdata[[1]]
train <- rbind(splitdata[[1]],splitdata[[2]],splitdata[[3]])
```
Cela vous donnera 75% de train et de 25% de test.

InformationsquelleAutor user2502836

Après en regardant à travers toutes les différentes méthodes de posté ici, je n'ai vu personne utiliser TRUE/FALSE pour sélectionner et désélectionner des données. J'ai donc pensé que je voudrais partager une méthode utilisant cette technique.

n = nrow(dataset)
split = sample(c(TRUE, FALSE), n, replace=TRUE, prob=c(0.75, 0.25))

training = dataset[split, ]
testing = dataset[!split, ]

Explication

Il y a plusieurs façons de sélectionner des données à partir de R, le plus souvent les gens utilisent positif/négatif indices pour sélectionner/désélectionner respectivement. Cependant, les mêmes fonctionnalités peuvent être obtenues en utilisant des TRUE/FALSE pour sélectionner/désélectionner.

Considérons l'exemple suivant.

# let's explore ways to select every other element
data = c(1, 2, 3, 4, 5)


# using positive indices to select wanted elements
data[c(1, 3, 5)]
[1] 1 3 5

# using negative indices to remove unwanted elements
data[c(-2, -4)]
[1] 1 3 5

# using booleans to select wanted elements
data[c(TRUE, FALSE, TRUE, FALSE, TRUE)]
[1] 1 3 5

# R recycles the TRUE/FALSE vector if it is not the correct dimension
data[c(TRUE, FALSE)]
[1] 1 3 5

InformationsquelleAutor Joe

Ma solution mélange les lignes, puis prend le premier de 75% des lignes que le train et le dernier 25% en tant que test. Super simples!

row_count <- nrow(orders_pivotted)
shuffled_rows <- sample(row_count)
train <- orders_pivotted[head(shuffled_rows,floor(row_count*0.75)),]
test <- orders_pivotted[tail(shuffled_rows,floor(row_count*0.25)),]

InformationsquelleAutor Johnny V

3

scorecard paquet a une fonction utile pour qui, où vous pouvez spécifier le ratio et de graines
```
library(scorecard)

dt_list <- split_df(mtcars, ratio = 0.75, seed = 66)
```
Le tester et former les données sont stockées dans une liste et peut être accessible en appelant dt_list$train et dt_list$test

InformationsquelleAutor camnesia

Ci-dessous une fonction qui créer un list de sous-échantillons de même taille qui n'est pas exactement ce que tu voulais, mais pourrait s'avérer utile pour les autres. Dans mon cas, de créer plusieurs arbres de classification sur de plus petits échantillons pour tester le surajustement :

df_split <- function (df, number){
  sizedf      <- length(df[,1])
  bound       <- sizedf/number
  list        <- list() 
  for (i in 1:number){
    list[i] <- list(df[((i*bound+1)-bound):(i*bound),])
  }
  return(list)
}

Exemple :

x <- matrix(c(1:10), ncol=1)
x
# [,1]
# [1,]    1
# [2,]    2
# [3,]    3
# [4,]    4
# [5,]    5
# [6,]    6
# [7,]    7
# [8,]    8
# [9,]    9
#[10,]   10

x.split <- df_split(x,5)
x.split
# [[1]]
# [1] 1 2

# [[2]]
# [1] 3 4

# [[3]]
# [1] 5 6

# [[4]]
# [1] 7 8

# [[5]]
# [1] 9 10

InformationsquelleAutor Yohan Obadia

Utilisation caTools paquet dans la R
exemple de code sera comme suit:-

data
split = sample.split(data$DependentcoloumnName, SplitRatio = 0.6)
training_set = subset(data, split == TRUE)
test_set = subset(data, split == FALSE)

InformationsquelleAutor Yash Sharma

2

Utilisation de la base de R. la Fonction runif génère uniformément distribué des valeurs de 0 à 1.By de coupure variable valeur (train.taille dans l'exemple ci-dessous), vous aurez toujours environ le même pourcentage d'enregistrements aléatoires au-dessous de la valeur limite.
```
data(mtcars)
set.seed(123)

#desired proportion of records in training set
train.size<-.7
#true/false vector of values above/below the cutoff above
train.ind<-runif(nrow(mtcars))<train.size

#train
train.df<-mtcars[train.ind,]


#test
test.df<-mtcars[!train.ind,]
```
- Ce serait une bien meilleure réponse si elle montrait le couple supplémentaire de lignes pour créer de la formation et de jeux de tests (dont les débutants ont souvent du mal avec).
InformationsquelleAutor Konstantin Mingoulin

Je peux suggérer à l'aide de la réchantillon package:

# choosing 75% of the data to be the training data
data_split <- initial_split(data, prop = .75)
# extracting training data and test data as two seperate dataframes
data_train <- training(data_split)
data_test  <- testing(data_split)

InformationsquelleAutor

1
```
require(caTools)

set.seed(101)            #This is used to create same samples everytime

split1=sample.split(data$anycol,SplitRatio=2/3)

train=subset(data,split1==TRUE)

test=subset(data,split1==FALSE)
```
La sample.split() fonction ajouter une colonne supplémentaire 'split1" pour dataframe et 2/3 des lignes auront cette valeur en tant que VRAI et les autres comme des FAUX.Maintenant les lignes où split1 est VRAI sera copié dans le train et d'autres lignes seront copiés pour tester dataframe.

InformationsquelleAutor Abhishek

En supposant df est votre bloc de données, et que vous souhaitez créer 75% train et 25% test

all <- 1:nrow(df)
train_i <- sort(sample(all, round(nrow(df)*0.75,digits = 0),replace=FALSE))
test_i <- all[-train_i]

Puis de créer un train et test des trames de données

df_train <- df[train_i,]
df_test <- df[test_i,]

InformationsquelleAutor Corentin

Je suis tombé sur celui-ci, il peut aider trop.

set.seed(12)
data = Sonar[sample(nrow(Sonar)),]#reshufles the data
bound = floor(0.7 * nrow(data))
df_train = data[1:bound,]
df_test = data[(bound+1):nrow(data),]

InformationsquelleAutor user322203

Méfiez-vous des sample pour partager si vous recherchez des résultats reproductibles. Si vos données changent, même légèrement, la scission aura varier, même si vous utilisez set.seed. Imaginez, par exemple, la liste triée des Identifiants de données vous est tous les nombres entre 1 et 10. Si vous venez de tomber une observation, dire 4, l'échantillonnage par emplacement donnerait un des résultats différents car maintenant 5 à 10 tous les déplacés des lieux.

Une méthode alternative consiste à utiliser une fonction de hachage pour les Id de mappage dans certains pseudo-aléatoire de nombres, et l'échantillon sur le mod de ces numéros. Cet échantillon est plus stable, car l'affectation est aujourd'hui déterminée par la valeur de hachage de chaque observation, et non pas par sa position relative.

Par exemple:

require(openssl)  # for md5
require(data.table)  # for the demo data

set.seed(1)  # this won't help `sample`

population <- as.character(1e5:(1e6-1))  # some made up ID names

N <- 1e4  # sample size

sample1 <- data.table(id = sort(sample(population, N)))  # randomly sample N ids
sample2 <- sample1[-sample(N, 1)]  # randomly drop one observation from sample1

# samples are all but identical
sample1
sample2
nrow(merge(sample1, sample2))

[1] 9999

# row splitting yields very different test sets, even though we've set the seed
test <- sample(N-1, N/2, replace = F)

test1 <- sample1[test, .(id)]
test2 <- sample2[test, .(id)]
nrow(test1)

[1] 5000

nrow(merge(test1, test2))

[1] 2653

# to fix that, we can use some hash function to sample on the last digit

md5_bit_mod <- function(x, m = 2L) {
  # Inputs: 
  #  x: a character vector of ids
  #  m: the modulo divisor (modify for split proportions other than 50:50)
  # Output: remainders from dividing the first digit of the md5 hash of x by m
  as.integer(as.hexmode(substr(openssl::md5(x), 1, 1)) %% m)
}

# hash splitting preserves the similarity, because the assignment of test/train 
# is determined by the hash of each obs., and not by its relative location in the data
# which may change 
test1a <- sample1[md5_bit_mod(id) == 0L, .(id)]
test2a <- sample2[md5_bit_mod(id) == 0L, .(id)]
nrow(merge(test1a, test2a))

[1] 5057

nrow(test1a)

[1] 5057

la taille de l'échantillon n'est pas exactement 5000 parce que l'affectation est probabiliste, mais il ne devrait pas être un problème dans des échantillons de grande taille grâce à la loi des grands nombres.

Voir aussi: http://blog.richardweiss.org/2016/12/25/hash-splits.html
et https://crypto.stackexchange.com/questions/20742/statistical-properties-of-hash-functions-when-calculating-modulo

Ajout d'une question distincte: stackoverflow.com/questions/52769681/...

InformationsquelleAutor dzeltzer

set.seed(123)
llwork<-sample(1:length(mydata),round(0.75*length(mydata),digits=0)) 
wmydata<-mydata[llwork, ]
tmydata<-mydata[-llwork, ]

InformationsquelleAutor Xavier Jiménez Albán

0

Nous pouvons diviser les données d'un rapport ici, il est de 80% train et à 20% dans un ensemble de données de test.
```
ind <- sample(2, nrow(dataName), replace = T, prob = c(0.8,0.2))
train <- dataName[ind==1, ]
test <- dataName[ind==2, ]
```
InformationsquelleAutor Adarsh Pawar
-2

Il y a un moyen très simple de sélectionner un certain nombre de lignes à l'aide de la R index pour les lignes et les colonnes. Cela vous permet d'PROPREMENT diviser l'ensemble de données d'un certain nombre de lignes à - dire le 1er 80% de vos données.

Dans la R de toutes les lignes et les colonnes sont indexées donc DataSetName[1,1] est la valeur attribuée à la première colonne et la première ligne de "DataSetName". Je peux sélectionner les lignes à l'aide de [x] et de colonnes à l'aide de [x]

Par exemple: Si j'ai un ensemble de données, idéalement nommé "data" avec 100 lignes, je peux afficher le premier 80 lignes à l'aide de

Vue(data[1:80,])

De la même façon, je peux sélectionner les lignes et sous-ensemble d'entre eux en utilisant:

train = data[1:80,]

test = data[81:100,]

Maintenant, j'ai mes données divisé en deux parties, sans que la possibilité de rééchantillonnage. Rapide et facile.
- Même si il est vrai que les données peuvent être divisés de cette façon, il n'est pas conseillé. Certains ensembles de données sont commandés par une variable que vous n'êtes pas conscient de. Si son meilleur exemple de lignes qui seront considérés comme de la formation au lieu de prendre les n premières lignes.
- Si vous mélangez les données avant de les séparer, de test et d'entraînement, votre suggestion fonctionne.
InformationsquelleAutor Dan Butorovich

Vous devez vous connecter pour publier un commentaire.