qu'est-ce que le bootstrap de données dans le data mining?

récemment je suis tombé sur ce terme,mais n'ont vraiment aucune idée de quoi il s'agit.J'ai cherché en ligne,mais avec peu de gain.
Merci.

OriginalL'auteur Kevin | 2010-09-16

data-mining machine-learning

23

Si vous n'avez pas assez de données pour former votre algorithme, vous pouvez augmenter la taille de votre formation définie par (uniformément) sélection aléatoire d'éléments et de les dupliquer (avec remplacement).

OriginalL'auteur Michael Clerx
37

Prendre un échantillon de l'heure de la journée que vous vous réveillez le samedi. Certains vendredi soir, vous avez quelques verres de trop, si vous vous réveillez tôt (mais retourner au lit). Les autres jours vous réveiller à une heure normale. Les autres jours, vous dormez.

Voici les résultats:

[3.1, 4.8, 6.3, 6.4, 6.6, 7.3, 7.5, 7.7, 7.9, 10.1]

Quel est le temps moyen que vous vous réveillez?

Eh bien, c'est de 6,8 (heures, ou 6:48). Un contact le plus tôt possible pour moi.

La qualité de prédiction est-ce de lorsque vous vous réveillerez samedi prochain? Pouvez-vous quantifier comment mal vous êtes susceptible de l'être?

C'est un joli petit échantillon, et nous ne sommes pas sûr de la répartition des processus sous-jacents, de sorte qu'il pourrait ne pas être une bonne idée d'utiliser la norme statistique paramétrique techniques†.

Pourquoi ne pas prendre un échantillon aléatoire de notre échantillon, et de calculer la moyenne et de répéter cela? Cela va nous donner une estimation de la gravité de notre estimation.

Je l'ai fait plusieurs fois, et la moyenne était entre de 5,98 et 7,8

Ce qui est appelé la bootstrap, et il a d'abord été mentionné par Bradley Efron en 1979.

Une variante est appelée la jackknife, où vous pourrez déguster tous, mais l'un de vos données, prenez le dire, et le répéter. Le couteau de poche moyenne est de 6,8 (le même que la moyenne arithmétique) et varie de 6,4 7,2.

Une autre variante est appelée k-fold cross-validation, où vous (au hasard) de diviser votre jeu de données en k de même taille sections, calculer la moyenne de tous, mais une section, et répétez k fois. Le 5-fold cross-validation de la moyenne est de 6,8 et varie de 4 à 9.

† Cette distribution est Normale. L'intervalle de confiance 95% de la moyenne est de 5,43 à l'article 8.11, raisonnablement proche, mais plus grand que le bootstrap veux dire.

Toute critique de documents, réflexions sur d'éventuels biais introduit par l'amorçage?
Je prendrais le temps de lire l'original: stat.cmu.edu/~fienberg/Statistics36-756/Efron1979.pdf

OriginalL'auteur Neil McGuigan
0

Dans l'apprentissage de la machine d'amorçage est itératif de formation sur un jeu connu. http://en.wikipedia.org/wiki/Bootstrapping_(machine_learning)

c'est pas super utile de fournir un lien vers wikipédia. c'est assez facile à trouver sur votre propre 🙂

OriginalL'auteur leonm

Vous devez vous connecter pour publier un commentaire.