Les Pandas De La Série: Journal De Normaliser
J'ai une Pandas de la Série, qui doit être transformées en log normale distribués. Mais je ne peux pas le journal de transformer encore, parce qu'il y a des valeurs =0 et les valeurs inférieures à 1 (0-4000). Par conséquent, je tiens à normaliser la première Série. J'ai entendu parler de StandardScaler(scikit-learn), Z-score de la normalisation et de Min-Max de mise à l'échelle(normalisation).
Je veux regrouper les données plus tard, ce qui serait la meilleure méthode?
StandardScaler et Z-score de la normalisation utilisation moyenne, variance, etc. Puis-je les utiliser sur "pas encore normal distibuted" de données?
- 1 < valeur < 1 - c'est à dire votre jeu de données est vide? :-p
- Mes Données est de 0 à 4000, les valeurs inférieures à 1 va être négative avec le Journal de Transformation. Les zéros sont aussi un problème, parce que je vais obtenir -inf, ce qui conduira à des Problèmes avec l'histogramme
Vous devez vous connecter pour publier un commentaire.
Si vos données sont dans l'intervalle (-1;+1) (en supposant que vous avez perdu le moins dans votre question) puis journal de transformation est probablement pas ce que vous avez besoin. Au moins à partir d'un point de vue théorique, c'est évidemment le mal chose à faire.
Peut-être que vos données ont déjà été prétraitées (mal)? Pouvez-vous obtenir les données brutes? Pourquoi pensez-vous du journal de transformer aidera?
Si vous ne se soucient pas quelle est l'importance de la chose à faire, vous pouvez appeler
log1p
, qui est le même quelog(1+x)
et qui va donc travailler sur (-1;∞).De transformer de logarithmes, vous avez besoin de valeurs positives, de sorte que la traduction de votre gamme de valeurs (-1,1] normalisé (0,1] comme suit
résultats dans un dataframe comme