Python supprimer les mots vides de pandas dataframe
Je veux supprimer les mots vides de ma colonne "tweets". Comment puis-je itératif au cours de chaque ligne et de chaque élément?
pos_tweets = [('I love this car', 'positive'),
('This view is amazing', 'positive'),
('I feel great this morning', 'positive'),
('I am so excited about the concert', 'positive'),
('He is my best friend', 'positive')]
test = pd.DataFrame(pos_tweets)
test.columns = ["tweet","class"]
test["tweet"] = test["tweet"].str.lower().str.split()
from nltk.corpus import stopwords
stop = stopwords.words('english')
vieux post, mais pour la référence, l'arrêt de mots aura des mots comme "je" et "un". @EdChum votre code sera la cause de tous les mots pour être ruiné à cause de cela
probablement vous pouvez trier les mots vides basés sur des espaces et de la longueur.
probablement vous pouvez trier les mots vides basés sur des espaces et de la longueur.
OriginalL'auteur I am not George | 2015-04-08
Vous devez vous connecter pour publier un commentaire.
L'Aide De La Liste De Compréhension
Retourne:
j'ai besoin d'ajouter
str(x).split()
et wil êtretest['tweet'].apply(lambda x: [item for item in str(x).split() if item not in stopwords.words('spanish')])
parce que montrer une erreur qui dit 'float' objet n'est pas objet iterableOriginalL'auteur Liam Foley
Nous pouvons importer
stopwords
denltk.corpus
comme ci-dessous. Avec cela, Nous excluons les mots vides avec Python compréhension de liste etpandas.DataFrame.apply
.Il peut aussi être exclu par l'aide de
pandas.Series.str.replace
.Si vous ne pouvez pas importer des mots vides, vous pouvez les télécharger comme suit.
Un autre moyen de réponse est de l'importation
text.ENGLISH_STOP_WORDS
desklearn.feature_extraction
.Avis que le nombre de mots dans le scikit-learn mots vides et nltk les mots vides sont différents.
OriginalL'auteur Keiku
Découvrez pd.DataFrame.replace(), il pourrait fonctionner pour vous:
Edit :
replace()
recherche des chaîne(et même des sous-chaînes). Par exemple, il serait de remplacerrk
dework
sirk
est un mot vide qui parfois n'est pas prévu.D'où l'utilisation de
regex
ici :OriginalL'auteur mok0