Python traitement de texte: AttributeError: 'liste' de l'objet n'a pas d'attribut "inférieure"

Je suis nouveau à Python et à Stackoverflow(soyez doux) et suis en train d'apprendre comment faire une analyse de sentiment. Je suis en utilisant une combinaison de code que j'ai trouvé dans un tuto et ici: Python - AttributeError: 'liste' de l'objet n'a pas d'attribut Cependant, je reçois

Traceback (most recent call last):
    File "C:/Python27/training", line 111, in <module>
    processedTestTweet = processTweet(row)
  File "C:/Python27/training", line 19, in processTweet
    tweet = tweet.lower()
AttributeError: 'list' object has no attribute 'lower'`

C'est mon code:

import csv
#import regex
import re
import pprint
import nltk.classify
#start replaceTwoOrMore
def replaceTwoOrMore(s):
#look for 2 or more repetitions of character
pattern = re.compile(r"(.)\1{1,}", re.DOTALL)
return pattern.sub(r"\1\1", s)
# process the tweets
def processTweet(tweet):
#Convert to lower case
tweet = tweet.lower()
#Convert www.* or https?://* to URL
tweet = re.sub('((www\.[\s]+)|(https?://[^\s]+))','URL',tweet)
#Convert @username to AT_USER
tweet = re.sub('@[^\s]+','AT_USER',tweet)
#Remove additional white spaces
tweet = re.sub('[\s]+', ' ', tweet)
#Replace #word with word
tweet = re.sub(r'#([^\s]+)', r'\1', tweet)
#trim
tweet = tweet.strip('\'"')
return tweet
#start getStopWordList
def getStopWordList(stopWordListFileName):
#read the stopwords file and build a list
stopWords = []
stopWords.append('AT_USER')
stopWords.append('URL')
fp = open(stopWordListFileName, 'r')
line = fp.readline()
while line:
word = line.strip()
stopWords.append(word)
line = fp.readline()
fp.close()
return stopWords
def getFeatureVector(tweet, stopWords):
featureVector = []
words = tweet.split()
for w in words:
#replace two or more with two occurrences
w = replaceTwoOrMore(w)
#strip punctuation
w = w.strip('\'"?,.')
#check if it consists of only words
val = re.search(r"^[a-zA-Z][a-zA-Z0-9]*[a-zA-Z]+[a-zA-Z0-9]*$", w)
#ignore if it is a stopWord
if(w in stopWords or val is None):
continue
else:
featureVector.append(w.lower())
return featureVector
def extract_features(tweet):
tweet_words = set(tweet)
features = {}
for word in featureList:
features['contains(%s)' % word] = (word in tweet_words)
return features
#Read the tweets one by one and process it
inpTweets = csv.reader(open('C:/GsTraining.csv', 'rb'),
delimiter=',',
quotechar='|')
stopWords = getStopWordList('C:/stop.txt')
count = 0;
featureList = []
tweets = []
for row in inpTweets:
sentiment = row[0]
tweet = row[1]
processedTweet = processTweet(tweet)
featureVector = getFeatureVector(processedTweet, stopWords)
featureList.extend(featureVector)
tweets.append((featureVector, sentiment))
# Remove featureList duplicates
featureList = list(set(featureList))
# Generate the training set
training_set = nltk.classify.util.apply_features(extract_features, tweets)
# Train the Naive Bayes classifier
NBClassifier = nltk.NaiveBayesClassifier.train(training_set)
# Test the classifier
with open('C:/CleanedNewGSMain.txt', 'r') as csvinput:
with open('GSnewmain.csv', 'w') as csvoutput:
writer = csv.writer(csvoutput, lineterminator='\n')
reader = csv.reader(csvinput)
all=[]
row = next(reader)
for row in reader:
processedTestTweet = processTweet(row)
sentiment = NBClassifier.classify(
extract_features(getFeatureVector(processedTestTweet, stopWords)))
row.append(sentiment)
processTweet(row[1])
writer.writerows(all)

Toute aide serait très appréciée.

OriginalL'auteur user3670554 | 2014-05-23

9

Le résultat de l'csv reader est une liste, lower ne fonctionne que sur des chaînes de caractères. C'est sans doute une liste de chaîne de caractères, il y a donc deux options. Vous pouvez soit appeler lower sur chaque élément, ou de mettre la liste dans une chaîne, puis appel lower.
```
# the first approach
[item.lower() for item in tweet]
# the second approach
' '.join(tweet).lower()
```
Mais plus raisonnablement (difficile à dire sans plus d'informations) vous ne voulez vraiment un élément de votre liste. Quelque chose le long des lignes de:
```
for row in reader:
processedTestTweet = processTweet(row[0]) # Again, can't know if this is actually correct without seeing the file
```
Aussi, devinant que vous n'utilisez pas le csv reader tout à fait comme vous pensez que vous êtes, parce qu'en ce moment vous êtes à la formation d'un classificateur de bayes naïf sur un seul exemple à chaque fois et puis l'avoir prédire la un exemple, il a été formé. Peut-être expliquer ce que vous essayez de faire?

Merci pour la réponse rapide. Ce que je veux est: j'ai une petite étiquette .csv ensemble de formation avec 1000 positif et 1000 déclarations négatives. De la formation, il semble que j'ai testé seulement par le codage en dur dans un test énoncé par exemple, " c'est bon!". Cependant, j'ai un fichier avec environ 10000 tweets et Facebook posts et je veux ouvrir que dans ce programme, et de tester le sentiment de l'aide Naïve Bayes. Je ne pense pas que je suis en utilisant csv reader correctement mais je ne peux pas mettre mon doigt sur elle encore..

OriginalL'auteur Slater Victoroff

Vous devez vous connecter pour publier un commentaire.