Analyser un tweet pour extraire des hashtags dans un tableau en Python

Je vais avoir un diable de temps à la prise de l'information dans un tweet, y compris les hashtags, et en tirant chaque hashtag dans un tableau à l'aide de Python. Je suis gêné voire de mettre ce que j'ai essayé jusqu'à présent.

Par exemple, "j'aime #stackoverflow en raison du nombre de personnes qui sont très #utile!"

Ce doit tirer le 3 hashtags dans un tableau.

source d'informationauteur Scott

arrays python

Une simple regex:

>>> import re
>>> s = "I love #stackoverflow because #people are very #helpful!"
>>> re.findall(r"#(\w+)", s)
['stackoverflow', 'people', 'helpful']

Noter cependant que, comme l'a suggéré dans d'autres réponses, cela peut aussi trouver des hashtags, comme une table de hachage emplacement dans une URL:

>>> re.findall(r"#(\w+)", "http://example.org/#comments")
['comments']

Donc une solution simple serait le suivant (supprime les doublons comme un bonus):

>>> def extract_hash_tags(s):
...    return set(part[1:] for part in s.split() if part.startswith('#'))
...
>>> extract_hash_tags("#test http://example.org/#comments #test")
set(['test'])

>>> s="I love #stackoverflow because #people are very #helpful!"
>>> [i  for i in s.split() if i.startswith("#") ]
['#stackoverflow', '#people', '#helpful!']

6

AndiDogs réponse à vis avec des liens et d'autres choses, vous pouvez les filtrer d'abord. Après cela, utilisez ce code:
```
UTF_CHARS = ur'a-z0-9_\u00c0-\u00d6\u00d8-\u00f6\u00f8-\u00ff'
TAG_EXP = ur'(^|[^0-9A-Z&/]+)(#|\uff03)([0-9A-Z_]*[A-Z_]+[%s]*)' % UTF_CHARS
TAG_REGEX = re.compile(TAG_EXP, re.UNICODE | re.IGNORECASE)
```
Il peut sembler exagéré, mais cela a été converti à partir d'ici http://github.com/mzsanford/twitter-text-java.
Il va la traiter comme 99% de tous les hashtags de la même manière que twitter gère.

Pour plus d'converti twitter regex découvrez ce: http://github.com/BonsaiDen/Atarashii/blob/master/atarashii/usr/share/pyshared/atarashii/formatter.py

EDIT:

Découvrez: http://github.com/BonsaiDen/AtarashiiFormat

Supposons que vous avez pour récupérer votre #Hashtags à partir d'une phrase pleine de symboles de ponctuation. Disons que #stackoverflow #people et #helpfulsont terminés avec différents symboles, vous voulez les récupérer à partir de text mais vous voudrez peut-être éviter les répétitions:

>>> text = "I love #stackoverflow, because #people... are very #helpful! Are they really #helpful??? Yes #people in #stackoverflow are really really #helpful!!!"

si vous essayez avec set([i for i in text.split() if i.startswith("#")]) seul, vous obtiendrez:

>>> set(['#helpful???',
 '#people',
 '#stackoverflow,',
 '#stackoverflow',
 '#helpful!!!',
 '#helpful!',
 '#people...'])

qui dans mon esprit est redondante. Une meilleure solution à l'aide de RE avec module re:

>>> import re
>>> set([re.sub(r"(\W+)$", "", j) for j in set([i for i in text.split() if i.startswith("#")])])
>>> set(['#people', '#helpful', '#stackoverflow'])

Maintenant, c'est ok pour moi.

EDIT: UNICODE #Hashtags

Ajouter le re.UNICODE drapeau si vous souhaitez supprimer les signes de ponctuation, mais toujours en préservant les lettres avec accents, apostrophes et autres unicode codé des trucs qui peut être important si le #Hashtags peut-être s'attendre à ne pas être uniquement en anglais... peut-être que ce n'est qu'un italien guy cauchemar, peut-être pas! 😉

Par exemple:

>>> text = u"I love #stackoverflòw, because #peoplè... are very #helpfùl! Are they really #helpfùl??? Yes #peoplè in #stackoverflòw are really really #helpfùl!!!"

sera encodé en unicode:

>>> u'I love #stackoverfl\xf2w, because #peopl\xe8... are very #helpf\xf9l! Are they really #helpf\xf9l??? Yes #peopl\xe8 in #stackoverfl\xf2w are really really #helpf\xf9l!!!'

et vous pouvez récupérer votre (codé correctement) #Hashtags de cette façon:

>>> set([re.sub(r"(\W+)$", "", j, flags = re.UNICODE) for j in set([i for i in text.split() if i.startswith("#")])])
>>> set([u'#stackoverfl\xf2w', u'#peopl\xe8', u'#helpf\xf9l'])

EDITx2: UNICODE #Hashtags et de contrôle pour # répétitions

Si vous voulez contrôler pour plusieurs répétitions de la # symbole, comme dans (pardonnez-moi si le text exemple est devenu presque illisible):

>>> text = u"I love ###stackoverflòw, because ##################peoplè... are very ####helpfùl! Are they really ##helpfùl??? Yes ###peoplè in ######stackoverflòw are really really ######helpfùl!!!"
>>> u'I love ###stackoverfl\xf2w, because ##################peopl\xe8... are very ####helpf\xf9l! Are they really ##helpf\xf9l??? Yes ###peopl\xe8 in ######stackoverfl\xf2w are really really ######helpf\xf9l!!!'

alors vous devez remplacer ces multiples occurrences avec un unique #.
Une solution possible est d'introduire un autre imbriquée implicite set() la définition de la sub() fonction de remplacer les occurrences de plus de 1 # avec un seul #:

>>> set([re.sub(r"#+", "#", k) for k in set([re.sub(r"(\W+)$", "", j, flags = re.UNICODE) for j in set([i for i in text.split() if i.startswith("#")])])])
>>> set([u'#stackoverfl\xf2w', u'#peopl\xe8', u'#helpf\xf9l'])

hashtags = [word for word in tweet.split() if word[0] == "#"]

1

simple gist (mieux que la réponse choisie)
https://gist.github.com/mahmoud/237eb20108b5805aed5f
aussi travailler avec unicode hashtags

j'ai eu beaucoup de problèmes avec les langues unicode.

j'avais vu de nombreuses façons d'extraire les hashtag, mais non de leur répondre sur tous les cas

j'ai donc écrit quelques petits code python pour gérer la plupart des cas. il fonctionne pour moi.

def get_hashtagslist(string):
    ret = []
    s=''
    hashtag = False
    for char in string:
        if char=='#':
            hashtag = True
            if s:
                ret.append(s)
                s=''           
            continue

        # take only the prefix of the hastag in case contain one of this chars (like on:  '#happy,but i..' it will takes only 'happy'  )
        if hashtag and char in [' ','.',',','(',')',':','{','}'] and s:
            ret.append(s)
            s=''
            hashtag=False 

        if hashtag:
            s+=char

    if s:
        ret.append(s)

    return list(set([word for word in ret if len(ret)>1 and len(ret)<20]))

-1

J'ai extrait des hashtags dans un stupide mais efficace.

def retrive(s):
    indice_t = []
    tags = []
    tmp_str = ''
    s = s.strip()
    for i in range(len(s)):
        if s[i] == "#":
            indice_t.append(i)
    for i in range(len(indice_t)):
        index = indice_t[i]
        if i == len(indice_t)-1:
            boundary = len(s)
        else:
            boundary = indice_t[i+1]
        index += 1
        while index < boundary:
            if s[index] in "`~!@#$%^&*()-_=+[]{}|\\:;'"",.<>?/\n\t":
                tags.append(tmp_str)
                tmp_str = ''
                break
            else:
                tmp_str += s[index]
                index += 1
        if tmp_str != '':
            tags.append(tmp_str)
    return tags

Vous devez vous connecter pour publier un commentaire.