Python - Comment scinder une chaîne de caractères non alpha

Je suis en train d'utiliser python pour analyser les lignes de code source c++. La seule chose qui m'intéresse, c'est d'inclure les directives.

    #include "header.hpp"

Je veux qu'il soit flexible et toujours travailler avec un mauvais codage des styles comme:

          #   include"header.hpp"

J'ai obtenu au point où je peux lire des lignes et de l'assiette d'espace avant et après le symbole #. Cependant j'ai encore besoin de savoir ce que la directive c'est par la lecture de la chaîne jusqu'à ce qu'un non-alpha personnage est rencontré, peu importe la météo, c'est un espace, devis, onglet ou en angle support.

Donc en gros ma question est: Comment puis-je diviser une chaîne commençant avec les alphas jusqu'à ce qu'un non alpha est rencontré?

Je pense que je pourrais être capable de le faire avec les regex, mais je n'ai rien trouvé dans la documentation qui ressemble à ce que je veux.

Aussi si quelqu'un a des conseils sur comment je pourrais obtenir le nom de fichier entre guillemets ou entre crochets que serait un plus.

voulez-vous de les diviser ou de récupérer les "en-tête.hpp"? pouvez-vous donner l'exemple de sortie?
Inclure un exemple de chaîne et le résultat attendu s'il vous plaît.
si la directive n'est rien d'autre ensuite inclure ce n'est pas grave et je vais passer à la ligne suivante, mais si c'est une directive include, j'aurai besoin de l'en-tête.hpp".
exemple de texte: "#include "header.hpp"" souhaité la sortie si la directive est de citer: "en-tête.hpp" (ou "en"en-tête.hpp"")
Plaine python, ou de bibliothèques sont des suggestions de permis?

OriginalL'auteur nickeb96 | 2016-02-05

4

Vous pouvez le faire avec une regex. Cependant, vous pouvez également utiliser un simple while boucle.
```
def splitnonalpha(s):
   pos = 1
   while pos < len(s) and s[pos].isalpha():
      pos+=1
   return (s[:pos], s[pos:])
```
Test:
```
>>> splitnonalpha('#include"blah.hpp"')
('#include', '"blah.hpp"')
```
Je vais chercher cette réponse a) parce que cela signifie que je n'avez pas à traiter avec la regex et b) les autres solutions ont échoué avec d'autres directives de préprocesseur comme définir et celui-ci n'était pas
Je vous recommande de trouver un réel C de l'analyseur. Ce (la pire) comme avec tous les autres réponses ne peuvent pas s'en approcher.
Je vais probablement regarder C analyseurs plus tard, mais depuis que j'ai vraiment besoin que de chercher à inclure les directives pour l'instant, je a été de saut pour une solution légère. Je suis fondamentalement, il suffit de faire un simple générateur de makefile comme bakefile ou d'innombrables autres
Un générateur qui doit être vérifié à la main pour plus de précision, n'est d'aucune utilité.
Le point de l'ensemble dans l'analyse tous les fichiers de la source est donc il n'a pas à être vérifié à la main.

OriginalL'auteur kfx
16

Votre instinct sur l'utilisation de regex est correct.
```
import re
re.split('[^a-zA-Z]', string_to_split)
```
La [^a-zA-Z] partie signifie "pas de caractères alphabétiques".

Cette réponse est dangereux parce qu'il ne veut pas séparer par des espaces.
Il divise l'espace pour moi. Il me semble qu'il serait divisé sur quoi que ce soit à l'exception des caractères alphanumériques. Il n'exclut a-z et A-Z - donc, c'est une série très limitée.

OriginalL'auteur nlloyd

Les deux options mentionnées par d'autres qui sont meilleurs à mon avis, sont re.split et re.findall:

>>> import re
>>> re.split(r'\W+', '#include "header.hpp"')
['', 'include', 'header', 'hpp', '']
>>> re.findall(r'\w+', '#include "header.hpp"')
['include', 'header', 'hpp']

Un rapide benchmark:

>>> setup = "import re; word_pattern = re.compile(r'\w+'); sep_pattern = re.compile(r'\W+')"
>>> iterations = 10**6
>>> timeit.timeit("re.findall(r'\w+', '#header foo bar!')", setup=setup, number=iterations)
3.000092029571533
>>> timeit.timeit("word_pattern.findall('#header foo bar!')", setup=setup, number=iterations)
1.5247418880462646
>>> timeit.timeit("re.split(r'\W+', '#header foo bar!')", setup=setup, number=iterations)
3.786440134048462
>>> timeit.timeit("sep_pattern.split('#header foo bar!')", setup=setup, number=iterations)
2.256173849105835

De la différence fonctionnelle, c'est que re.split conserve vide jetons. Ce n'est généralement pas utile pour la segmentation des fins, mais les points suivants doivent être identiques à la re.findall solution:

>>> filter(bool, re.split(r'\W+', '#include "header.hpp"'))
['include', 'header', 'hpp']

OriginalL'auteur Denis Drescher

2

Vous pouvez utiliser les regex. Le \W jeton correspond à tous les non-caractères de mot (qui est environ la même que la non-alphanumériques). Les caractères de mot sont A-Z, a-z, 0-9, et _. Si vous souhaitez faire correspondre souligne ainsi, vous pourriez faire [\W_].
```
>>> import re
>>> line = '#   include"header.hpp"  ' 
>>> m = re.match(r'^\s*#\s*include\W+([\w\.]+)\W*$', line)
>>> m.group(1)
'header.hpp'
```
Le seul problème avec ceci est que si je remplace inclure avec quelque chose comme définir-je obtenir un AttributeError: 'NoneType' object n'a pas d'attribut "groupe", donc j'aurais besoin d'un moyen de dire si c'est une directive include avant j'exécute ce code
La plupart C des analyseurs ne permettent pas de saut de ligne entre les # et include où cette *#\s*include ne le permettrait.

OriginalL'auteur Patrick Carroll
1
```
import re
s = 'foo bar- blah/hm.lala'
print(re.findall(r"\w+",s))
```
de sortie : ['foo', 'bar', 'bla', 'hm', 'lala']

OriginalL'auteur Daniyal Syed
0

Tout n'est pas exacte, la plupart analyser l'en-tête directives comme ce

(?m)^\h*#\h*include\h*["<](\w[\w.]*)\h*[">]

Où, (?m) est le mode multi-lignes, \h est blanc horizontal (aka [^\S\r\n] ).

OriginalL'auteur sln
0

Cela fonctionne:
```
import re

test_str = '    #   include "header.hpp"'

match = re.match(r'\s*#\s*include\s*("[\w.]*")', test_str)
if match:
    print match.group(1)
```
Le seul problème avec ceci est que si je remplace inclure avec quelque chose comme définir-je obtenir un AttributeError: 'NoneType' object n'a pas d'attribut "groupe"
remplacer dans l'expression régulière ou à la chaîne d'entrée? pourquoi ne pas juste pour voir si une correspondance est trouvée en première...
la chaîne d'entrée.
ah, il travaille désormais avec l'instruction if. Si seulement un débordement de pile permettez-moi de l'accepter 2 réponses.

OriginalL'auteur Garrett R
-1

importation re
re.split('[^a-zA-Z0-9]', string_to_split)

pour tous !(alphanumaric) caractères

hey, pouvez-vous expliquer ce qu'il fait?

OriginalL'auteur user2902302

Vous devez vous connecter pour publier un commentaire.