Ce qui ne l'BILOU tags dire dans la Reconnaissance des entités Nommées?
Titre résume assez bien la question. J'ai remarqué que dans certains journaux de gens ont fait référence à un BILOU schéma de codage pour les TNS contrairement au BIO système d'identification (comme ce papier par Ratinov et Roth en 2009 http://cogcomp.cs.illinois.edu/page/publication_view/199)
De travail en 2003, avec l'CoNLL données je sais que
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
Alors que j'ai été dit que les mots en BILOU stand pour
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
J'ai aussi vu des gens faire référence à un autre tag
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
Je suis assez nouveau dans le TNS de la littérature, mais j'ai été incapable de trouver quelque chose de clair et d'expliquer ces balises. Mes questions, en particulier, se rapporte à ce que la différence entre la "dernière" et " fin "balises sont, et ce qu' "unité" de la balise représente.
- Pouvez-vous mettre des références sur "j'ai aussi vu des gens faire référence à un autre tag"?
Vous devez vous connecter pour publier un commentaire.
Basée sur une question et un patch en Clair, les SAVOIRS traditionnels, il semble que BILOU signifie "Commencement", à l'Intérieur et à Dernière des jetons de multi-jeton morceaux, Unité de longueur des morceaux et à l'Extérieur" (italiques ajoutés). Par exemple, le chunking indiqué par des crochets
peut être codé avec BILOU comme
Je voudrais ajouter une certaine expérience en comparant BIO et BILOU régimes. Mon expérience a été sur un dataset seulement et peuvent ne pas être représentatifs.
Mon dataset contient environ 35 mille de brefs énoncés (de 2 à 10 jetons) et sont annotés à l'aide de 11 différentes balises. En d'autres termes, il y a 11 entités nommées.
Les fonctionnalités permettant d'inclure le mot, à gauche et à droite de 2 grammes, 1-5 caractère ngrams (à l'exception du milieu), des caractéristiques de forme et ainsi de suite. Quelques entités sont gazetteer soutenu ainsi.
J'ai mélangé le jeu de données et de le diviser en 80/20 parties: la formation et les tests. Ce processus a été répété 5 fois et pour chaque entité, j'ai enregistré la Précision, le Rappel et la F1-mesure. La performance a été mesurée au niveau de l'entité, et non pas à un jeton de niveau comme dans Ratinov & Roth, 2009 papier.
Le logiciel que j'ai utilisé pour former un modèle est CRFSuite. J'ai utilisé L-BFGS solveur avec c1=0 et c2=1.
Tout d'abord, les résultats du test sont comparés pour les 5 plis sont très similaires. Cela signifie qu'il ya peu de variabilité entre les exécuter pour exécuter, ce qui est bon. Deuxièmement, BIO régime enregistré de très de même que BILOU régime. Si il n'y a aucune différence significative, peut-être que c'est à la troisième ou quatrième chiffre après la période de Précision, le Rappel et la F1-mesure.
Conclusion: Dans mon expérience BILOU régime n'est pas mieux (mais pas pire) que le BIO régime.
BILOU est la même chose avec BMEWO.
Il est également BMEWO+, qui a mis plus d'informations sur les environs parole de la classe à l'Extérieur de jetons (donc "O plus")
Voir les détails ici https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/