Comment obtenir du texte brut à partir du fichier pdf à l'aide de java

J'ai des fichiers pdf, à l'Aide de pdfbox j'ai converti en texte et stockées dans des fichiers texte, Maintenant à partir de fichiers texte que je veux supprimer

  1. Hyperliens
  2. Tous les caractères spéciaux
  3. Des lignes vides
  4. en-têtes pieds de page des fichiers pdf
  5. “1)”,“2)”, “a)”, “balles”, etc.

Je veux obtenir valide le texte ligne par ligne comme ceci:

Nous proposons OntoGain, une méthode pour l'apprentissage à partir de l'ontologie multi-word concept des termes extraits de texte brut. OntoGain suit une ontologie de processus d'apprentissage dénies par des couches de traitement. Bâtiment sur la plaine d'extraction de terme une notion de hiérarchie est formé par le regroupement de l'extrait de concepts. Dérivé du terme de taxonomie est ensuite enrichi avec des non-relations taxonomiques. Diérents de l'état de l'art des méthodes ont été examinées pour la mise en œuvre de chaque couche. OntoGain est basée sur multi-parole terme de concepts multi-parole ou de termes composés sont investis plus solide et plus distinctifs de la sémantique que de la plaine seul mot les termes. Nous avons opté pour une méthode de clustering hiérarchique et le Concept Formel d'Analyse (CAF) de l'algorithme pour la construction du terme de taxonomie. En outre, une règle d'association algorithme est appliqué pour révéler les non-relations taxonomiques. Une méthode qui essaie de réaliser le plus approprié à la généralisation de niveau entre une relation de concepts est également mis en œuvre. Pour montrer la preuve de concept, un prototype de système est mis en œuvre. Le OntoGain permet la transformation de la dérivée de l'ontologie en OWL à l'aide de Jena Web Sémantique Cadre-travail1. OntoGain est appliqué sur les deux sources de données distinctes médical et informatique de corpus et de ses résultats sont comparés avec des résultats similaires obtenus par Text2Onto, un état-of-the-art-ontologie de la méthode d'apprentissage. L'analyse de 11,5 CCD1.1 résultats indique que OntoGain fonctionne mieux que Text2Onto en termes de précision des extraits plus correcte des concepts tout en étant plus sélectif des extraits moins nombreux, mais plus sur des concepts.

Comment puis-je y parvenir?

  • utiliser des regex pour faire vos besoins
  • En outre: Tous les caractères spéciaux les caractères Qui prenez-vous en compte? - les en-têtes pieds de page Comment vous attendez-vous à reconnaître les en-têtes et pieds de page après l'extraction? Vous feriez mieux de ne pas les extraire pour commencer, c'est à dire à l'aide de PDFTextStripperByArea - 1),2)a), balles etc. etc est toujours une difficulté dans les spécifications.
  • à l'exception de dot, il devrait supprimer tous les caractères spéciaux($#@!%^&*(){}"?/,<>), et il faut supprimer du texte avec des liens hypertexte
InformationsquelleAutor user2609542 | 2013-08-07