Extraire des Données à partir .Les fichiers PDF
J'ai besoin d'extraire des données à partir d' .Des fichiers PDF et de le charger dans SQL 2008.
Quelqu'un peut-il me dire comment procéder??
- Quelles sont les données que contiennent ces fichiers PDF que vous voulez extraire?
- Infos relatives aux livres(en fait une liste de best-seller des livres sur le marché)
- Je pense que vous voulez dire des métadonnées, qui est le titre et l'auteur et ces
- Je ne pense pas qu'il a les moyens de métadonnées sur le fichier - ça sonne plus comme il veut extraire le contenu du fichier, qui se compose d'une table de données, droit de S?
- le fichier contient des informations sur le livre titre auteur prix, etc....je veux extraire les informations à partir du fichier PDF
Vous devez vous connecter pour publier un commentaire.
Voici un exemple de comment utiliser iTextSharp pour extraire des données de texte dans un fichier PDF. Vous aurez à jouer avec elle quelques-uns pour lui faire faire exactement ce que vous voulez, je pense que c'est un bon plan. Vous pouvez voir comment le StringBuilder est utilisé pour stocker le texte, mais vous pouvez changer facilement que d'utiliser SQL.
Imaginez si vous avez posé cette question. Comment puis-je charger des données à partir arbitraire des fichiers texte dans une table SQL. Le défi n'est pas de l'ouverture du fichier texte et de le lire, de ses obtenir des données significatives des fichiers automatiquement.
De sorte que vous pouvez utiliser iText ou pdfSharp pour lire les fichiers PDF, mais son obtenir des données significatives, que va être le défi.
Si vous voulez dire des métadonnées, essayez cette question (première réponse)
Lire/Modifier les Métadonnées PDF à l'aide de iTextSharp
Vous aurez à faire de la base de données vous des trucs bien.
ce que vous devez faire est d'utiliser un outil pour extraire le texte d'un PDF d'abord et ensuite lire le fichier en binaire lecteur .. puis le stocker dans votre base de données .. pour extraire le texte il y a plusieurs outils à utiliser. le premier à mentionner sont:
ce sont les plus bien connus et bien documentés!
vérifiez les exemples suivants:
essayez les exemples suivants sur le code du projet:
Ces faire le travail et ils ne sont pas difficiles à comprendre. Espérons qu'ils vous aider 🙂
Une dernière remarque: comme pour moi, je iTextSharp que c'est le plus bien documenté de la bibliothèque avec la plupart des exemples.