L'aide d'ElasticSearch et/ou Solr comme un magasin de données pour MS Office et PDF

Je suis actuellement en train de concevoir une recherche en texte intégral système qui permet aux utilisateurs d'effectuer des requêtes de texte à l'encontre de MS Office et PDF, et le résultat sera de retour une liste de documents qui correspondent le mieux à la requête. L'utilisateur sera alors de sélectionner tout le document retourné et voir ce document dans MS Word, Excel, ou une visionneuse de PDF.

Puis-je utiliser ElasticSearch ou Solr pour importer les données binaires brutes documents (ie. .docx, .xlsx, .les fichiers pdf) dans sa "banque de données", puis exporter le document de l'appareil de l'utilisateur sur commande pour l'affichage.

Précédemment, j'ai utilisé MongoDB 2.6.6 pour importer les fichiers raw dans GridFS et l'extrait du texte dans une autre collection (la collection contenait un index de texte) et qui fonctionnait bien. Cependant, MongoDB la recherche plein texte est assez basique et donc je suis maintenant à la recherche à Solr ou ElasticSearch pour effectuer plus complexe la recherche de texte.

Nick

  • Vous pourriez envisager de elasticwarehouse.org pour cela. Il lit le fichier, extrait des métadonnées à l'aide de Tika et stocke le contenu binaire à l'intérieur de ES (comme élément binaire) ou en externe système de fichiers. Vous pouvez également l'utiliser pour tester votre cas d'utilisation (stockage énorme de fichiers binaires ou un lot de fichiers binaires peut provoquer ES problèmes de cluster)
  • Salut, pouvez-vous donner de la rétroaction au sujet de la solution utilisée pour répondre à vos besoins, et les concers que vous avez rencontrées en essayant de mettre en œuvre les moteurs de recherche? Merci à l'avance.
  • Comment êtes-vous d'extraire du texte à partir du PDF? Avez-vous des outils personnalisés pour le faire ou est-élastique de traitement de la recherche que de trop?
InformationsquelleAutor ngekas | 2015-01-16