L'aide d'ElasticSearch et/ou Solr comme un magasin de données pour MS Office et PDF

Je suis actuellement en train de concevoir une recherche en texte intégral système qui permet aux utilisateurs d'effectuer des requêtes de texte à l'encontre de MS Office et PDF, et le résultat sera de retour une liste de documents qui correspondent le mieux à la requête. L'utilisateur sera alors de sélectionner tout le document retourné et voir ce document dans MS Word, Excel, ou une visionneuse de PDF.

Puis-je utiliser ElasticSearch ou Solr pour importer les données binaires brutes documents (ie. .docx, .xlsx, .les fichiers pdf) dans sa "banque de données", puis exporter le document de l'appareil de l'utilisateur sur commande pour l'affichage.

Précédemment, j'ai utilisé MongoDB 2.6.6 pour importer les fichiers raw dans GridFS et l'extrait du texte dans une autre collection (la collection contenait un index de texte) et qui fonctionnait bien. Cependant, MongoDB la recherche plein texte est assez basique et donc je suis maintenant à la recherche à Solr ou ElasticSearch pour effectuer plus complexe la recherche de texte.

Nick

Vous pourriez envisager de elasticwarehouse.org pour cela. Il lit le fichier, extrait des métadonnées à l'aide de Tika et stocke le contenu binaire à l'intérieur de ES (comme élément binaire) ou en externe système de fichiers. Vous pouvez également l'utiliser pour tester votre cas d'utilisation (stockage énorme de fichiers binaires ou un lot de fichiers binaires peut provoquer ES problèmes de cluster)
Salut, pouvez-vous donner de la rétroaction au sujet de la solution utilisée pour répondre à vos besoins, et les concers que vous avez rencontrées en essayant de mettre en œuvre les moteurs de recherche? Merci à l'avance.
Comment êtes-vous d'extraire du texte à partir du PDF? Avez-vous des outils personnalisés pour le faire ou est-élastique de traitement de la recherche que de trop?

InformationsquelleAutor ngekas | 2015-01-16

22

Les deux Solr et Elasticsearch sera l'indice de la contenu du document. Solr a intégré, Elasticsearch a besoin d'un plugin. Facile de toute façon et les deux utilisent Tika sous les couvertures.

Aucun d'eux va stocker le document lui-même. Vous pouvez essayer de faire le faire, mais ils ne sont pas conçus pour cela et vous allez souffrir.

En outre, ni Solr, ni Elasticsearch sont actuellement recommandé comme stockage principal. Ils peuvent le faire, mais il n'est pas essentiel à la mission pour eux - dire pour un système de fichiers de mise en œuvre.

Donc, je vous recommande d'avoir les fichiers quelque part et l'utilisation de Solr/Elasticsearch pour la recherche uniquement. C'est là qu'ils brillent.
- Merci!!!! Je suis en train de penser de stocker les documents de mongo et l'extrait du texte dans ElasticSearch (à l'aide de la MongoDB rivière plugin pour le lien)
- vous pouvez utiliser Ambar comme solution, nous avons développé pour être une bonne solution pour ce genre de problèmes. Check it out ici github.com/RD17/ambar
InformationsquelleAutor Alexandre Rafalovitch
14

Je voudrais essayer le Elasticsearch attachement plugin. Les détails peuvent être trouvés ici:

https://www.elastic.co/guide/en/elasticsearch/plugins/2.2/mapper-attachments.html

https://github.com/elasticsearch/elasticsearch-mapper-attachments

Il est construit au-dessus de Apache Tika:

http://tika.apache.org/1.7/formats.html

Type De Pièce Jointe

Le type de pièce jointe permet d'indice différent "attachement" type de champ
(codé en base64), par exemple, les formats de Microsoft Office, open
les formats de document, ePub, HTML, et ainsi de suite (la liste complète peut être trouvée ici).

Le type de pièce jointe est fourni comme un plug-in d'extension. Le plugin est un
simple fichier zip qui peut être téléchargé et placé sous
$ES_HOME/plugins emplacement. Il sera automatiquement détecté et la
type de pièce jointe sera ajouté.

De Document Pris En Charge Les Formats De
- HyperText Markup Language
- XML et dérivés formats
- Document Microsoft Office formats
- Format OpenDocument
- iWorks formats de document
- Portable Document Format
- Format De Publication Électronique
- Rich Text Format
- De Compression et de formats d'emballage
- Formats de texte
- Alimentation et la Syndication de formats
- Les formats d'aide
- Formats Audio
- Formats d'Image
- Formats vidéo
- Les fichiers de classe Java et archives
- Code Source
- Formats de courrier
- Formats de CAO
- Formats de police
- Scientifique formats
- Les programmes exécutables et les bibliothèques
- Crypto formats
- Le premier lien semble brisé.
- correction du lien, la page avait déménagé
- Puis-je utiliser hadoop pour stocker des données et de l'utilisation de mapper des pièces jointes plugin ? Est-il possible ?
- Cette méthode ne fonctionne plus dans les nouvelles versions de Elasticsearch, il a été remplacé par l'acquisition d'attachement au plugin.
InformationsquelleAutor John Petrone
0

Concernant solr:

Si les docs doivent être retournés sur les métadonnées des recherches, Solr dispose d'un BinaryField fieldtype, à laquelle vous pouvez envoyer des données binaires codées en base64.Gardez à l'esprit qu'en général les gens recommandent contre cela, car cela peut augmenter votre indice (RAM)/performance), et si possible un set-up où vous stockez les fichiers de l'extérieur (et le chemin d'accès au fichier dans solr) pourrait bea meilleur choix.

Si vous voulez solr pour indexer automatiquement le texte à l'intérieur du fichier pdf/doc -- c'est possible avec le extractingrequesthandler: https://wiki.apache.org/solr/ExtractingRequestHandler
- C'est pourquoi Solr n'ont type de fichier externe. Lorsque vous l'utilisez, vous n'avez pas besoin de ré-inventer la manipulation de l'index vs système de fichiers sur votre propre.
- Merci pour expliquer les limites de stocker des données binaires dans Solr (je suppose que la même restriction s'applique à ElasticSearch aussi).
InformationsquelleAutor Alegis
0

Elasticsearch ne stocker des documents (.pdf, des .docs par exemple) dans la _source champ. Il peut être utilisé comme un magasin de données NoSQL (comme MongoDB).

InformationsquelleAutor Jeff
0

Un peu en retard à la fête, mais cela peut aider quelqu'un 🙂

J'ai eu un problème similaire, et certaines recherches m'a conduit à fscrawler. Description:

Ce robot d'aide à l'index binaire des documents tels que PDF, Open Office, MS Office.

Caractéristiques principales:
- Système de fichiers Local (ou un lecteur monté) l'analyse et l'indice de nouveaux fichiers,
- mise à jour de celles existantes et supprime les anciens. Un système de fichiers distant via SSH
  de l'analyse.
- RESTE de l'interface pour vous permettre de télécharger vos documents binaires à elasticsearch.
InformationsquelleAutor Nick

Vous devez vous connecter pour publier un commentaire.