Recherche d'Information (ri) vs d'exploration de données vs Machine Learning (ML)

Souvent, les gens jettent dans les termes de l'IR, ML, et l'exploration de données, mais j'ai remarqué que beaucoup de chevauchement entre elles.

De personnes ayant de l'expérience dans ces domaines, exactement ce que trace la ligne entre ces?

InformationsquelleAutor Boris Yeltz | 2010-08-05

24

C'est juste le point de vue d'une personne (formé en ML); d'autres pourraient voir les choses différemment.

L'Apprentissage de la Machine est probablement le plus homogène de ces trois termes, et le plus constamment appliquée--elle est limitée à la le patron de l'extraction (ou "pattern-matching") algorithmes eux-mêmes.

Des termes que vous avez mentionné, "Machine Learning" est la plus utilisée par les Départements Universitaires de décrire leurs Programmes, de leurs départements et de leurs programmes de recherche, ainsi que le terme le plus utilisé dans les revues et conférences de la procédure. ML est clairement la moins dépendante du contexte des termes que vous avez mentionné.

De Récupération de l'Information et d'Exploration de Données sont beaucoup plus proches de décrire complète de processus commerciaux--c'est à dire, de la requête de l'utilisateur pour la récupération et la livraison de résultats pertinents. ML algorithmes pourrait être quelque part dans ce processus de flux, et dans des applications plus sophistiquées, sont souvent, mais ce n'est pas une exigence formelle. En outre, le terme d'Exploration de Données semble généralement à se référer à l'application de certains flux de processus sur big data (j'.e, > 2BG) et, par conséquent, comprend généralement un traitement distribué (map-reduce) composant près de l'avant de ce flux de travail.

Information Retrieval (IR) et de Data Mining (DM) sont liées à l'Apprentissage Machine (ML) dans un Infrastructure-Algorithme sorte de façon. En d'autres termes, l'Apprentissage automatique est une source d'outils utilisés pour résoudre des problèmes de recherche d'Information. Mais c'est la seule source d'outils. Mais IR ne dépend pas de ML, par exemple, un particulier IR de projet peut être de stockage et une récupération rapide des données indexées réactive à une requête de recherche de l'IR, l'essentiel de ce qui est l'optimisation de la performance des flux de données, c'est à dire, l'aller-retour à partir de la requête de livrer les résultats de la recherche pour l'utilisateur. La prédiction ou la correspondance de modèle pourrait ne pas être utile ici. De même, un DM de projet peut utiliser un ML algorithme pour la prédiction du moteur, encore un DM de projet est plus susceptibles d'être concernés par l'ensemble de la chaîne de traitement, par exemple, le calcul parallèle des techniques efficaces d'entrée d'un énorme volume de données (CT peut-être) qui offre une proto-résultat d'un moteur de traitement pour le calcul des statistiques descriptives (moyenne, écart-type, la distribution, etc. sur les variables (colonnes).

Enfin considérer le Netflix Prix. Ce concours a été réalisé uniquement à l'Apprentissage de la Machine--l'accent a été mis sur l'algorithme de prédiction, comme en témoigne le fait qu'il n'y a qu'un seul critère de réussite: l'exactitude des prédictions retournées par l'algorithme. Imaginez si le "Netflix Prize" a été changé en tant que Données d'Exploration de la concurrence. Les critères de réussite serait presque certainement être étendue avec plus de précision l'accès à la performance de l'algorithme dans le cadre commercial--ainsi, par exemple, la vitesse d'exécution globale (comment rapidement les recommandations sont livrés à l'utilisateur, peut probablement être considéré avec précision.

Les termes "recherche d'Information" et de "Data Mining" sont maintenant en utilisation courante, bien que pendant un moment je n'ai vu de ces termes dans la description de mon poste ou d'un fournisseur de la littérature (généralement à côté du mot "solution".) À mon employeur, nous avons récemment embauché un "Data Mining" de l'analyste. Je ne sais pas ce qu'il fait exactement, mais il porte une cravate pour travailler tous les jours.
- (+1), j'aime aussi la distinction faite par Radford Neale: "Beaucoup de machine de problèmes d'apprentissage ont un grand nombre de variables — peut-être 10 000 ou 100 000, ou plus (par exemple, les gènes, les pixels). Applications d'exploration de données impliquent souvent un très grand nombre de cas, parfois des millions." (sta414, week1).
- L'exploration de données souffre également d'une totale mot à la mode. Aujourd'hui, le calcul de la valeur moyenne d'une "big data" ensemble de données est déjà considéré comme "exploration de données" par certains, malheureusement.
- Il porte une cravate au travail hein. Qui me donne une très bonne idée de ce qu'il pourrait faire 🙂
InformationsquelleAutor doug
16

Je vais essayer de tracer la ligne comme suit:

De récupération de l'Information est sur de trouver quelque chose qui déjà est une partie de vos données, aussi vite que possible.

L'apprentissage de la Machine sont des techniques de généraliser les connaissances existantes pour nouveau de données, aussi précises que possible.

D'exploration de données est surtout à propos de la découverte de quelque chose de caché dans vos données, que vous n'avez pas savoir avant de, que les "nouveaux" que possible.

Ils se croisent, et utilisent souvent des techniques de l'un à l'autre. DM et de l'IR à la fois utiliser les structures d'index pour accélérer le processus. DM utilise beaucoup de techniques de blanchiment d'argent, par exemple un modèle dans l'ensemble de données est utile pour la généralisation pourrait être une nouvelle connaissance.

Ils sont souvent difficiles à séparer. Faites-vous une faveur et ne pas simplement aller pour les mots à la mode. À mon avis, la meilleure façon de les distinguer est de par leur intention, comme indiqué ci-dessus: trouver les données, de les généraliser à de nouvelles données, de trouver de nouvelles propriétés de données existantes.
- Je ne suis pas d'accord avec votre point de vue sur l'apprentissage de la machine. Votre point de vue est plus centré sur l'apprentissage supervisé (en tant que votre déclaration est correcte). L'apprentissage non supervisé, cependant, est de trouver des modèles que l'on ne connaît pas, donc avec pas avant les connaissances existantes.
- L'apprentissage non supervisé est un oxymore. Non supervisée sont les méthodes de DM, pas ML. Ils n'apprennent pas, comment pourraient-ils, afin de ne pas les serrer dans l'apprentissage de vue.
- Je crois que vous faites référence à l'entreposage, qui sans surveillance les méthodes ne sont pas souvenir après qu'ils aient été exécutées. Je suis d'accord, la terminologie est vicié à l'AI, mais tel qu'il est actuellement, sans surveillance est en vertu de l'apprentissage de la machine, donc je ne suis pas d'accord avec ton post encore. Également DM n'est pas nécessairement utiliser des méthodes d'apprentissage non supervisé (bien que la plupart du temps ne) donc dire que l'apprentissage non supervisé est égal à DM est en effet très mal.
- Définir "l'apprentissage" si nous voulons arriver à quelque chose ici. Pour moi, "l'apprentissage" est la généralisation à partir de données d'apprentissage. Je ne vois pas cela se produire, par exemple, en matière de regroupement - il n'existe pas de données sur la formation.
- Personnellement, j'utilise l'anglais sens de la parole, "L'acquisition de connaissances ou de compétences par le biais de l'étude, de l'expérience, ou de l'enseignement.". Supervisé en se référant à l'enseignement via les données sur l'apprentissage et non supervisée par l'étude/l'expérience, par conséquent, il apprend. Donc je suppose que nos différents points de vue naître de l'interprétation de la parole de l'apprentissage.
- Dans une certaine mesure. Mais aussi parce que je trouve que le ML point de vue simplement ne parvient pas à comprendre la plupart des méthodes non supervisées, en raison de l'obsession de l'optimisation d'un particulier critère de qualité. Au lieu de dire aux gens "c'est le même, mais différent", il serait beaucoup aider les gens à voir c'est une approche orthogonale: la découverte de la place de l'apprentissage.
InformationsquelleAutor Anony-Mousse
4

Vous pouvez également ajouter un modèle de reconnaissance et d' (calcul?) les statistiques qu'un autre couple de zones qui se chevauchent avec les trois que vous avez mentionné.

Je dirais qu'il n'est pas bien défini de ligne entre eux. Ce qui les sépare est leur histoire et de leurs priorités. Statistiques souligne rigueur mathématique, l'exploration de données met l'accent sur la mise à l'échelle de grands ensembles de données, ML est quelque part entre les deux.

InformationsquelleAutor dimatura
0

L'exploration de données est en découvrant les modèles cachés ou inconnus de la connaissance, qui peut être utilisé
pour la prise de décisions par les gens.

L'apprentissage de la Machine est dans l'apprentissage d'un modèle à classer de nouveaux objets.

InformationsquelleAutor Razan Paul

Vous devez vous connecter pour publier un commentaire.