Recherche d'Information (ri) vs d'exploration de données vs Machine Learning (ML)
Souvent, les gens jettent dans les termes de l'IR, ML, et l'exploration de données, mais j'ai remarqué que beaucoup de chevauchement entre elles.
De personnes ayant de l'expérience dans ces domaines, exactement ce que trace la ligne entre ces?
Vous devez vous connecter pour publier un commentaire.
C'est juste le point de vue d'une personne (formé en ML); d'autres pourraient voir les choses différemment.
L'Apprentissage de la Machine est probablement le plus homogène de ces trois termes, et le plus constamment appliquée--elle est limitée à la le patron de l'extraction (ou "pattern-matching") algorithmes eux-mêmes.
Des termes que vous avez mentionné, "Machine Learning" est la plus utilisée par les Départements Universitaires de décrire leurs Programmes, de leurs départements et de leurs programmes de recherche, ainsi que le terme le plus utilisé dans les revues et conférences de la procédure. ML est clairement la moins dépendante du contexte des termes que vous avez mentionné.
De Récupération de l'Information et d'Exploration de Données sont beaucoup plus proches de décrire complète de processus commerciaux--c'est à dire, de la requête de l'utilisateur pour la récupération et la livraison de résultats pertinents. ML algorithmes pourrait être quelque part dans ce processus de flux, et dans des applications plus sophistiquées, sont souvent, mais ce n'est pas une exigence formelle. En outre, le terme d'Exploration de Données semble généralement à se référer à l'application de certains flux de processus sur big data (j'.e, > 2BG) et, par conséquent, comprend généralement un traitement distribué (map-reduce) composant près de l'avant de ce flux de travail.
Information Retrieval (IR) et de Data Mining (DM) sont liées à l'Apprentissage Machine (ML) dans un Infrastructure-Algorithme sorte de façon. En d'autres termes, l'Apprentissage automatique est une source d'outils utilisés pour résoudre des problèmes de recherche d'Information. Mais c'est la seule source d'outils. Mais IR ne dépend pas de ML, par exemple, un particulier IR de projet peut être de stockage et une récupération rapide des données indexées réactive à une requête de recherche de l'IR, l'essentiel de ce qui est l'optimisation de la performance des flux de données, c'est à dire, l'aller-retour à partir de la requête de livrer les résultats de la recherche pour l'utilisateur. La prédiction ou la correspondance de modèle pourrait ne pas être utile ici. De même, un DM de projet peut utiliser un ML algorithme pour la prédiction du moteur, encore un DM de projet est plus susceptibles d'être concernés par l'ensemble de la chaîne de traitement, par exemple, le calcul parallèle des techniques efficaces d'entrée d'un énorme volume de données (CT peut-être) qui offre une proto-résultat d'un moteur de traitement pour le calcul des statistiques descriptives (moyenne, écart-type, la distribution, etc. sur les variables (colonnes).
Enfin considérer le Netflix Prix. Ce concours a été réalisé uniquement à l'Apprentissage de la Machine--l'accent a été mis sur l'algorithme de prédiction, comme en témoigne le fait qu'il n'y a qu'un seul critère de réussite: l'exactitude des prédictions retournées par l'algorithme. Imaginez si le "Netflix Prize" a été changé en tant que Données d'Exploration de la concurrence. Les critères de réussite serait presque certainement être étendue avec plus de précision l'accès à la performance de l'algorithme dans le cadre commercial--ainsi, par exemple, la vitesse d'exécution globale (comment rapidement les recommandations sont livrés à l'utilisateur, peut probablement être considéré avec précision.
Les termes "recherche d'Information" et de "Data Mining" sont maintenant en utilisation courante, bien que pendant un moment je n'ai vu de ces termes dans la description de mon poste ou d'un fournisseur de la littérature (généralement à côté du mot "solution".) À mon employeur, nous avons récemment embauché un "Data Mining" de l'analyste. Je ne sais pas ce qu'il fait exactement, mais il porte une cravate pour travailler tous les jours.
Je vais essayer de tracer la ligne comme suit:
De récupération de l'Information est sur de trouver quelque chose qui déjà est une partie de vos données, aussi vite que possible.
L'apprentissage de la Machine sont des techniques de généraliser les connaissances existantes pour nouveau de données, aussi précises que possible.
D'exploration de données est surtout à propos de la découverte de quelque chose de caché dans vos données, que vous n'avez pas savoir avant de, que les "nouveaux" que possible.
Ils se croisent, et utilisent souvent des techniques de l'un à l'autre. DM et de l'IR à la fois utiliser les structures d'index pour accélérer le processus. DM utilise beaucoup de techniques de blanchiment d'argent, par exemple un modèle dans l'ensemble de données est utile pour la généralisation pourrait être une nouvelle connaissance.
Ils sont souvent difficiles à séparer. Faites-vous une faveur et ne pas simplement aller pour les mots à la mode. À mon avis, la meilleure façon de les distinguer est de par leur intention, comme indiqué ci-dessus: trouver les données, de les généraliser à de nouvelles données, de trouver de nouvelles propriétés de données existantes.
Vous pouvez également ajouter un modèle de reconnaissance et d' (calcul?) les statistiques qu'un autre couple de zones qui se chevauchent avec les trois que vous avez mentionné.
Je dirais qu'il n'est pas bien défini de ligne entre eux. Ce qui les sépare est leur histoire et de leurs priorités. Statistiques souligne rigueur mathématique, l'exploration de données met l'accent sur la mise à l'échelle de grands ensembles de données, ML est quelque part entre les deux.
L'exploration de données est en découvrant les modèles cachés ou inconnus de la connaissance, qui peut être utilisé
pour la prise de décisions par les gens.
L'apprentissage de la Machine est dans l'apprentissage d'un modèle à classer de nouveaux objets.