L'exploration de données MySQL
Récemment, j'ai commencé eCommerce projet et j'ai besoin d'utiliser datamining. Tout simplement ma question est la solution que j'utilise dans le développement:
- MySQL avec PHP
- SQL Serveur avec ASP
Effectivement MySQL est la bonne solution et adapté à mon projet pour de nombreuses raisons, mais est-il bon et optimale pour le Datamining? Je suis débutant dans le Datamining et je vais développer cette partie de mon projet. Est-il un bon support des outils pour cela?
- Soit la base de données est bon, vous pouvez le faire avec n'importe quelle base de données relationnelle. Si par "ASP" tu veux sans doute dire ASP.net - ASP lui-même est mort et enterré depuis de nombreuses années!
Vous devez vous connecter pour publier un commentaire.
SQL bases de données jouent peu de rôle dans l'exploration de données. (Qui est, sauf si vous considérez le calcul de différents rapports d'affaires impliquant des moyennes comme "data mining", à mon humble avis, celles-ci doivent plus être appelé "business analytics").
La raison en est que la avancé statistiques effectuées pour l'exploration de données ne peut pas être accéléré par l'index de base de données. Et généralement, ils prennent beaucoup plus de temps que les utilisateurs interactifs serait prêt à attendre.
Donc en fin de compte, la plupart des données réelles d'exploration de passe "hors ligne", à l'extérieur d'une base de données. La base de données peut servir comme initiale de stockage de données, mais le processus d'exploration de données, puis est habituellement 1. charger des données à partir de la base de données, 2. prétraiter les données, 3. analyser des données, 4. présenter les résultats.
Je sais qu'il existe quelques extensions SQL tel que le DMX ("Data mining eXtensions"). Mais sérieusement, qui n'est pas vraiment de l'exploration de données. C'est une interface d'invoquer la base de la prédiction de la fonctionnalité, mais rien de général. Toute bonne exploration de données nécessitera personnalisation du processus, et vous ne pouvez pas faire cela avec un DMX one-liner.
Fait est, la plupart des outils importants pour l'exploration de données sont R et SciPy. Suivie par les outils spécialisés tels que RapidMiner, Weka et ELKI. Pourquoi? Parce que R et Python sont meilleur pour l'écriture de scripts. Il est TOUT au sujet de la personnalisation du processus. Oubliez tout le poussoir de la solution, ils ne fonctionnent tout simplement pas raisonnablement bien encore.
Vous ne pouvez pas raisonnablement train par exemple, une machine à vecteurs de support "à l'intérieur" d'une base de données SQL (et encore moins, à l'intérieur d'une base de données NoSQL, qui n'est généralement pas beaucoup plus qu'une valeur-clé magasin). Aussi, ne pas sous-estimer la nécessité de traiter vos données. Donc, en fait, vous serez en formation sur une copie de l'ensemble de données. Vous pourriez alors obtenir cette copie dans un format de données le plus efficace pour votre processus d'exploration de données plus tard; au lieu de le garder dans un accès aléatoire à des fins générales de la base de données du magasin.
Je dirais de choisir la langue que vous et votre équipe se sentira plus à l'aise avec, il existe des biens et pas de marchandises sur les deux côtés, je pense que vous faites un peu de recherche avant de vous choisir un chemin, en gardant à l'esprit les besoins de votre entreprise.