Exploration de données vs entreposage de données
Le Data Mining et le Data Warehousing sont des techniques très puissantes et populaires d'analyse des données. Les utilisateurs enclins aux statistiques utilisent l'exploration de données. Ils utilisent des modèles statistiques pour rechercher des modèles cachés dans les données. Les Data Miners sont intéressés par la recherche de relations utiles entre différents éléments de données, ce qui est finalement rentable pour les entreprises. Mais d’autre part, les experts en données capables d’analyser directement les dimensions de l’entreprise ont tendance à utiliser des entrepôts de données..
L'exploration de données est également connue sous le nom de découverte des connaissances dans les données (KDD). Comme mentionné ci-dessus, il s’agit d’un domaine de l’informatique qui traite de l’extraction d’informations auparavant inconnues et intéressantes à partir de données brutes. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, l’exploration de données est devenue un outil très important pour convertir cette grande quantité de données en informations décisionnelles, l’extraction manuelle des modèles étant devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l’analyse de réseaux sociaux, la détection des fraudes et le marketing. L'exploration de données traite généralement des quatre tâches suivantes: mise en cluster, classification, régression et association. Le clustering identifie des groupes similaires à partir de données non structurées. La classification est une règle d'apprentissage pouvant être appliquée à de nouvelles données. Elle comprend généralement les étapes suivantes: prétraitement des données, conception, modélisation, apprentissage / sélection des fonctionnalités et évaluation / validation. La régression consiste à rechercher des fonctions avec une erreur minimale pour modéliser les données. Et l’association recherche des relations entre les variables. L'exploration de données est généralement utilisée pour répondre à des questions telles que quels sont les principaux produits susceptibles d'aider à générer des bénéfices élevés l'année prochaine dans Wal-Mart?
Comme mentionné ci-dessus, l'entreposage de données est également utilisé pour analyser des données, mais par différents groupes d'utilisateurs et dans un objectif légèrement différent. Par exemple, dans le secteur de la vente au détail, les utilisateurs de Data Warehousing sont davantage préoccupés par les types d'achats populaires parmi les clients. Les résultats de l'analyse peuvent donc aider le client en améliorant l'expérience client. Mais les Data Miners conjecturent d’abord une hypothèse telle que les clients achètent un certain type de produit et analysent les données pour vérifier l’hypothèse. L'entreposage de données pourrait être effectué par un grand détaillant qui stockait initialement ses magasins avec les mêmes tailles de produits pour découvrir plus tard que les magasins de New York vendaient des stocks de plus petite taille beaucoup plus rapidement que dans les magasins de Chicago. Ainsi, en regardant ce résultat, le détaillant peut stocker le magasin de New York avec des tailles plus petites par rapport aux magasins de Chicago..
Ainsi, comme vous pouvez le constater, ces deux types d’analyses semblent être de la même nature à l’œil nu. Les deux s'inquiètent de l'augmentation des profits sur la base des données historiques. Mais bien sûr, il y a des différences clés. En termes simples, l’exploration de données et l’entreposage de données sont destinés à fournir différents types d’analyses, mais certainement à différents types d’utilisateurs. En d'autres termes, l'exploration de données recherche des corrélations, des modèles pour appuyer une hypothèse statistique. Mais Data Warehousing répond à une question relativement plus large et découpe les données à partir de là pour identifier les moyens d’améliorer l’avenir..