Exploration de données vs OLAP
L'exploration de données et OLAP sont deux des technologies courantes de Business Intelligence (BI). La veille stratégique désigne des méthodes informatiques permettant d'identifier et d'extraire des informations utiles à partir de données métiers. L'exploration de données est le domaine de l'informatique qui consiste à extraire des modèles intéressants à partir de grands ensembles de données. Il combine de nombreuses méthodes issues de l'intelligence artificielle, des statistiques et de la gestion de bases de données. OLAP (traitement analytique en ligne) comme son nom l'indique est une compilation de méthodes permettant d'interroger des bases de données multidimensionnelles..
L'exploration de données est également connue sous le nom de découverte des connaissances dans les données (KDD). Comme mentionné ci-dessus, il s’agit d’un domaine de l’informatique qui traite de l’extraction d’informations auparavant inconnues et intéressantes à partir de données brutes. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, l’exploration de données est devenue un outil très important pour convertir cette grande quantité de données en informations décisionnelles, l’extraction manuelle des modèles étant devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l’analyse de réseaux sociaux, la détection des fraudes et le marketing. L'exploration de données traite généralement des quatre tâches suivantes: mise en cluster, classification, régression et association. Le clustering identifie des groupes similaires à partir de données non structurées. La classification est une règle d'apprentissage qui peut être appliquée à de nouvelles données. Elle comprend généralement les étapes suivantes: prétraitement des données, conception, modélisation, apprentissage / sélection de fonctionnalités et évaluation / validation. La régression consiste à rechercher des fonctions avec une erreur minimale pour modéliser les données. Et l’association recherche des relations entre les variables. L'exploration de données est généralement utilisée pour répondre à des questions telles que quels sont les principaux produits susceptibles d'aider à générer des bénéfices élevés l'année prochaine dans Wal-Mart.
OLAP est une classe de systèmes fournissant des réponses à des requêtes multidimensionnelles. OLAP est généralement utilisé pour le marketing, la budgétisation, les prévisions et autres applications similaires. Il va sans dire que les bases de données utilisées pour OLAP sont configurées pour des requêtes complexes et ad-hoc avec une performance rapide à l'esprit. Généralement, une matrice est utilisée pour afficher la sortie d'un OLAP. Les lignes et les colonnes sont formées par les dimensions de la requête. Ils utilisent souvent des méthodes d'agrégation sur plusieurs tables pour obtenir des résumés. Par exemple, peut-il être utilisé pour connaître les ventes de cette année chez Wal-Mart par rapport à l’année précédente? Quelle est la prévision sur les ventes au prochain trimestre? Que peut-on dire de la tendance en regardant la variation en pourcentage?
Bien qu'il soit évident que l'exploration de données et OLAP soient similaires, car ils exploitent des données pour gagner de l'intelligence, la principale différence provient de la manière dont ils fonctionnent sur les données. Les outils OLAP fournissent une analyse multidimensionnelle des données et fournissent des résumés des données mais, à l'inverse, l'exploration de données se concentre sur les ratios, les modèles et les influences de l'ensemble de données. C’est un accord OLAP avec agrégation, qui se résume à l’opération de données via «addition» mais l’exploration de données correspond à «division». Autre différence notable, alors que les outils d’exploration de données modélisent les données et renvoient des règles exploitables, OLAP effectuera des techniques de comparaison et de contraste en fonction de la dimension métier en temps réel..