KDD vs Data mining
KDD (Découverte de connaissances dans les bases de données) est un domaine de la science informatique, qui comprend les outils et les théories permettant aux humains d’extraire des informations utiles et jusque-là inconnues (savoir) à partir de vastes collections de données numérisées. KDD comprend plusieurs étapes, dont l'exploration de données. Le Data Mining est l'application d'un algorithme spécifique afin d'extraire des modèles à partir de données. Néanmoins, KDD et Data Mining sont utilisés de manière interchangeable.
Qu'est-ce que KDD??
Comme mentionné ci-dessus, le KDD est un domaine de l'informatique qui traite de l'extraction d'informations auparavant inconnues et intéressantes à partir de données brutes. KDD est tout le processus consistant à essayer de donner un sens aux données en développant des méthodes ou techniques appropriées. Ce processus traite du mappage de données de bas niveau dans d’autres formes plus compactes, abstraites et utiles. Ceci est réalisé en créant de courts rapports, en modélisant le processus de génération de données et en développant des modèles prédictifs pouvant prédire des cas futurs. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, KDD est devenu un processus très important pour convertir cette grande quantité de données en informations décisionnelles, l’extraction manuelle de modèles étant devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse de réseau social, la détection de fraude, la science, l'investissement, la fabrication, les télécommunications, le nettoyage de données, le sport, la recherche d'informations et en grande partie pour le marketing. KDD est généralement utilisé pour répondre à des questions telles que quels sont les principaux produits susceptibles d’aider à générer des profits élevés l’année prochaine dans Wal-Mart ?. Ce processus comporte plusieurs étapes. Il commence par développer une compréhension du domaine d'application et de l'objectif, puis à créer un jeu de données cible. Viennent ensuite le nettoyage, le prétraitement, la réduction et la projection des données. La prochaine étape consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier un motif. Enfin, les connaissances découvertes sont consolidées en visualisant et / ou en interprétant.
Qu'est-ce que l'exploration de données??
Comme mentionné ci-dessus, l'exploration de données n'est qu'une étape du processus global de KDD. Il existe deux objectifs principaux d'exploration de données définis par l'objectif de l'application, à savoir la vérification ou la découverte. La vérification consiste à vérifier l'hypothèse de l'utilisateur concernant les données, tandis que la découverte détecte automatiquement des modèles intéressants. Il existe quatre tâches principales d’exploration de données: le regroupement, la classification, la régression et l’association (synthèse). Le clustering identifie des groupes similaires à partir de données non structurées. La classification est des règles d'apprentissage qui peuvent être appliquées à de nouvelles données. La régression consiste à rechercher des fonctions avec une erreur minimale pour modéliser les données. Et l’association recherche des relations entre les variables. Ensuite, l'algorithme d'exploration de données spécifique doit être sélectionné. Selon l'objectif, différents algorithmes tels que la régression linéaire, la régression logistique, les arbres de décision et Naïve Bayes peuvent être sélectionnés. Ensuite, les modèles d'intérêt dans une ou plusieurs formes de représentation sont recherchés. Enfin, les modèles sont évalués en utilisant la précision prédictive ou la compréhensibilité..
Quelle est la différence entre KDD et Data mining??
Bien que les deux termes KDD et Data Mining soient fortement utilisés de manière interchangeable, ils font référence à deux concepts liés mais légèrement différents. KDD est le processus global d'extraction de connaissances à partir de données, tandis que l'exploration de données constitue une étape du processus KDD, qui consiste à identifier des modèles dans les données. En d'autres termes, l'exploration de données n'est que l'application d'un algorithme spécifique basé sur l'objectif général du processus KDD.