Clustering hiérarchique vs partitionnel
Le clustering est une technique d'apprentissage automatique permettant d'analyser des données et de les diviser en groupes de données similaires. Ces groupes ou ensembles de données similaires sont appelés grappes. L'analyse de cluster examine les algorithmes de cluster permettant d'identifier automatiquement les clusters. Hierarchical et Partitional sont deux de ces classes d'algorithmes de clustering. Les algorithmes de classification hiérarchique divisent les données en une hiérarchie de grappes. Les algorithmes de partitionnement divisent le jeu de données en partitions mutuellement disjointes.
Qu'est-ce que le clustering hiérarchique??
Les algorithmes de classification hiérarchique répètent le cycle de fusion de petites grappes en grappes plus grandes ou de division de grandes grappes en grappes plus petites. Dans les deux cas, il génère une hiérarchie de grappes appelée dendogramme. La stratégie de regroupement par agglomération utilise l’approche ascendante consistant à fusionner des grappes en groupes plus grands, tandis que la stratégie de regroupement par divisions utilise l’approche ascendante consistant à scinder en plusieurs groupes. En règle générale, l'approche gourmande est utilisée pour décider quels groupes plus grands / plus petits sont utilisés pour la fusion / division. La distance euclidienne, la distance de Manhattan et la similarité en cosinus sont parmi les mesures de similarité les plus couramment utilisées pour les données numériques. Pour les données non numériques, des mesures telles que la distance de Hamming sont utilisées. Il est important de noter que les observations réelles (instances) ne sont pas nécessaires pour la classification hiérarchique, car seule la matrice de distances est suffisante. Le dendogramme est une représentation visuelle des grappes, qui affiche très clairement la hiérarchie. L'utilisateur peut obtenir une classification différente en fonction du niveau auquel le dendogramme est coupé..
Qu'est-ce que le clustering partitionnel??
Les algorithmes de clustering partitionnels génèrent diverses partitions, puis les évaluent selon certains critères. Ils sont également qualifiés de non hiérarchiques car chaque instance est placée dans l'un des k groupes mutuellement exclusifs. Étant donné qu'un seul ensemble de clusters est la sortie d'un algorithme de clustering partitionnel typique, l'utilisateur doit entrer le nombre souhaité de clusters (généralement appelé k). L'un des algorithmes de classification partitionnels les plus couramment utilisés est l'algorithme de classification k-means. L'utilisateur est tenu de fournir le nombre de grappes (k) avant de démarrer et l'algorithme commence par initialiser les centres (ou les centroïdes) des k partitions. En résumé, l'algorithme de classification k-means affecte des membres en fonction des centres actuels et des centres de réestimation en fonction des membres actuels. Ces deux étapes sont répétées jusqu'à l'optimisation d'une certaine fonction objectif de similarité intra-cluster et d'une dissimilarité inter-cluster. Par conséquent, une initialisation judicieuse des centres est un facteur très important pour obtenir des résultats de qualité à partir d'algorithmes de clustering partitional.
Quelle est la différence entre le clustering hiérarchique et partitionnel?
Le clustering hiérarchique et partitionné présente des différences essentielles en termes de temps d'exécution, d'hypothèses, de paramètres d'entrée et de clusters résultants. En règle générale, le clustering partitionnel est plus rapide que le clustering hiérarchique. La classification hiérarchique nécessite uniquement une mesure de similarité, tandis que la classification partitionnelle requiert des hypothèses plus strictes telles que le nombre de classes et les centres initiaux. La mise en cluster hiérarchique ne nécessite aucun paramètre d'entrée, tandis que les algorithmes de mise en cluster partiels nécessitent le nombre de clusters à exécuter. La classification hiérarchique renvoie une division beaucoup plus significative et subjective des grappes, mais la classification partitionnelle produit exactement k grappes. Les algorithmes de classification hiérarchique conviennent mieux aux données catégoriques, à condition qu'une mesure de similarité puisse être définie en conséquence..