Quelle est la différence entre HDFS et MapReduce

le différence principale entre HDFS et MapReduce est que HDFS est un système de fichiers distribué qui fournit un accès à haut débit aux données d'application, tandis que MapReduce est un framework logiciel qui traite de manière fiable les mégadonnées sur de grandes grappes..

Les données volumineuses sont une collection d'un grand ensemble de données. Il a trois propriétés principales: volume, vitesse et variété. Hadoop est un logiciel qui permet de stocker et de gérer des données volumineuses. C'est un framework open source écrit en Java. De plus, il prend en charge le traitement distribué de grands ensembles de données sur des grappes d'ordinateurs. HDFS et MapReduce sont deux modules de l'architecture Hadoop.

Zones clés couvertes

1. Qu'est-ce que HDFS?
     - Définition, fonctionnalité
2. Qu'est-ce que MapReduce
     - Définition, fonctionnalité
3. Quelle est la différence entre HDFS et MapReduce
     - Comparaison des différences clés

Mots clés

Big Data, HDFS, MapReduce

Qu'est-ce que HDFS?

HDFS signifie Système de fichiers distribué Hadoop. Il s’agit d’un système de fichiers distribué de Hadoop à exécuter sur des grappes volumineuses de manière fiable et efficace. En outre, il est basé sur le système de fichiers Google (GFS). De plus, il a aussi une liste de commandes pour interagir avec le système de fichiers.

De plus, le HDFS fonctionne selon l'architecture maître, esclave. Le nœud maître ou le nœud de nom gère les métadonnées du système de fichiers tandis que les nœuds esclaves ou les notes de données stockent les données réelles..

Figure 1: Architecture HDFS

En outre, un fichier dans un espace de noms HDFS est divisé en plusieurs blocs. Les nœuds de données stockent ces blocs. Et le nœud de nom mappe les blocs aux nœuds de données, qui gèrent les opérations de lecture et d'écriture avec le système de fichiers. En outre, ils effectuent des tâches telles que la création de blocs, la suppression, etc. comme indiqué par le nœud de nom.

Qu'est-ce que MapReduce

MapReduce est un framework logiciel qui permet aux applications d'écriture de traiter des données volumineuses simultanément sur de grandes grappes de matériel de base. Cette infrastructure comprend un seul outil de suivi des travaux maître et un outil de suivi des tâches esclaves par nœud de cluster. Le maître effectue la gestion des ressources, planifie les travaux sur les esclaves, surveille et réexécute les tâches ayant échoué. D'autre part, le suiveur de tâches esclave exécute les tâches demandées par le maître et renvoie en permanence les informations d'état des tâches.

Figure 2: Vue d'ensemble de MapReduce

De plus, deux tâches sont associées à MapReduce. Ils sont la tâche de la carte et la tâche de réduction. La tâche de mappage prend les données d'entrée et les divise en nuplets de paires clé / valeur, tandis que la tâche Réduire prend le résultat d'une tâche de mappage en entrée et connecte ces nuplets de données en plus petits tuples. De plus, la tâche de carte est effectuée avant la tâche de réduction..

Différence entre HDFS et MapReduce

Définition

HDFS est un système de fichiers distribués qui stocke de manière fiable des fichiers volumineux sur des ordinateurs d'un cluster étendu. En revanche, MapReduce est un framework logiciel permettant d’écrire facilement des applications qui traitent de grandes quantités de données en parallèle sur de grandes grappes de matériel de base d’une manière fiable et tolérante aux pannes. Ces définitions expliquent la principale différence entre HDFS et MapReduce.

Fonctionnalité principale

Une autre différence entre HDFS et MapReduce est que HDFS fournit un accès hautes performances aux données via des clusters Hadoop hautement évolutifs, tandis que MapReduce effectue le traitement des données volumineuses..

Conclusion

En bref, HDFS et MapReduce sont deux modules de l’architecture Hadoop. La principale différence entre HDFS et MapReduce est que HDFS est un système de fichiers distribué offrant un accès à haut débit aux données d'application, tandis que MapReduce est un framework logiciel qui traite de manière fiable les mégadonnées sur de grandes grappes..

Référence:

1. «Guide d'architecture HDFS», Apache Hadoop, disponible ici. 
2. “Didacticiel MapReduce”, Apache Hadoop, disponible ici.
3. «Qu'est-ce que le système de fichiers distribués Hadoop (HDFS)? - Définition de WhatIs.com. ”SearchDataManagement, disponible ici.

Courtoisie d'image:

1. “Hdfsarchitecture” de Magnai17 - Travail personnel (CC BY-SA 4.0) via Commons Wikimedia
2. «Aperçu de Mapreduce» par Poposhka - SVG-Edit (CC BY-SA 3.0) via Commons Wikimedia