Mise en pratique sous Hadoop et Spark
40 H
Présentiel en ligne
À l'étude
Présentiel :
En ligne :
Prérequis :
10 personnes minimum
5 personnes minimum
Base en Programmation
Catégorie :
Académique
Certification :
Académique
Description
Cette formation permet la maîtrise des outils de traitement du Big Data capables de traiter de vastes volumes de données.
Hadoop est un framework open source utilisé pour stocker et traiter de larges ensembles de données. Il permet d’analyser les données en parallèle sur un cluster de multiples ordinateurs, plutôt que sur une seule machine ce qui implique un important gain de vitesse. Il est alors plus facile d’utiliser toute la capacité de stockage et de traitement des serveurs en cluster et d’exécuter des traitements distribués sur de larges volumes de données.
Spark est un système de traitement distribué utilisé pour les workloads de Big Data. Il utilise le caching
in-memory et l’exécution de requêtes optimisées pour permettre des requêtes rapides sur des données de n’importe quelle taille. Il s’agit d’un moteur rapide pour le traitement Big Data. En fonctionnant sur la mémoire RAM, il offre de meilleures performances que les outils Big Data tels que MapReduce (Hadoop).
Ce moteur peut être utilisé pour les requêtes SQL distribuées, pour la création de pipelines de données, pour l’ingestion de données dans une base de données, pour l’exécution d’algorithmes de Machine Learning ou pour travailler avec des flux de données et des graphiques
Témoignages