Objectifs
Spark est un framework de calcul distribué indispensable pour effectuer des analyses complexes à grande échelle. Il peut être utilisé depuis des langages comme Scala, Java, Python ou R.
Les objectifs sont de connaître l’architecture de Spark et les principes de traitement afin de réaliser des traitements distribués. Le stagiaire apprendra à réaliser des pipelines d’apprentissage et de prédiction avec des techniques de modélisation distribuées. Il apprendra également le traitement des données en flux et les modes d’industrialisation des traitements.
Contenu
Structures de données
- Resilient Data Sets
- DataFrames et RDD
- Gestion de la distribution des données
- Accumulateurs et variables diffusées
Apache Spark
- Principe de fonctionnement d’Apache Spark
- Historique et évolution
- Architecture et distribution
- Modes de déploiement et modules de Spark
- Créer son environnement Spark
Manipuler et modéliser des données
- Accès aux données avec Spark SQL
- Transtypage des données
- Passage RDD et Dataframes
- Modéliser des données avec MLLib
- Apprentissage supervisé ou non supervisé
- Recodage et création de variables
- Technique d’évaluation des modèles
- Mise en place des pipelines de traitement
Spark en production
- Production
- Industrialisation de traitements
Spark et R
- Exemple de codes sources avec Sparkr et Sparklyr
Modalités pédagogiques
Afin de permettre aux étudiants d’acquérir des compétences opérationnelles en entreprise, cette formation associe des connaissances notionnelles (exposés théoriques) avec des savoir-faire pratiques (applications, cas concrets, travaux pratiques).
3 jours
Prix net : 1 770 € (Non soumis à la TVA)
Niveau : Intermédiaire
Certification Data Analyst
> Voir la formation
Certification Data Scientist
> Voir la formation