Objectifs

Spark est un framework de calcul distribué indispensable pour effectuer des analyses complexes à grande échelle. Il peut être utilisé depuis des langages comme Scala, Java, Python ou R.

Les objectifs sont de connaître l’architecture de Spark et les principes de traitement afin de réaliser des traitements distribués. Le stagiaire apprendra à réaliser des pipelines d’apprentissage et de prédiction avec des techniques de modélisation distribuées. Il apprendra également le traitement des données en flux et les modes d’industrialisation des traitements.

Contenu

Structures de données

  • Resilient Data Sets
  • DataFrames et RDD
  • Gestion de la distribution des données
  • Accumulateurs et variables diffusées

Apache Spark

  • Principe de fonctionnement d’Apache Spark
  • Historique et évolution
  • Architecture et distribution
  • Modes de déploiement et modules de Spark
  • Créer son environnement Spark

Manipuler et modéliser des données

  • Accès aux données avec Spark SQL
  • Transtypage des données
  • Passage RDD et Dataframes
  • Modéliser des données avec MLLib
  • Apprentissage supervisé ou non supervisé
  • Recodage et création de variables
  • Technique d’évaluation des modèles
  • Mise en place des pipelines de traitement

Spark en production

  • Production
  • Industrialisation de traitements

Spark et R

  • Exemple de codes sources avec Sparkr et Sparklyr

Modalités pédagogiques

Afin de permettre aux étudiants d’acquérir des compétences opérationnelles en entreprise, cette formation associe des connaissances notionnelles (exposés théoriques) avec des savoir-faire pratiques (applications, cas concrets, travaux pratiques).

3 jours

Prix net : 1 770 € (Non soumis à la TVA)

Niveau : Intermédiaire

Fiche formation

Certifications

Certification Data Analyst
> Voir la formation

Certification Data Scientist
> Voir la formation