Spark pour la Data Science

Objectifs

Spark est un framework de calcul distribué indispensable pour effectuer des analyses complexes à grande échelle. Il peut être utilisé depuis des langages comme Scala, Java, Python ou R.

Les objectifs sont de connaître l’architecture de Spark et les principes de traitement afin de réaliser des traitements distribués. Le stagiaire apprendra à réaliser des pipelines d’apprentissage et de prédiction avec des techniques de modélisation distribuées. Il apprendra également le traitement des données en flux et les modes d’industrialisation des traitements.

Contenu

Structures de données

Resilient Data Sets
DataFrames et RDD
Gestion de la distribution des données
Accumulateurs et variables diffusées

Apache Spark

Principe de fonctionnement d’Apache Spark
Historique et évolution
Architecture et distribution
Modes de déploiement et modules de Spark
Créer son environnement Spark

Manipuler et modéliser des données

Accès aux données avec Spark SQL
Transtypage des données
Passage RDD et Dataframes
Modéliser des données avec MLLib
Apprentissage supervisé ou non supervisé
Recodage et création de variables
Technique d’évaluation des modèles
Mise en place des pipelines de traitement

Spark en production

Production
Industrialisation de traitements

Spark et R

Exemple de codes sources avec Sparkr et Sparklyr

Modalités pédagogiques

Afin de permettre aux étudiants d’acquérir des compétences opérationnelles en entreprise, cette formation associe des connaissances notionnelles (exposés théoriques) avec des savoir-faire pratiques (applications, cas concrets, travaux pratiques).

3 jours

Prix net : 1 770 € (Non soumis à la TVA)

Niveau : Intermédiaire

Fiche formation

Certifications

Certification Data Analyst
> Voir la formation

Certification Data Scientist
> Voir la formation