Formation Data Engineer & Big Data

Formation traitement de données distribuées avec Spark en Scala

Apache Spark avec Scala : traitement distribué, DataFrame, SQL et machine learning à l'échelle Big Data en Scala.

S'inscrire à une session ↓ Voir le programme

Prochaines sessions

Prochaines sessions en cours de programmation

Les dates ne sont pas encore fixées. Demandez à être informé(e) en priorité de l'ouverture des inscriptions, ou optez pour une session sur mesure.

Demande d'informations Session sur mesure / intra

Présentation

La formation traitement de données distribuées avec Spark en Scala vous apprend en 3 jours à exploiter Spark dans son langage natif. Vous comprenez l’architecture et le fonctionnement interne de Spark : driver, executors, partitions, DAG, shuffle, gestion mémoire. Vous développez des traitements distribués en Scala en utilisant l’écosystème Spark de manière idiomatique. Vous utilisez efficacement RDD, DataFrames et Spark SQL selon les besoins de performance et de typage. Vous optimisez les performances et la consommation de ressources : choix de partitionnement, gestion du cache, broadcast, plans d’exécution. Vous analysez et corrigez des problématiques en production : skew, OOM, lenteur, debugging avec Spark UI. Idéale pour data engineers et développeurs Scala traitant de grands volumes.

Objectifs pédagogiques

Comprendre l'architecture et le fonctionnement interne de Spark
Développer des traitements distribués en Scala
Utiliser efficacement RDD, DataFrames et Spark SQL
Optimiser les performances et la consommation de ressources
Analyser et corriger des problématiques en production

Programme détaillé

3 jours, 21 heures de pratique

Chaque journée alterne apports théoriques courts et ateliers pratiques. Programme ajustable en intra-entreprise.

1 Architecture de Spark et programmation Scala

• Architecture et fonctionnement interne de Spark
• Driver, executors, partitions, DAG, shuffle
• Rappels de Scala pour Spark
• Développement de traitements distribués en Scala
• Premiers jobs Spark

2 RDD, DataFrames et Spark SQL

• Utilisation des RDD
• DataFrames et Datasets
• Spark SQL et requêtes structurées
• Lecture et écriture de données
• Travaux pratiques

3 Optimisation et production

• Optimisation des performances et de la consommation de ressources
• Partitionnement, cache et broadcast
• Analyse des plans d’exécution avec Spark UI
• Diagnostic et correction des problèmes en production (skew, OOM)
• Atelier de synthèse sur cluster

Télécharger le programme détaillé en PDF ↓

Public concerné

Profils et prérequis

Profils concernés

Data engineer travaillant sur Spark
Développeur Scala intervenant sur des projets data
Architecte Big Data

Prérequis

Bonne maîtrise de Scala
Notions de base en SQL et en systèmes distribués

Les outils

Les logiciels et technologies

Les outils que vous manipulerez tout au long de la formation.

Apache Spark Scala Spark SQL RDD DataFrames

Évaluation

Outils d'évaluation des compétences

Quiz et QCM à la fin de chaque module pour valider l’acquisition des connaissances théoriques.
Mini-projets guidés (manipulation de DataFrames, visualisation) Auto-évaluation sur la compréhension et la mise en application des concepts.
Feedback individuel : chaque participant se voit proposer un bilan de ses points forts et axes d’amélioration.

Financement

Une formation finançable

Cette formation est éligible aux principaux dispositifs de financement de la formation professionnelle. Notre équipe vous accompagne dans le montage du dossier.

OPCO — Prise en charge par votre opérateur de compétences au titre du plan de développement des compétences de votre entreprise.

Plan de développement — Inscription dans le plan de formation de votre entreprise, en direct avec votre service RH ou formation.

Financement personnel — Tarifs adaptés pour les indépendants et auto-entrepreneurs, paiement en plusieurs fois possible.

Voir toutes les solutions de financement →

Questions fréquentes

FAQ

Quelle est la durée de la formation et sous quels formats est-elle proposée ?

La formation dure 3 jours (21 heures) et se déroule en présentiel ou à distance, en groupe limité à 8 participants pour préserver l'interactivité et la pratique.

Quels sont les prérequis pour suivre cette formation ?

Pour suivre cette formation dans de bonnes conditions, il est recommandé d'avoir : Bonne maîtrise de Scala; Notions de base en SQL et en systèmes distribués.

Faut-il connaître Scala avant la formation ?

Oui, une bonne maîtrise de Scala est nécessaire, car la formation développe les traitements Spark dans le langage natif de la plateforme.

Quelle différence avec la formation Spark avec Python ?

Cette formation utilise Scala, langage natif de Spark, et s'adresse aux data engineers. La version PySpark est plus accessible aux profils data science.

Prêt à monter en compétences ?

Inscrivez-vous à l'une de nos sessions programmées, ou optez pour une formation intra sur mesure adaptée à votre équipe.

S'inscrire à une session ↓ Organiser une session intra

Une question ? Appelez-nous au 01.72.25.40.82

Cette formation traitement de données distribuées avec Spark en Scala vous apprend à exploiter Spark dans son langage natif. Sur 3 jours, vous découvrez l’architecture Spark, les DataFrames et Datasets, Spark SQL, ainsi que MLlib pour le machine learning à grande échelle. La formation s’appuie sur des ateliers sur cluster. Idéale pour data engineers et développeurs Scala souhaitant traiter de grands volumes de données de manière performante et structurée.

Pour aller plus loin

Formations liées

Ressources & documentation

Documentation officielle Apache Spark lien externe ↗ Scala — site officiel lien externe ↗

Formation traitement de données distribuées avec Spark en Scala

Prochaines sessions en cours de programmation

Objectifs pédagogiques

3 jours, 21 heures de pratique

Profils et prérequis

Profils concernés

Prérequis

Les logiciels et technologies

Outils d'évaluation des compétences

Une formation finançable

FAQ

Prêt à monter en compétences ?

Formations liées

Formation ElasticSearch et Kibana pour l’analyse de données

Formation data science – bonnes pratiques et outils

Formation DevOps pour la Data Science

Formation big data et marketing pour décideurs

Formation Data Lake – Panorama et choix des briques d’exploitation d’un data lake

Formation big data et data science – les fondamentaux

Formation DBT (Data Build Tool)

Formation NoSQL pour les projets data (MongoDB)

Formation Git – gestion de versions

Ressources & documentation