Formation python

Formation Spark avec Python – utilisation de pyspark

Traitez de grands volumes avec PySpark : DataFrame Spark, SQL distribué et machine learning à l'échelle Big Data.

4,8 / 5 — note moyenne des participants

S'inscrire à une session ↓ Voir le programme

Prochaines sessions

Dates des prochaines sessions

Sessions en présentiel à Paris ou à distance. Inscriptions ouvertes jusqu'à la veille du démarrage.

2 → 4 décembre 2026

à distance et à Paris

S'inscrire à cette session →

Demande d'informations Session sur mesure / intra

Présentation

La formation Spark avec Python vous initie en 3 jours au traitement distribué de grands volumes de données via PySpark. Vous comprenez l’environnement Apache Spark : architecture, exécution distribuée, lazy evaluation, gestion de la mémoire. Vous apprenez à utiliser le package PySpark pour communiquer avec Spark depuis Python, manipulez des DataFrames distribués, et maîtrisez Spark SQL pour exécuter des requêtes à grande échelle. Vous abordez également MLlib pour le machine learning distribué sur de très grands jeux de données. La formation est jalonnée d’ateliers pratiques sur cluster, pour vous rendre opérationnel sur vos projets data engineering ou data science en environnement Big Data.

Objectifs pédagogiques

Comprendre l'environnement Apache Spark
Utiliser le package PySpark pour communiquer avec Spark
Maîtriser Spark SQL
Maîtriser MLlib

Programme détaillé

3 jours, 21 heures de pratique

Chaque journée alterne apports théoriques courts et ateliers pratiques. Programme ajustable en intra-entreprise.

1 L'environnement Spark et PySpark

• Comprendre l’environnement Apache Spark : architecture et exécution distribuée
• Notions de RDD, lazy evaluation et gestion de la mémoire
• Le package PySpark pour communiquer avec Spark depuis Python
• Manipulation de DataFrames distribués

2 Spark SQL et traitement de données à grande échelle

• Maîtrise de Spark SQL : requêtes à grande échelle
• Transformations et actions sur de grands volumes
• Lecture et écriture de données (Parquet, CSV, sources distribuées)
• Optimisation des traitements et partitionnement

3 Machine learning distribué avec MLlib

• Maîtrise de MLlib pour le machine learning distribué
• Pipelines de machine learning sur Spark
• Entraînement et évaluation de modèles sur de très grands jeux de données
• Atelier : projet complet de data science distribuée sur cluster

Télécharger le programme détaillé en PDF ↓

Public concerné

Profils et prérequis

Profils concernés

Data engineer et data scientist travaillant sur de grands volumes
Développeur Python amené à exploiter un cluster Spark
Architecte data cadrant des projets Big Data

Prérequis

Bonne maîtrise de Python
Pratique de pandas
Connaissances de base en SQL

Les outils

Les logiciels et technologies

Les outils que vous manipulerez tout au long de la formation.

Apache Spark PySpark Python Spark SQL MLlib Jupyter

Évaluation

Outils d'évaluation des compétences

Quiz et QCM à la fin de chaque module pour valider l’acquisition des connaissances théoriques.
Mini-projets guidés (manipulation de DataFrames, visualisation) Auto-évaluation sur la compréhension et la mise en application des concepts.
Feedback individuel : chaque participant se voit proposer un bilan de ses points forts et axes d’amélioration.

Financement

Une formation finançable

Cette formation est éligible aux principaux dispositifs de financement de la formation professionnelle. Notre équipe vous accompagne dans le montage du dossier.

OPCO — Prise en charge par votre opérateur de compétences au titre du plan de développement des compétences de votre entreprise.

Plan de développement — Inscription dans le plan de formation de votre entreprise, en direct avec votre service RH ou formation.

Financement personnel — Tarifs adaptés pour les indépendants et auto-entrepreneurs, paiement en plusieurs fois possible.

Voir toutes les solutions de financement →

Questions fréquentes

FAQ

Quelle est la durée de la formation et sous quels formats est-elle proposée ?

La formation dure 3 jours (21 heures) et se déroule en présentiel ou à distance, en groupe limité à 6 participants pour préserver l'interactivité et la pratique.

Quels sont les prérequis pour suivre cette formation ?

Pour suivre cette formation dans de bonnes conditions, il est recommandé d'avoir : Bonne maîtrise de Python; Pratique de pandas; Connaissances de base en SQL.

A-t-on besoin d'installer un cluster Spark ?

Non, la formation fournit un environnement Spark accessible en cloud avec PySpark et Jupyter. Il n'y a rien à installer sur le poste des participants.

Quelle est la différence avec la formation Spark avec Scala ?

Cette formation utilise Python (PySpark), plus accessible aux profils data science, tandis que la formation Spark avec Scala s'adresse aux data engineers développant dans le langage natif de Spark.

Prêt à monter en compétences ?

Inscrivez-vous à l'une de nos sessions programmées, ou optez pour une formation intra sur mesure adaptée à votre équipe.

S'inscrire à une session ↓ Organiser une session intra

Une question ? Appelez-nous au 01.72.25.40.82

Cette formation Spark avec Python (PySpark) vous initie au traitement distribué de grands volumes de données. Sur 3 jours, vous découvrez l’architecture Spark, manipulez des DataFrames distribués, exécutez des requêtes SQL à grande échelle et abordez le machine learning avec Spark MLlib. La formation est jalonnée d’ateliers pratiques sur cluster, pour que vous repartiez prêt à exploiter Spark dans vos projets data engineer ou data science Big Data.

Pour aller plus loin

Formations liées

Ressources & documentation

Documentation officielle PySpark lien externe ↗ Apache Spark — site officiel lien externe ↗

Formation Spark avec Python – utilisation de pyspark

Dates des prochaines sessions

Objectifs pédagogiques

3 jours, 21 heures de pratique

Profils et prérequis

Profils concernés

Prérequis

Les logiciels et technologies

Outils d'évaluation des compétences

Une formation finançable

FAQ

Prêt à monter en compétences ?

Formations liées

Formation analyse textuelle avec python

Formation manipuler de grandes données avec Polars, DuckDB et Arrow

Formation python pour utilisateur de SAS

Formation python pour l’analyse de données

Formation python pour la data science

Formation python et Excel – Python pour les utilisateurs d’Excel

Formation pandas avancé (method chaining et stylisation)

Formation data visualisation avec Python

Formation scikit-learn pour le machine learning

Formation Industrialisation d’un Projet Data en Python

Ressources & documentation