Formation python

Formation manipuler de grandes données avec Polars, DuckDB et Arrow

Aller au-delà de pandas : traitez de grands volumes de données en Python avec Polars, DuckDB et Arrow, sans Spark.

S'inscrire à une session ↓ Voir le programme

Prochaines sessions

Dates des prochaines sessions

Sessions en présentiel à Paris ou à distance. Inscriptions ouvertes jusqu'à la veille du démarrage.

12 → 13 octobre 2026

à distance et à Paris

S'inscrire à cette session →

Demande d'informations Session sur mesure / intra

Présentation

La formation Polars, DuckDB et Arrow vous permet en 2 jours d’aller au-delà de pandas pour manipuler de grands volumes de données en Python, sans recourir à une infrastructure Big Data. Vous découvrez les limites structurelles de pandas et trois technologies modernes pour les dépasser. Polars vous offre des transformations rapides et lisibles grâce à son moteur compilé et son API expressive. DuckDB permet d’exécuter des requêtes SQL analytiques performantes directement sur fichiers (Parquet, CSV, JSON). Apache Arrow assure l’interopérabilité haute performance entre ces outils. Au programme : transformations Polars, requêtes DuckDB, pipelines reproductibles, jusqu’à plusieurs dizaines de millions de lignes sur un poste standard. Pour data analysts, data scientists et développeurs Python orientés data.

Objectifs pédagogiques

Comprendre les limites structurelles de pandas
Manipuler efficacement de gros volumes de données sans stack Big Data
Utiliser Polars pour des transformations rapides et lisibles
Exploiter DuckDB pour des analyses SQL performantes sur fichiers
Comprendre le rôle clé d'Apache Arrow dans l'écosystème moderne
Construire des pipelines data performants et reproductibles

Programme détaillé

2 jours, 14 heures de pratique

Chaque journée alterne apports théoriques courts et ateliers pratiques. Programme ajustable en intra-entreprise.

1 Polars : le DataFrame moderne et performant

• Pourquoi dépasser pandas : limites mémoire et performance, monothread vs multithread
• Fondamentaux de Polars : DataFrame, types de données et schémas
• Lecture de données volumineuses (CSV, Parquet) et expressions Polars
• Manipulation avancée : sélection, filtrage, chaînage d’expressions
• Agrégations, groupby et jointures efficaces
• Lazy execution et optimisations automatiques (pushdown filtres et colonnes)
• Atelier : migration d’un pipeline pandas vers Polars et mesure des gains

2 DuckDB, Arrow et pipelines data modernes

• Apache Arrow : format columnar mémoire, zéro-copie, interopérabilité
• Rôle d’Arrow dans Polars, DuckDB et pandas
• DuckDB : le SQL analytique embarqué
• Requêtes SQL performantes directement sur fichiers
• Combinaison Polars / DuckDB / Arrow dans un pipeline
• Atelier : construction d’un pipeline data performant et reproductible

Télécharger le programme détaillé en PDF ↓

Public concerné

Profils et prérequis

Profils concernés

Data analyst confronté à de gros volumes de données
Data scientist cherchant à dépasser les limites de pandas
Développeur Python orienté data

Prérequis

Bonne maîtrise de Python pour la manipulation de données
Expérience pratique de pandas
Connaissances de base en SQL

Les outils

Les logiciels et technologies

Les outils que vous manipulerez tout au long de la formation.

Python Polars DuckDB Apache Arrow pandas Parquet Jupyter

Évaluation

Outils d'évaluation des compétences

Quiz et QCM à la fin de chaque module pour valider l’acquisition des connaissances théoriques.
Mini-projets guidés (manipulation de DataFrames, visualisation) Auto-évaluation sur la compréhension et la mise en application des concepts.
Feedback individuel : chaque participant se voit proposer un bilan de ses points forts et axes d’amélioration.

Financement

Une formation finançable

Cette formation est éligible aux principaux dispositifs de financement de la formation professionnelle. Notre équipe vous accompagne dans le montage du dossier.

OPCO — Prise en charge par votre opérateur de compétences au titre du plan de développement des compétences de votre entreprise.

Plan de développement — Inscription dans le plan de formation de votre entreprise, en direct avec votre service RH ou formation.

Financement personnel — Tarifs adaptés pour les indépendants et auto-entrepreneurs, paiement en plusieurs fois possible.

Voir toutes les solutions de financement →

Questions fréquentes

FAQ

Quelle est la durée de la formation et sous quels formats est-elle proposée ?

La formation dure 2 jours (14 heures) et se déroule en présentiel ou à distance, en groupe limité à 8 participants pour préserver l'interactivité et la pratique.

Quels sont les prérequis pour suivre cette formation ?

Pour suivre cette formation dans de bonnes conditions, il est recommandé d'avoir : Bonne maîtrise de Python pour la manipulation de données; Expérience pratique de pandas; Connaissances de base en SQL.

Faut-il déjà connaître pandas pour suivre cette formation ?

Oui, une expérience pratique de pandas est recommandée car la formation s'appuie sur la comparaison avec Polars et montre comment migrer un pipeline pandas existant.

Polars remplace-t-il complètement pandas ?

Pas systématiquement. La formation vous aide justement à identifier quand Polars, DuckDB ou Arrow apportent un réel gain et quand pandas reste suffisant pour votre cas d'usage.

Prêt à monter en compétences ?

Inscrivez-vous à l'une de nos sessions programmées, ou optez pour une formation intra sur mesure adaptée à votre équipe.

S'inscrire à une session ↓ Organiser une session intra

Une question ? Appelez-nous au 01.72.25.40.82

Cette formation de 2 jours explore les alternatives modernes à pandas pour manipuler de grands volumes de données en Python sans recourir à une infrastructure Big Data. Vous découvrez Polars (DataFrame ultra-rapide), DuckDB (moteur SQL analytique embarqué) et Apache Arrow (format colonne universel). À travers des ateliers pratiques, vous apprenez à choisir le bon outil selon le contexte et à optimiser vos pipelines de traitement, jusqu’à plusieurs dizaines de millions de lignes sur un simple poste.

Pour aller plus loin

Formations liées

Ressources & documentation

Documentation officielle Polars lien externe ↗ Documentation officielle DuckDB lien externe ↗

Formation manipuler de grandes données avec Polars, DuckDB et Arrow

Dates des prochaines sessions

Objectifs pédagogiques

2 jours, 14 heures de pratique

Profils et prérequis

Profils concernés

Prérequis

Les logiciels et technologies

Outils d'évaluation des compétences

Une formation finançable

FAQ

Prêt à monter en compétences ?

Formations liées

Formation scikit-learn pour le machine learning

Formation python pour utilisateur de SAS

Formation python et Excel – Python pour les utilisateurs d’Excel

Formation python pour l’analyse de données

Formation Spark avec Python – utilisation de pyspark

Formation python pour la data science

Formation pandas avancé (method chaining et stylisation)

Formation analyse textuelle avec python

Formation Industrialisation d’un Projet Data en Python

Formation data visualisation avec Python

Ressources & documentation