Présentation de la Formation Polars, DuckDB et Arrow
Les participants découvrent et mettent en pratique Polars, DuckDB et Apache Arrow afin de construire des pipelines data performants, lisibles et reproductibles.
Destinée aux data analysts et data scientists maîtrisant pandas, la formation privilégie des cas concrets et des volumes de données réalistes, en lien direct avec les usages professionnels.
Programme détaillé de la Formation python
Objectifs
- Comprendre les limites structurelles de pandas
- Manipuler efficacement de gros volumes de données sans stack Big Data
- Utiliser Polars pour des transformations rapides et lisibles
- Exploiter DuckDB pour des analyses SQL performantes sur fichiers
- Comprendre le rôle clé d’Apache Arrow dans l’écosystème moderne
- Construire des pipelines data performants et reproductible
Organisation de la formation python pour la data science
Jour 1 – Polars : le DataFrame moderne et performant
- Pourquoi dépasser pandas ?
- Limites mémoire et performance
- Monothread vs multithread
- Comparaison concrète pandas / Polars
- Quand pandas reste suffisant
- Fondamentaux de Polars
- DataFrame Polars vs pandas
- Types de données et schémas
- Lecture de données volumineuses (CSV, Parquet)
- Expressions Polars
- Manipulation avancée avec Polars
- Sélection, filtrage, transformations
- Chaînage d’expressions
- Agrégations et groupby
- Jointures efficaces
- Lazy execution et optimisation
- Eager vs Lazy
- Optimisations automatiques
- Pushdown filtres et colonnes
- Lecture partielle de données
- Atelier
- Migration d’un pipeline pandas vers Polars
- Mesure des gains de performance
Jour 2 – DuckDB, Arrow et pipelines data modernes
- Apache Arrow : comprendre ce qui se passe sous le capot
- Format columnar mémoire
- Zéro-copie
- Interopérabilité entre outils
- Rôle d’Arrow dans Polars, DuckDB et pandas
- DuckDB : le SQL analytique embarqué
- Présentation et cas d’usage
- Requêtes SQL sur fichiers (CSV, Parquet)
- Jointures lourdes et agrégations
- Comparaison DuckDB vs pandas / Polars
- Polars + DuckDB : le meilleur des deux mondes
- Quand utiliser SQL vs expressions Polars
- Échanges de données via Arrow
- Workflows hybrides
- Structurer des pipelines performants
- Organisation du code
- Fonctions réutilisables
- Paramétrage des traitements
- Reproductibilité et bonnes pratiques
- Atelier
- Pipeline complet sur données volumineuses
- Analyse performance / mémoire
- Choix d’architecture justifiés
Outils d’évaluation des compétences
-
Quiz et QCM à la fin de chaque module pour valider l’acquisition des connaissances théoriques.
-
Mini-projets guidés (manipulation de DataFrames, visualisation)
-
Auto-évaluation sur la compréhension et la mise en application des concepts.
-
Feedback individuel : chaque participant se voit proposer un bilan de ses points forts et axes d’amélioration.
Quels profils et quels prérequis pour la formation polars / DuckDB
Profils :
- Data analysts
- Data scientists
- Développeurs Python orientés data
Prérequis :
- Python maîtrisé
- pandas utilisé régulièrement (DataFrame, filtres, groupby, jointures)
Les outils
Lors de cette formation python pour la data science, nous utiliserons un JupyterHub dédié à la formation. Il s'agit d'une interface de développement en ligne permettant de pratiquer directement. Aucune installation n'est nécessaire.
Le JupyterHub reste disponible après la formation pour pratiquer.
Solutions de financement
Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez nous.
Besoin de conseils ou d'informations, contactez-nous au 01.72.25.40.82
Tarifs et Modalités d’inscription
Prochaines Sessions et Lieux de Formation Aller au-delà de pandas : manipuler de grandes données avec Polars, DuckDB et Arrow
Tarif inter-entreprises :
1200 euros par participant pour 2 jours / 14 heures
- Réductions disponibles pour les financements personnels, les étudiants et en cas d'inscriptions multiples
- Nos tarifs sont HT et n'incluent pas les déjeuners
- Tarif intra-entreprise (sur mesure, selon vos besoins) : nous contacter pour évaluation
Prochaines sessions :
16 et 17 mars 2026
Lieux de la formation :
Paris ou à distance
Inscription et demande d'informations
Veuillez remplir le formulaire ci-dessous pour vous inscrire, obtenir un devis ou des détails sur la formation proposée.
Toutes nos formations peuvent être prises en charge par l'ensemble des OPCO grâce à notre certification Qualiopi.
Cette formation est disponible en session sur mesure organisée dans votre structure pour un groupe allant jusqu'à 8 participants. Contactez-nous pour organiser une session.
Ils nous font confiance
Chez stat4Decision, nous mettons tout en œuvre pour vous offrir des formations data de haute qualité, adaptées aux besoins réels de votre entreprise et de votre équipe. Nos formateurs, à la fois experts en data science, machine learning et intelligence artificielle, proposent une approche pédagogique alliant théorie et pratique afin de garantir une montée en compétences rapide et durable.
Nous privilégions les petits groupes pour un accompagnement personnalisé et des échanges riches, ce qui vous permettra de maîtriser les techniques de data en les appliquant directement à des cas concrets de votre secteur d’activité. De plus, notre équipe reste à votre disposition après la formation pour vous soutenir dans la mise en application de vos nouveaux savoir-faire.
En choisissant stat4Decision, vous investissez dans une formation data reconnue pour son excellence et sa capacité à vous aider à relever les défis de la transformation data. Faites confiance à notre expertise pour accélérer vos projets data et stimuler l’innovation au sein de votre organisation.
Partager cette page

