Aller au-delà de pandas : traitez de grands volumes de données en Python avec Polars, DuckDB et Arrow, sans Spark.
Sessions en présentiel à Paris ou à distance. Inscriptions ouvertes jusqu'à la veille du démarrage.
La formation Polars, DuckDB et Arrow vous permet en 2 jours d’aller au-delà de pandas pour manipuler de grands volumes de données en Python, sans recourir à une infrastructure Big Data. Vous découvrez les limites structurelles de pandas et trois technologies modernes pour les dépasser. Polars vous offre des transformations rapides et lisibles grâce à son moteur compilé et son API expressive. DuckDB permet d’exécuter des requêtes SQL analytiques performantes directement sur fichiers (Parquet, CSV, JSON). Apache Arrow assure l’interopérabilité haute performance entre ces outils. Au programme : transformations Polars, requêtes DuckDB, pipelines reproductibles, jusqu’à plusieurs dizaines de millions de lignes sur un poste standard. Pour data analysts, data scientists et développeurs Python orientés data.
Chaque journée alterne apports théoriques courts et ateliers pratiques. Programme ajustable en intra-entreprise.
• Pourquoi dépasser pandas : limites mémoire et performance, monothread vs multithread
• Fondamentaux de Polars : DataFrame, types de données et schémas
• Lecture de données volumineuses (CSV, Parquet) et expressions Polars
• Manipulation avancée : sélection, filtrage, chaînage d’expressions
• Agrégations, groupby et jointures efficaces
• Lazy execution et optimisations automatiques (pushdown filtres et colonnes)
• Atelier : migration d’un pipeline pandas vers Polars et mesure des gains
• Apache Arrow : format columnar mémoire, zéro-copie, interopérabilité
• Rôle d’Arrow dans Polars, DuckDB et pandas
• DuckDB : le SQL analytique embarqué
• Requêtes SQL performantes directement sur fichiers
• Combinaison Polars / DuckDB / Arrow dans un pipeline
• Atelier : construction d’un pipeline data performant et reproductible
Les outils que vous manipulerez tout au long de la formation.
Cette formation est éligible aux principaux dispositifs de financement de la formation professionnelle. Notre équipe vous accompagne dans le montage du dossier.
OPCO — Prise en charge par votre opérateur de compétences au titre du plan de développement des compétences de votre entreprise.
Plan de développement — Inscription dans le plan de formation de votre entreprise, en direct avec votre service RH ou formation.
Financement personnel — Tarifs adaptés pour les indépendants et auto-entrepreneurs, paiement en plusieurs fois possible.
La formation dure 2 jours (14 heures) et se déroule en présentiel ou à distance, en groupe limité à 8 participants pour préserver l'interactivité et la pratique.
Pour suivre cette formation dans de bonnes conditions, il est recommandé d'avoir : Bonne maîtrise de Python pour la manipulation de données; Expérience pratique de pandas; Connaissances de base en SQL.
Oui, une expérience pratique de pandas est recommandée car la formation s'appuie sur la comparaison avec Polars et montre comment migrer un pipeline pandas existant.
Pas systématiquement. La formation vous aide justement à identifier quand Polars, DuckDB ou Arrow apportent un réel gain et quand pandas reste suffisant pour votre cas d'usage.
Inscrivez-vous à l'une de nos sessions programmées, ou optez pour une formation intra sur mesure adaptée à votre équipe.
Une question ? Appelez-nous au 01.72.25.40.82
Cette formation de 2 jours explore les alternatives modernes à pandas pour manipuler de grands volumes de données en Python sans recourir à une infrastructure Big Data. Vous découvrez Polars (DataFrame ultra-rapide), DuckDB (moteur SQL analytique embarqué) et Apache Arrow (format colonne universel). À travers des ateliers pratiques, vous apprenez à choisir le bon outil selon le contexte et à optimiser vos pipelines de traitement, jusqu’à plusieurs dizaines de millions de lignes sur un simple poste.