Formation Data Engineer & Big Data

Formation Data Lake – Panorama et choix des briques d’exploitation d’un data lake

Data Lake : panorama des architectures, choix technologiques et briques essentielles pour exploiter un lac de données.

Prochaines sessions

Dates des prochaines sessions

Sessions en présentiel à Paris ou à distance. Inscriptions ouvertes jusqu'à la veille du démarrage.

19 → 20 novembre 2026
à distance et à Paris
S'inscrire à cette session →
Présentation

La formation Data Lake vous donne en 2 jours une vision complète des architectures et choix technologiques pour exploiter un lac de données. Vous réalisez un panorama des différents outils et thématiques de data engineering : ETL et ELT, datalake et datawarehouse, bases SQL et NoSQL, moteurs SQL distribués, catalogues de données. Vous faites une revue des différentes méthodologies de choix d’une technologie selon le contexte : volumétrie, latence, coût, compétences disponibles, écosystème existant. Vous savez proposer et décrire une architecture répondant à un cas d’usage : ingestion, stockage, transformation, consommation, gouvernance. La formation s’appuie sur des cas réels d’entreprise. Idéale pour architectes data, chefs de projet et data engineers cadrant leur plateforme data.

Objectifs pédagogiques

  • Réaliser un panorama des différents outils et thématiques de data engineering (ETL, datalake, SQL, NoSQL)
  • Faire une revue des méthodologies de choix d'une technologie
  • Proposer et décrire une architecture répondant à un cas d'usage
Programme détaillé

2 jours, 14 heures de pratique

Chaque journée alterne apports théoriques courts et ateliers pratiques. Programme ajustable en intra-entreprise.

1 Fondamentaux du data engineering et stockage

• Le data engineering et sa fonction dans l’entreprise
• Qu’est-ce qu’un data lake et quelles sont ses briques
• Manières de stocker la donnée : SQL vs NoSQL
• Technologies de stockage : HDFS, GCS, S3, Azure Data Lake Storage
• Orchestration et ingestion avec un ETL
• Data processing avec Spark, Flink et Hadoop

2 Gouvernance, sécurité et architecture

• Data lineage et data management
• Gestion des accès et de la sécurité
• Analyser sa donnée avec des outils de data analytics
• Proposer et documenter une architecture (description visuelle, RFC)
• Monitorer et gérer les performances du data lake
• Mise en place de principes de data gouvernance

Télécharger le programme détaillé en PDF

Public concerné

Profils et prérequis

Profils concernés

  • Architecte data et data engineer
  • Chef de projet data cadrant une plateforme
  • Responsable SI ou décideur technique

Prérequis

  • Culture générale data ou SI
  • Notions de base sur les bases de données
Les outils

Les logiciels et technologies

Les outils que vous manipulerez tout au long de la formation.

HDFS Amazon S3 Azure Data Lake Storage Google Cloud Storage Apache Spark Apache Flink Hadoop
Évaluation

Outils d'évaluation des compétences

  • Quiz et QCM à la fin de chaque module pour valider l’acquisition des connaissances théoriques.
  • Mini-projets guidés (manipulation de DataFrames, visualisation) Auto-évaluation sur la compréhension et la mise en application des concepts.
  • Feedback individuel : chaque participant se voit proposer un bilan de ses points forts et axes d’amélioration.
Financement

Une formation finançable

Cette formation est éligible aux principaux dispositifs de financement de la formation professionnelle. Notre équipe vous accompagne dans le montage du dossier.

OPCO — Prise en charge par votre opérateur de compétences au titre du plan de développement des compétences de votre entreprise.

Plan de développement — Inscription dans le plan de formation de votre entreprise, en direct avec votre service RH ou formation.

Financement personnel — Tarifs adaptés pour les indépendants et auto-entrepreneurs, paiement en plusieurs fois possible.

Voir toutes les solutions de financement

Questions fréquentes

FAQ

Quelle est la durée de la formation et sous quels formats est-elle proposée ?

La formation dure 2 jours (14 heures) et se déroule en présentiel ou à distance, en groupe limité à 7 participants pour préserver l'interactivité et la pratique.

Quels sont les prérequis pour suivre cette formation ?

Pour suivre cette formation dans de bonnes conditions, il est recommandé d'avoir : Culture générale data ou SI; Notions de base sur les bases de données.

Quelles technologies de stockage sont couvertes ?

La formation aborde HDFS, Amazon S3, Azure Data Lake Storage et Google Cloud Storage, ainsi que les moteurs de traitement comme Spark, Flink et Hadoop.

La formation aide-t-elle à choisir une architecture ?

Oui, elle propose une méthodologie de choix technologique et apprend à proposer et documenter une architecture répondant à un cas d'usage.

Prêt à monter en compétences ?

Inscrivez-vous à l'une de nos sessions programmées, ou optez pour une formation intra sur mesure adaptée à votre équipe.

Une question ? Appelez-nous au 01.72.25.40.82

Cette formation Data Lake vous donne en 2 jours une vision complète des architectures et choix technologiques. Vous abordez les concepts (lake vs warehouse vs lakehouse), les principales briques (stockage objet, formats Parquet/Delta/Iceberg, moteurs SQL, catalogue), ainsi que les enjeux de gouvernance et de qualité. La formation s’appuie sur des cas réels d’entreprise. Idéale pour architectes data, chefs de projet et data engineers cadrant ou faisant évoluer leur plateforme data.

Pour aller plus loin

Formations liées

Ressources & documentation

Le monde de la data tous les mois

En cliquant sur "je m'abonne", vous acceptez de recevoir notre newsletter. Vous avez pris connaissance de notre politique de confidentialité.