Formation Spark avec Python

Prochaine session :

13-14 juin 2019 à Paris
12-13 décembre 2019 à Paris

Formation disponible en intra (sur demande)

A propos

L’environnement Apache Spark est aujourd’hui central dans l’approche big data de la donnée. Cette formation spark avec python vous permet de maîtriser les principes de l’environnement Apache Spark et l’utilisation de la bibliothèque pyspark pour gérer des données, appliquer des algorithmes de machine learning ou accélérer vos processus.
Cette formation spark s’adresse à tous ceux qui veulent manipuler Apache Spark en utilisant le langage python.

Deux jours intensifs basés sur des applications réelles pour la préparation, le traitement et l’analyse des données dans l’environnement Apache Spark.

Formation spark en petits groupes avec maximum 6 participants pour plus d’échanges avec nos formateurs !

Inscrivez-vous !

Le programme

Organisation des journées

Durant cette formation spark, nous nous concentrons sur des applications pratiques.

Jour 1

  • Rappels sur Python et la manipulation des données
  • Introduction à l’environnement Big Data et à Spark
    • Pour qui ? Pour quoi faire ? Comment ?
    • Comment installer Apache Spark
    • Pyspark un package Python pour gérer votre environnement Apache Spark
    • Quelle infrastructure pour utiliser Spark en entreprise ?
    • Les principes de l’environnement : RDD, DataFrame, DataSet…
  • Installation de Spark :
    • Sur une infrastructure distribuée
    • En local
    • En cloud (exemples avec Amazon AWS et Microsoft Azure)
  • Spark pour la manipulation des données
    • Utilisation de SparkSQL et des DataFrames pour manipuler des données
    • Charger des données depuis Hadoop, depuis des fihiers csv…
    • Transformer des données (création de DataFrames, ajout de colonnes, filtres…)
    • Cas pratiques de chargement et de modifications de données avec Spark et PySpark

Jour 2 :

  • L’utilisation de spark.ml pour le machine learning
    • Apprentissage supervisé : Forêts aléatoires avec Spark
      • Mise en place d’un outil de recommandation
      • Traitement de données textuelles
      • Automatiser vos analyses avec des pipelines
    • Introduction et utilisation de Spark Streaming avec PySpark

    Les outils

    Lors de cette formation Spark, nous utiliserons Apache Spark en local et en cloud. Anaconda et Jupyter pour la partie développement Python.

    • Jupyter

    Public : Public ayant des bases en programmation. Une connaissance de Python est fortement conseillée.

    Besoin de conseils ou d’informations, contactez-nous au 01.72.25.40.82

    Inscription

    Tarif : 1000 euros par participant pour 2 jours

    Demande de devis et d’informations

    Veuillez remplir le formulaire ci-dessous pour obtenir un devis ou des détails sur la formation proposée. Nous reviendrons vers vous sous 48 heures.

    Les inscriptions sont payables à l’avance soit par carte de crédit soit par bon de commande. Nous vous enverrons un devis avec une convention de formation afin que votre formation soit prise en charge par votre employeur.

    Nom* :

    Prénom :

    Email* :

    Numéro de téléphone :

    Organisme :

    Pays

    Nombre de participants :

    Convention de formation :

    Remarques :

    Code de réduction :

    Recevez notre newsletter (En cliquant sur ce bouton, vous acceptez de recevoir notre newsletter)   

    En cliquant sur "Envoyer", vous acceptez que vos données personnelles soient utilisées pour vous recontacter dans le cadre de votre demande.

    Pour connaître et exercer vos droits, veuillez consulter notre politique de confidentialité.

    Lieu

    37-39 avenue Ledru-Rollin
    7012 PARIS – FRANCE
    9h30 – 17h30

    Organiser une session sur mesure !

    Cette formation est disponible en session sur mesure organisée dans votre structure pour un groupe allant jusqu’à 8 participants. Contactez-nous pour organiser une session.

    D’autres formations pour vous

    Partager cette page