big data

Le big data, c’est quoi ?

Emmanuel Jakobowicz méthode Laissez un commentaire

Aujourd’hui le big data est partout, l’idée derrière cet article est de clarifier un certain nombre de points que j’entends quasi quotidiennement sur le big data. Est-ce une révolution, un terme hype, une tendance lourde, un simple buzz-word ? Je dirais que c’est un peu tout à la fois et je vais vous expliquer pourquoi.

Big data (ou données massives, moins sexy pour les francophones) c’est surtout un terme qui a permis de mettre en avant comme jamais l’importance de la data dans notre quotidien. Notre quotidien professionnel bien sûr mais aussi notre vie de tous les jours et notre vie de citoyen.

La suite

spark article

Spark, boîte à outils du big data

Emmanuel Jakobowicz méthode 4 Comments

Si vous suivez même de loin le monde du big data, vous avez forcément entendu parler du projet Spark. Et si vous n’en avez jamais entendu parler, il est temps de le découvrir.
Dans cet article je vais vous donner les clés pour comprendre ce qu’est Spark et la façon de l’utiliser.

Quel est la relation entre Spark et Hadoop ? Est-ce un langage ? Dans quel cas est-ce utile ? Quelles sont ses composantes ?…

La suite

python en data science

Les étapes pour utiliser Python en data science

Emmanuel Jakobowicz méthode 3 Comments

Depuis quelques années, le langage python prend une ampleur tout à fait inattendue avec une utilisation de plus en plus large. En science des données, python est devenu le langage de prédilection pour le traitement et l’analyse des données. Python en data science est devenu une référence.

Grâce à un écosystème d’API extrêmement riche il permet de traiter des données de types très variées (entre autres SQL mais aussi noSQL) et de piloter des outils de traitement avancé (notamment Spark avec PySpark pour le traitement massivement parallèle de données dites big data).

Dans cet article, mon objectif est de vous présenter un processus assez standard de développement d’outil pour le traitement des données avec le langage python en introduisant les bibliothèques adaptées.

La suite

voeux 2016

Bonne année 2016 à tous

Emmanuel Jakobowicz actualités Laissez un commentaire

Toute l’équipe de STAT4DECISION se joint à moi pour vous souhaiter une excellente année 2016 passionnante et innovante.

Nous revenons très vite avec de nouveaux articles et de nouvelles formations en analyse de données, data science, big data…

Emmanuel Jakobowicz
CEO STAT4DECISION

salle de classe virtuelle

Suivre une formation en ligne en salle de classe virtuelle

stat4decision méthode Laissez un commentaire

STAT4DECISION vous propose des formations en ligne en salle de classe virtuelle. Ces formations généralement sur une journée vous permettent de découvrir ou d’approfondir un sujet spécifique.

STAT4DECISION utilise des outils spécifiques pour organiser ce type de formations, nous vous expliquons dans cet article la démarche à suivre afin de préparer et suivre une formation en salle de classe virtuelle.

Les formations en salle de classe virtuelle s’appuient sur une interaction permanente avec le formateur, pour faciliter les échanges, les groupes d’apprenants sont réduits avec entre 4 et 6 participants par groupe.

La suite

Quelles différences entre les plateformes open data ?

Emmanuel Jakobowicz actualités 2 Comments

La mise en place d’une politique open data doit se faire avec des moyens adaptés. La plateforme de partage des données en est un élément central.

Avec la généralisation de l’ouverture des données dans les administrations et dans les services publics, de nombreux décideurs se posent des questions sur la stratégie à observer concernant les plateformes open data et les outils de gestion des données. En effet, une politique d’ouverture des données fait apparaître de nombreux challenges dont le choix d’une plateforme open data reste un point important.

La suite

Régression PLS, une méthode pour vous ?

Emmanuel Jakobowicz méthode Laissez un commentaire

Vous avez déjà entendu parler de la régression PLS, des moindres carrés partiels, de la régression Partial Least Square. Ces termes désignent une méthode statistique qui a vu le jour au début des années 1980 et qui connaît aujourd’hui de nombreuses applications dans des domaines extrêmement variés.

Il ne s’agit pas ici de faire un cours sur la régression PLS mais de mettre en avant ses forces et faiblesses tout en évoquant les moyens de la mettre en oeuvre.

La suite

Langage de la data science

Le langage de la data science

Emmanuel Jakobowicz actualités 3 Comments

Quel langage choisir ? Est-ce que le choix de R est automatique ? Faut-il préférer un langage propriétaire ou un langage libre ? Est-ce qu’il faut choisir un langage générique ou un langage orienté pour le calcul scientifique ? Autant de questions que tout data scientist se pose lors de la mise en place d’un projet ou lors de l’apprentissage de nouvelles techniques.

Comme vous l’imaginez, il n’y a pas une réponse unique à toutes ces questions. Voici quelques éléments de réponse.

La suite