python en data science

Liste des packages Python pour la data science

Emmanuel Jakobowicz actualités, méthode Laissez un commentaire

Le langage Python a retrouvé une nouvelle jeunesse depuis quelques années grâce à l’essor de la data science.

Comme je le disais dans l’article sur les langages de la data science, Python a pris une réelle valeur grâce au fait qu’il est à la fois un langage généraliste mais aussi qu’il possède des packages Python spécifiquement adaptés à la data science. Que ce soit pour la data science, la statistique, l’analyse de données ou encore la data visualisation, Python offre une alternative intéressante à R.

Je vous présente ici une liste de packages Python extrêmement utiles pour les data scientists désirant utiliser Python.

La suite

licences logiciel libre

Les licences d’utilisation en data science

Emmanuel Jakobowicz méthode Laissez un commentaire

Cet article fait suite à de nombreux échanges liés aux licences d’utilisation dans le logiciel libre. Même s’il s’agit d’un thème plutôt juridique il est central pour de nombreux acteurs de la data science. Je parle ici des licences liées aux outils logiciels et non des licences liées aux documents (comme Creative Commons).

La suite

machine learning image

Le machine learning pour tous

Emmanuel Jakobowicz méthode Laissez un commentaire

Voici quelques temps que le terme machine learning est présent dans le monde de la data. De plus en plus d’utilisateurs métiers, de managers, de dirigeants entendent ce mot. Il est souvent associé au big data, à l’intelligence artificielle… Je profite donc de cet article pour vous en présenter les grandes lignes sans formules ni trop de technicité.

La suite

big data

Le big data, c’est quoi ?

Emmanuel Jakobowicz méthode Laissez un commentaire

Aujourd’hui le big data est partout, l’idée derrière cet article est de clarifier un certain nombre de points que j’entends quasi quotidiennement sur le big data. Est-ce une révolution, un terme hype, une tendance lourde, un simple buzz-word ? Je dirais que c’est un peu tout à la fois et je vais vous expliquer pourquoi.

Big data (ou données massives, moins sexy pour les francophones) c’est surtout un terme qui a permis de mettre en avant comme jamais l’importance de la data dans notre quotidien. Notre quotidien professionnel bien sûr mais aussi notre vie de tous les jours et notre vie de citoyen.

La suite

spark article

Spark, boîte à outils du big data

Emmanuel Jakobowicz méthode 4 Comments

Si vous suivez même de loin le monde du big data, vous avez forcément entendu parler du projet Spark. Et si vous n’en avez jamais entendu parler, il est temps de le découvrir.
Dans cet article je vais vous donner les clés pour comprendre ce qu’est Spark et la façon de l’utiliser.

Quel est la relation entre Spark et Hadoop ? Est-ce un langage ? Dans quel cas est-ce utile ? Quelles sont ses composantes ?…

La suite

python en data science

Les étapes pour utiliser Python en data science

Emmanuel Jakobowicz méthode 3 Comments

Depuis quelques années, le langage python prend une ampleur tout à fait inattendue avec une utilisation de plus en plus large. En science des données, python est devenu le langage de prédilection pour le traitement et l’analyse des données. Python en data science est devenu une référence.

Grâce à un écosystème d’API extrêmement riche il permet de traiter des données de types très variées (entre autres SQL mais aussi noSQL) et de piloter des outils de traitement avancé (notamment Spark avec PySpark pour le traitement massivement parallèle de données dites big data).

Dans cet article, mon objectif est de vous présenter un processus assez standard de développement d’outil pour le traitement des données avec le langage python en introduisant les bibliothèques adaptées.

La suite