La classe ColumnTransformer de scikit-learn permet de traiter de manières différentes les colonnes d’un jeu de données, notamment les variables qualitatives et quantitatives.
Qu’est-ce que le nouvel opérateur morse de Python 3.8 ?
Python 3.8 se dote d’un nouvel opérateur, l’opérateur morse qui combine allocation et test.
Traitement Automatique du Langage Naturel en français (TAL / NLP)
Le traitement du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.
Modéliser une distribution avec Python
La modélisation de la distribution des données (distribution fitting en anglais) est le fait de trouver les paramètres de la loi de probabilité (ou de plusieurs lois candidates) qui correspond aux données que l’on cherche à modéliser. Dans cet article, nous illustrons ce concept avec un exemple en Python.
Qui sont les utilisateurs de Python en data science ?
La python software foundation vient de publier une enquête sur les utilisateurs de Python. Nous étudions les utilisateurs en data science
Le tri à plat et le tri croisé avec R et Python
Le tri à plat et le tri croisé sont des opérations de base pour la description des données. Nous proposons une description de ces opérations et des exemples de code en R et en Python.
Python 2 ou python 3 – la fin d’un dilemme
Le langage python est de plus en plus présent en data science. Une question récurrente durant ces 10 dernière années était le choix de la version du langage entre python 2 et python 3, est-ce bel et bien fini ?
Stat4decision sponsor de la conférence PyParis 2018
Stat4decision est sponsor et sera présent lors de PyParis 2018 du 14 au 15 novembre 2018 à l’EPITA.
Liste des packages Python pour la data science
Le langage Python a retrouvé une nouvelle jeunesse depuis quelques années grâce à l’essor de la data science.
Comme je le disais dans l’article sur les langages de la data science, Python a pris une réelle valeur grâce au fait qu’il est à la fois un langage généraliste mais aussi qu’il possède des packages Python spécifiquement adaptés à la data science. Que ce soit pour la data science, la statistique, l’analyse de données ou encore la data visualisation, Python offre une alternative intéressante à R.
Je vous présente ici une liste de packages Python extrêmement utiles pour les data scientists désirant utiliser Python.
Construire un histogramme avec R et python
Cet article vous donne les clés pour construire un histogramme avec R et avec python. Détail des paramètres et des possibilités.