Lorsque vous essayez de tester des modèles, il est complexe de trouver des jeux de données intéressants. Dans cet article, nous faisons un petit tour de quelques sites vous permettant de vous lancer.
Traiter différents types de colonnes avec scikit-learn et ColumnTransformer
La classe ColumnTransformer de scikit-learn permet de traiter de manières différentes les colonnes d’un jeu de données, notamment les variables qualitatives et quantitatives.
Qu’est-ce que le nouvel opérateur morse de Python 3.8 ?
Python 3.8 se dote d’un nouvel opérateur, l’opérateur morse qui combine allocation et test.
Traitement Automatique du Langage Naturel en français (TAL / NLP)
Le traitement du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.
Modéliser une distribution avec Python
La modélisation de la distribution des données (distribution fitting en anglais) est le fait de trouver les paramètres de la loi de probabilité (ou de plusieurs lois candidates) qui correspond aux données que l’on cherche à modéliser. Dans cet article, nous illustrons ce concept avec un exemple en Python.
4 outils data science qui ont marqué début 2019
Cette première moitié de l’année a été extrêmement riche en nouveautés et nous a permis de confirmer la force d’un certain nombre d’outils dans le domaine de la data science et du développement. J’en ai sélectionné 4 qui me paraissent spécialement intéressants.
Retour sur la conférence UseR! à Toulouse
La conférence UseR! 2019 avait lieu à Toulouse. C’était l’occasion de faire un point sur l’état de la communauté R (#rstats) et des dernières avancées.
Que propose Microsoft pour la Data Science ?
Suite à la parution du quadrant Gartner de 2019, je vous propose de rentrer dans le détail de l’offre Microsoft pour la Data Science.
Qui sont les utilisateurs de Python en data science ?
La python software foundation vient de publier une enquête sur les utilisateurs de Python. Nous étudions les utilisateurs en data science
10 sites de référence de l’open data
Depuis quelques années, l’open data a pris une place importante dans les politiques publiques. La plupart des gouvernements et des organisations à but non lucratif se sont engagés dans une mise à disposition des données.
De nombreux sites rassemblent ces données et permettent de télécharger des jeux de données. Nous vous présentons dix sites de référence sur lesquels des données et des ressources sont disponibles, il s’agit de choix subjectifs mélangeant des sites francophones et anglophones. N’hésitez pas à nous suggérer d’autres sites pour étoffer cette liste.