Calendrier des conférences dans le domaine de la data science et de ses langages de programmation (R, Python et Julia)
Forêt aléatoire avec python et scikit-learn
Une forêt aléatoire ou random forest est une méthode d’apprentissage supervisé extrêmement utilisée par les data scientists. En effet, cette méthode combine de nombreux avantages dans le cadre d’un apprentissage supervisé. Dans cet article, je vais vous présenter l’approche et une application avec le langage python et le package de machine learning, scikit-learn.
Installer Anaconda pour python pour vos projets data
L’utilisation d’Anaconda pour l’installation de python pour la data science permet de simplifier un certain nombre d’étapes dans la création de vos projets python pour la data science.
Dans cet article, je vais commencer par décrire les principes d’Anaconda, puis je m’attacherai à l’installation d’Anaconda pour Microsoft Windows et je terminerai par l’ajout de package et la création d’un environnement de développement avec Anaconda.
De nouveaux parcours de formation autour de python et de la data science
Stat4decision vous propose de nouveaux parcours de formation adaptés aux besoins du marché de la data. Nos parcours sont basés sur un maximum de pratique avec un encadrement permanent par des experts.
Nos parcours courts vous permettent d’acquérir des compétences précises pouvant être exploitées en entreprise.
Choisir son interface de développement pour coder en python
Vous débutez en python et vous recherchez la bonne interface de développement pour coder en python, vous trouverez toutes les infos dont vous avez besoin dans cet article !
Faire une régression logistique avec python
Dans cet article nous allons appliquer une régression logistique avec python en utilisant deux packages très différents : scikit-learn et statsmodels. Nous verrons les pièges à éviter et le code associé.
Traiter différents types de colonnes avec scikit-learn et ColumnTransformer
La classe ColumnTransformer de scikit-learn permet de traiter de manières différentes les colonnes d’un jeu de données, notamment les variables qualitatives et quantitatives.
Qu’est-ce que le nouvel opérateur morse de Python 3.8 ?
Python 3.8 se dote d’un nouvel opérateur, l’opérateur morse qui combine allocation et test.
Traitement Automatique du Langage Naturel en français (TAL / NLP)
Le traitement du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.
Modéliser une distribution avec Python
La modélisation de la distribution des données (distribution fitting en anglais) est le fait de trouver les paramètres de la loi de probabilité (ou de plusieurs lois candidates) qui correspond aux données que l’on cherche à modéliser. Dans cet article, nous illustrons ce concept avec un exemple en Python.