Python 3.8 se dote d’un nouvel opérateur, l’opérateur morse qui combine allocation et test.
Traitement Automatique du Langage Naturel en français (TAL / NLP)
Le traitement du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.
Modéliser une distribution avec Python
La modélisation de la distribution des données (distribution fitting en anglais) est le fait de trouver les paramètres de la loi de probabilité (ou de plusieurs lois candidates) qui correspond aux données que l’on cherche à modéliser. Dans cet article, nous illustrons ce concept avec un exemple en Python.
4 outils data science qui ont marqué début 2019
Cette première moitié de l’année a été extrêmement riche en nouveautés et nous a permis de confirmer la force d’un certain nombre d’outils dans le domaine de la data science et du développement. J’en ai sélectionné 4 qui me paraissent spécialement intéressants.
Retour sur la conférence UseR! à Toulouse
La conférence UseR! 2019 avait lieu à Toulouse. C’était l’occasion de faire un point sur l’état de la communauté R (#rstats) et des dernières avancées.
Que propose Microsoft pour la Data Science ?
Suite à la parution du quadrant Gartner de 2019, je vous propose de rentrer dans le détail de l’offre Microsoft pour la Data Science.
Qui sont les utilisateurs de Python en data science ?
La python software foundation vient de publier une enquête sur les utilisateurs de Python. Nous étudions les utilisateurs en data science
10 sites de référence de l’open data
Depuis quelques années, l’open data a pris une place importante dans les politiques publiques. La plupart des gouvernements et des organisations à but non lucratif se sont engagés dans une mise à disposition des données.
De nombreux sites rassemblent ces données et permettent de télécharger des jeux de données. Nous vous présentons dix sites de référence sur lesquels des données et des ressources sont disponibles, il s’agit de choix subjectifs mélangeant des sites francophones et anglophones. N’hésitez pas à nous suggérer d’autres sites pour étoffer cette liste.
Le tri à plat et le tri croisé avec R et Python
Le tri à plat et le tri croisé sont des opérations de base pour la description des données. Nous proposons une description de ces opérations et des exemples de code en R et en Python.
Nouveau classement des plateformes data science 2019
Le cabinet Gartner vient de sortir son classement ou plutôt son cadran (magic quadrant) sur les plateformes data science et machine learning pour 2019.
Cette représentation des différents logiciels de data science est devenu une habitude dans la data science. Analysons ensemble ce rapport 2019.