Traitement Automatique du Langage Naturel en français (TAL / NLP)

Maël Fabien Mis à jour le : 3 novembre 2019 méthode 3 Comments

Le traitement du Langage Naturel est un des domaines de recherche les plus actifs en science des données actuellement. C’est un domaine à l’intersection du Machine Learning et de la linguistique. Il a pour but d’extraire des informations et une signification d’un contenu textuel.

Modéliser une distribution avec Python

Maël Fabien Mis à jour le : 30 janvier 2025 méthode 11 Comments

La modélisation de la distribution des données (distribution fitting en anglais) est le fait de trouver les paramètres de la loi de probabilité (ou de plusieurs lois candidates) qui correspond aux données que l’on cherche à modéliser. Dans cet article, nous illustrons ce concept avec un exemple en Python.

Le tri à plat et le tri croisé avec R et Python

Emmanuel Jakobowicz Mis à jour le : 8 février 2019 méthode 3 Comments

Le tri à plat et le tri croisé sont des opérations de base pour la description des données. Nous proposons une description de ces opérations et des exemples de code en R et en Python.

Le langage Julia va-t-il remplacer R et Python ?

Emmanuel Jakobowicz Mis à jour le : 28 janvier 2019 méthode Leave a Comment

Le langage Julia est un langage adapté à la data science mais faut-il s’y plonger ? Quels en sont les principes ? Faisons un point sur son évolution.

Liste des packages Python pour la data science

Emmanuel Jakobowicz Mis à jour le : 21 mai 2018 actualités, méthode Leave a Comment

Le langage Python a retrouvé une nouvelle jeunesse depuis quelques années grâce à l’essor de la data science.

Comme je le disais dans l’article sur les langages de la data science, Python a pris une réelle valeur grâce au fait qu’il est à la fois un langage généraliste mais aussi qu’il possède des packages Python spécifiquement adaptés à la data science. Que ce soit pour la data science, la statistique, l’analyse de données ou encore la data visualisation, Python offre une alternative intéressante à R.

Je vous présente ici une liste de packages Python extrêmement utiles pour les data scientists désirant utiliser Python.

La suite

Construire un histogramme avec R et python

Emmanuel Jakobowicz Mis à jour le : 12 mars 2018 méthode Leave a Comment

Cet article vous donne les clés pour construire un histogramme avec R et avec python. Détail des paramètres et des possibilités.

La suite

JupyterLab pour donner plus de pouvoir à vos Jupyter Notebooks

Emmanuel Jakobowicz Mis à jour le : 22 février 2018 méthode 7 Comments

JupyterLab est un nouvel IDE vous permettant de coder dans différents langages en se basant sur les désormais reconnus Jupyter Notebooks (ex-Ipython notebooks).
La suite

Les licences d’utilisation en data science

Emmanuel Jakobowicz Mis à jour le : 6 juillet 2018 méthode Leave a Comment

Cet article fait suite à de nombreux échanges liés aux licences d’utilisation dans le logiciel libre. Même s’il s’agit d’un thème plutôt juridique il est central pour de nombreux acteurs de la data science. Je parle ici des licences liées aux outils logiciels et non des licences liées aux documents (comme Creative Commons).

La suite

Le machine learning pour tous

Emmanuel Jakobowicz Mis à jour le : 31 mars 2017 méthode Leave a Comment

Voici quelques temps que le terme machine learning est présent dans le monde de la data. De plus en plus d’utilisateurs métiers, de managers, de dirigeants entendent ce mot. Il est souvent associé au big data, à l’intelligence artificielle… Je profite donc de cet article pour vous en présenter les grandes lignes sans formules ni trop de technicité.

La suite

4 méthodes pour faire du R dans SAS

Emmanuel Jakobowicz Mis à jour le : 30 janvier 2017 méthode Leave a Comment

Intégrer du code R dans SAS, ça paraîtrait une drôle d’idée pour beaucoup d’entre vous. Néanmoins, SAS est aujourd’hui toujours très bien implanté dans le monde de la data et l’intégration de code R dans SAS constitue une première étape pour coder en R.

La suite

Page 5 of 6
←
1
...
4
5
6
→