lexique data science

Lexique de la data science

stat4decision Mis à jour le : 12 janvier 2025 méthode Leave a Comment

Vous êtes perdu dans les nouveaux termes de la data science (science des données). Voici un lexique de la data science qui vous aidera à vous retrouver.

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

A

Algorithmes

Un algorithme est une méthode pouvant être décortiquée et automatisée. La plupart des actions peuvent être transformer en algorithme afin d’être automatiser. La plupart des méthodes d’analyse de données sont décrites sous forme d’algorithme.

Analytics

La data analytics est le décryptage des données afin de créer de la valeur pour les entreprises. La data analytics se différencie de l’analyse de données par l’objectif visé.

Apprentissage

Comme son nom l’indique, il s’agit d’apprendre à partir des données. L’apprentissage automatique consiste en l’adaptation d’un modèle en fonction des données collectées.

Attention (mécanisme d’attention)

Technique clé du deep learning permettant à un réseau de neurones de pondérer différemment chaque partie de la séquence d’entrée. Elle améliore la capacité à capturer les dépendances à longue distance (ex. dans la traduction automatique).

AutoML

Ensemble de méthodes et d’outils visant à automatiser la création et l’optimisation de modèles de machine learning. AutoML peut gérer le prétraitement, la sélection de features et le tuning d’hyperparamètres, réduisant ainsi la charge pour les data scientists.

B

Big data

Technologies et méthodes pour stocker et analyser de grandes quantités de données trop volumineuses ou complexes pour des solutions classiques. Souvent décrit via les 3V : volume, vélocité et variété.

Business Intelligence

Ensemble de techniques et d’outils permettant de collecter, intégrer et analyser les données de l’entreprise. La BI met l’accent sur le reporting, la création de tableaux de bord et la prise de décision à partir d’indicateurs.

C

ChatGPT

Chatbot basé sur un Large Language Model (LLM) développé par OpenAI. Il utilise le mécanisme d’attention pour comprendre et générer du texte de manière contextuelle et cohérente dans divers domaines.

Classification

C’est l’action de classer des objets ou des variables dans des classes homogènes. On utilise des algorithmes de classification tels que les k-means, la classification hiérarchique, les SVM…

Clustering

Méthode de machine learning non supervisée visant à regrouper des observations similaires en groupes appelés “clusters”. Les algorithmes comme k-means ou la classification hiérarchique permettent de segmenter des données sans étiquette préalable.

Convolution

Opération mathématique utilisée dans les réseaux de neurones convolutifs (CNN) pour l’analyse d’images ou de signaux. Elle consiste à appliquer un filtre (kernel) sur les données afin d’extraire des caractéristiques locales (bords, motifs, etc.).

D

Data

C’est le centre de toutes les attentions, le nerf de la guerre. La data ou la donnée est aujourd’hui partout, elle se trouve sous toutes les formes et en quantité colossale.

Data Lake

Stockage centralisé de données dans leur format brut ou presque brut, permettant de traiter de gros volumes et de multiples formats. Contrairement à un Data Warehouse, le data lake favorise la flexibilité avant la structuration.

Data mining

Le data mining est comme son nom l’indique l’exploration de données à la recherche de valeur. Il s’agit d’extraire de l’information de jeux de données avec peu d’information a priori. On recherche des structures ou des corrélations au sein des données.

Data science

La data science c’est l’art d’analyser des données brutes grâce à des algorithmes plus ou moins complexes afin d’en tirer des informations ayant une valeur pour l’utilisateur. La data science combine de nombreux domaines tels que la statistique appliquée, le data mining, l’informatique, la business intelligence.

Data scientist

Le data scientist est celui qui applique la data science au sein d’une entreprise. Il doit à la fois être programmeur notamment en R et Python, être statisticien et comprendre les enjeux de l’entreprise.

Data Visualization (DataViz)

Processus de représentation visuelle des données (graphiques, tableaux de bord) afin de mieux les comprendre et communiquer les insights. Les outils courants incluent Tableau, Power BI, Matplotlib ou Seaborn.

Data Warehouse

Entrepôt de données structuré et organisé pour l’analyse et la business intelligence. À la différence d’un Data Lake, les données y sont nettoyées et agrégées pour répondre à des besoins métiers.

Deep Learning

Sous-domaine du machine learning reposant sur des réseaux de neurones profonds. Il est particulièrement performant en reconnaissance d’images, traduction automatique, traitement du langage naturel, etc.

Données

Voir data.

E

ETL (Extract, Transform and Load)

Processus permettant d’extraire des données d’intérêt, de les transformer et de les charger dans la base de données. Les ETL sont aussi des logiciels permettant d’appliquer de manière automatisée ces étapes afin d’obtenir des données exploitables.

Exploratory Data Analysis (EDA)

Étape préliminaire à la modélisation qui consiste à comprendre la distribution, la structure et les relations des données via des statistiques descriptives et des visualisations.

F

Feature Engineering

Création ou transformation de variables (features) à partir des données brutes, afin d’améliorer la performance d’un modèle. Cela inclut le nettoyage, la normalisation et la génération de variables dérivées.

Feature Selection

Méthode visant à identifier les variables les plus pertinentes pour un modèle de machine learning. Elle permet de réduire la dimensionnalité, le bruit et la complexité du modèle.

Fouille de données

Terme équivalent à data mining. Désigne l’exploration de grands ensembles de données pour en extraire des insights actionnables.

G

GAN (Generative Adversarial Network)

Type de réseau de neurones composé d’un générateur et d’un discriminateur en compétition. Les GAN sont utilisés pour créer de nouvelles données (images, textes, etc.) réalistes à partir d’un bruit initial.

Generative AI (IA Générative)

Sous-ensemble de l’intelligence artificielle qui vise à générer de nouveaux contenus (texte, images, musique) à partir de modèles d’apprentissage automatique. Les GAN et les Large Language Models en sont des exemples marquants.

H

Hadoop

Écosystème open source dédié au Big Data, permettant le stockage et le traitement distribué de grands volumes de données. Il s’appuie principalement sur HDFS et le framework MapReduce.

Hive

Outil faisant partie de l’écosystème Hadoop, qui propose une interface de type SQL pour manipuler des données stockées en HDFS.

I

Intelligence artificielle

Domaine visant à créer des systèmes capables d’exécuter des tâches requérant normalement l’intelligence humaine (voir machine learning et deep learning). Englobe la vision par ordinateur, la robotique, etc.

Interpretabilité (Explainable AI)

Ensemble de techniques permettant de rendre un modèle IA plus compréhensible (ex. importance des variables, visualisation des poids). Cruciale pour la confiance et l’acceptation des solutions d’IA par les utilisateurs.

J

K

K-means

Algorithme de clustering partitionnant un ensemble d’observations en k groupes (clusters). Chaque cluster est représenté par un centroïde, mis à jour jusqu’à minimiser la distance interne de ses points.

KNIME

Plateforme de data science open source basée sur une interface graphique par “nœuds” (nodes). Permet de concevoir, automatiser et partager des workflows d’analyse de données (prétraitement, apprentissage, visualisation).

K-plus proches voisins

Algorithme de machine learning utilisable en classification ou régression. Il étiquette une observation en se basant sur la majorité (ou la moyenne) des k observations les plus proches dans l’espace des features.

L

LangChain

Cadre de développement permettant de créer des applications autour de Large Language Models. LangChain facilite notamment la gestion du contexte, le chaînage de prompts et l’intégration de données externes.

Large Language Model (LLM)

Modèle d’IA générative entraîné sur d’immenses corpus de textes, capable de comprendre et de générer du langage naturel. Les modèles GPT, BERT ou LLaMA en sont des exemples.

M

Machine learning

Sous-domaine de l’intelligence artificielle où des algorithmes apprennent à partir de données (voir apprentissage) pour réaliser des prédictions ou découvrir des structures sous-jacentes.

MapReduce

Paradigme de traitement distribué pour gérer de grands volumes de données, popularisé par Google et intégré à Hadoop. “Map” répartit la tâche en sous-problèmes, “Reduce” agrège les résultats partiels.

Matplotlib

Bibliothèque Python phare pour la data visualization, permettant de créer des graphiques statiques (histogrammes, nuages de points, courbes) avec un contrôle fin du style et de la présentation.

MongoDB

Base de données NoSQL orientée documents, utilisée pour stocker des données semi-structurées (JSON). Populaire dans de nombreux projets de Big Data.

N

NLP (Natural Language Processing)

Branche de l’IA dédiée au traitement automatique du langage naturel (texte ou parole). Inclut la tokenisation, la traduction, la génération de texte (voir LLM) ou l’extraction d’entités nommées. On l’appelle TAL (traitement automatique du langage) en français.

O

Open data

Données mises à disposition par les administrations, organisations ou entreprises, de manière libre et gratuite. Favorise la transparence, la collaboration et l’innovation.

Overfitting (Surapprentissage)

Lorsqu’un modèle s’ajuste trop précisément aux données d’entraînement, il perd de sa capacité à généraliser. Cela se traduit par de bonnes performances sur l’ensemble d’apprentissage mais de mauvaises en test.

P

Plotly

Package (Python, R, JavaScript) pour la data visualization interactive. Permet de créer des graphiques dynamiques (zoom, hover, etc.) et de les intégrer facilement dans des notebooks ou des applications web.

Power BI

Outil de business intelligence de Microsoft permettant la création de rapports et de tableaux de bord interactifs. S’intègre avec diverses sources de données (fichiers plats, bases de données, services cloud).

Prédiction

Résultat d’un algorithme de machine learning (souvent supervisé) qui, à partir de nouvelles données, fournit une valeur ou une classe estimée (ex. prévision de ventes, diagnostic médical).

Prompt engineering

Art de concevoir et d’optimiser les requêtes (prompts) fournies à une IA générative ou un LLM. Un prompt bien structuré et précis améliore la qualité des réponses et la pertinence des contenus générés.

Python

Langage de programmation très populaire en data science grâce à ses bibliothèques spécialisées (NumPy, pandas, scikit-learn, TensorFlow…). Il s’inscrit dans une communauté très active et est apprécié pour sa lisibilité.

Q

R

R (langage)

Langage de programmation et environnement dédiés à la statistique, très utilisé en data science et pour la visualisation (ggplot2, Shiny…). Apprécié pour son orientation analytique.

Random Forest

Ensemble d’arbres de décision construit via des échantillons aléatoires de données et de variables (bagging). Robuste et performant pour des tâches de classification ou de régression.

Rééchantillonnage

Techniques permettant de réutiliser un même échantillon de données pour estimer la variabilité des statistiques ou des modèles (ex. cross-validation, bootstrap). Vise à obtenir des estimations plus robustes.

Reinforcement Learning

Type d’apprentissage automatique basé sur un agent interagissant avec un environnement. L’agent obtient des récompenses ou des punitions selon ses actions, et apprend une politique optimale.

Regression linéaire

Méthode de machine learning supervisé visant à modéliser la relation entre une variable cible continue et une ou plusieurs variables explicatives. Fournit un estimateur linéaire généralement facile à interpréter.

Regression logistique

Algorithme de classification supervisée pour prédire la probabilité qu’une observation appartienne à une classe (souvent binaire). Malgré son nom, il s’agit bien d’une classification et non d’une régression continue.

Réseaux bayésiens

Modèles graphiques probabilistes permettant de représenter et d’inférer des relations de causalité ou de dépendance entre différentes variables. Souvent utilisés en aide à la décision sous incertitude.

Réseaux de neurones

Modèles inspirés du cerveau humain, composés de neurones artificiels en couches. Ils constituent la base du deep learning, un domaine majeur de l’intelligence artificielle.

Réseaux de Neurones Convolutifs (CNN)

Réseaux spécialisés dans le traitement d’images ou de signaux grâce à la convolution. Très répandus en vision par ordinateur (classification d’images, détection d’objets, etc.).

Réseaux de Neurones Récurrents (RNN)

Famille de réseaux de neurones adaptée aux données séquentielles (texte, série temporelle), possédant une mémoire interne. Les LSTM et GRU en sont des variantes améliorant la gestion des dépendances longues.

S

Seaborn

Package Python de data visualization construite sur Matplotlib, offrant des styles prédéfinis et des fonctionnalités avancées pour l’analyse statistique (ex. distribution, corrélations, heatmaps).

Spark

Framework de calcul distribué permettant d’effectuer des opérations de Big Data en mémoire, plus rapidement qu’avec le paradigme MapReduce classique. Il propose des modules pour le machine learning, le streaming et les graphes.

Supervised Learning (Apprentissage supervisé)

Type de machine learning où on dispose de données étiquetées (features + cible). L’objectif est de prédire cette cible pour de nouveaux échantillons (ex. classification, régression).

SVM (Support Vector Machines)

Algorithmes de machine learning supervisé qui trouvent l’hyperplan séparant au mieux les données (en classification) ou qui prédisent linéairement/en kernel (en régression). Reconnu pour son efficacité en haute dimension.

T

Tableau

Solution de data visualization professionnelle permettant de créer des tableaux de bord interactifs, des cartes et des graphiques. L’outil se connecte à diverses sources de données et met l’accent sur le partage collaboratif.

TensorFlow

Bibliothèque open source de machine learning développée par Google. Très utilisée pour le deep learning et la production de modèles d’IA (ex. classification d’images, traitement NLP).

Time Series (Séries temporelles)

Données chronologiques associées à des intervalles ou points dans le temps. L’analyse de séries temporelles vise à modéliser et prévoir l’évolution d’une variable (ventes, température, trafic, etc.).

Transfer Learning

Technique consistant à réutiliser les poids d’un modèle pré-entraîné (ex. un CNN sur ImageNet) et l’adapter (fine-tuning) à une nouvelle tâche, réduisant les besoins en données et en temps d’entraînement.

U

Underfitting (Sous-apprentissage)

Un modèle trop simple ne capture pas la complexité des données. Ses performances sont alors médiocres à la fois sur l’ensemble d’entraînement et sur l’ensemble de test.

V

3V du big data

Volume (quantité de données), Vélocité (vitesse de génération et de traitement) et Variété (diversité des formats et sources). Parfois complétés par la Véracité (qualité) et la Valeur (utilité).

Vision par Ordinateur (Computer Vision)

Domaine de l’IA dédié à l’extraction d’informations depuis des images ou des vidéos (détection d’objets, reconnaissance faciale, segmentation d’images). Repose souvent sur des réseaux convolutifs (CNN).

W

Workflow

Enchaînement structuré des étapes de traitement de la data (collecte, nettoyage, modélisation, évaluation, déploiement). Des outils (KNIME, Airflow, etc.) assurent une gestion centralisée et reproductible de ces pipelines.

X

XGBoost

Bibliothèque de machine learning reposant sur le principe des arbres de décision ensemblistes (gradient boosting). Réputée pour son efficacité et sa rapidité, XGBoost domine de nombreuses compétitions de data science.

Y

Voir data.

Z

Voir data.

Partager cet article

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.