A
Algorithmes
Un algorithme est une méthode pouvant être décortiquée et automatisée. La plupart des actions peuvent être transformer en algorithme afin d’être automatiser. La plupart des méthodes d’analyse de données sont décrites sous forme d’algorithme.
Analytics
La data analytics est le décryptage des données afin de créer de la valeur pour les entreprises. La data analytics se différencie de l’analyse de données par l’objectif visé.
Apprentissage
Comme son nom l’indique, il s’agit d’apprendre à partir des données. L’apprentissage automatique consiste en l’adaptation d’un modèle en fonction des données collectées.
Attention (mécanisme d’attention)
Technique clé du deep learning permettant à un réseau de neurones de pondérer différemment chaque partie de la séquence d’entrée. Elle améliore la capacité à capturer les dépendances à longue distance (ex. dans la traduction automatique).
AutoML
Ensemble de méthodes et d’outils visant à automatiser la création et l’optimisation de modèles de machine learning. AutoML peut gérer le prétraitement, la sélection de features et le tuning d’hyperparamètres, réduisant ainsi la charge pour les data scientists.
B
Big data
Technologies et méthodes pour stocker et analyser de grandes quantités de données trop volumineuses ou complexes pour des solutions classiques. Souvent décrit via les 3V : volume, vélocité et variété.
Business Intelligence
Ensemble de techniques et d’outils permettant de collecter, intégrer et analyser les données de l’entreprise. La BI met l’accent sur le reporting, la création de tableaux de bord et la prise de décision à partir d’indicateurs.
C
ChatGPT
Chatbot basé sur un Large Language Model (LLM) développé par OpenAI. Il utilise le mécanisme d’attention pour comprendre et générer du texte de manière contextuelle et cohérente dans divers domaines.
Classification
C’est l’action de classer des objets ou des variables dans des classes homogènes. On utilise des algorithmes de classification tels que les k-means, la classification hiérarchique, les SVM…
Clustering
Méthode de machine learning non supervisée visant à regrouper des observations similaires en groupes appelés “clusters”. Les algorithmes comme k-means ou la classification hiérarchique permettent de segmenter des données sans étiquette préalable.
Convolution
Opération mathématique utilisée dans les réseaux de neurones convolutifs (CNN) pour l’analyse d’images ou de signaux. Elle consiste à appliquer un filtre (kernel) sur les données afin d’extraire des caractéristiques locales (bords, motifs, etc.).
D
Data
C’est le centre de toutes les attentions, le nerf de la guerre. La data ou la donnée est aujourd’hui partout, elle se trouve sous toutes les formes et en quantité colossale.
Data Lake
Stockage centralisé de données dans leur format brut ou presque brut, permettant de traiter de gros volumes et de multiples formats. Contrairement à un Data Warehouse, le data lake favorise la flexibilité avant la structuration.
Data mining
Le data mining est comme son nom l’indique l’exploration de données à la recherche de valeur. Il s’agit d’extraire de l’information de jeux de données avec peu d’information a priori. On recherche des structures ou des corrélations au sein des données.
Data science
La data science c’est l’art d’analyser des données brutes grâce à des algorithmes plus ou moins complexes afin d’en tirer des informations ayant une valeur pour l’utilisateur. La data science combine de nombreux domaines tels que la statistique appliquée, le data mining, l’informatique, la business intelligence.
Data scientist
Le data scientist est celui qui applique la data science au sein d’une entreprise. Il doit à la fois être programmeur notamment en R et Python, être statisticien et comprendre les enjeux de l’entreprise.
Data Visualization (DataViz)
Processus de représentation visuelle des données (graphiques, tableaux de bord) afin de mieux les comprendre et communiquer les insights. Les outils courants incluent Tableau, Power BI, Matplotlib ou Seaborn.
Data Warehouse
Entrepôt de données structuré et organisé pour l’analyse et la business intelligence. À la différence d’un Data Lake, les données y sont nettoyées et agrégées pour répondre à des besoins métiers.
Deep Learning
Sous-domaine du machine learning reposant sur des réseaux de neurones profonds. Il est particulièrement performant en reconnaissance d’images, traduction automatique, traitement du langage naturel, etc.
Données
Voir data.
E
ETL (Extract, Transform and Load)
Processus permettant d’extraire des données d’intérêt, de les transformer et de les charger dans la base de données. Les ETL sont aussi des logiciels permettant d’appliquer de manière automatisée ces étapes afin d’obtenir des données exploitables.
Exploratory Data Analysis (EDA)
Étape préliminaire à la modélisation qui consiste à comprendre la distribution, la structure et les relations des données via des statistiques descriptives et des visualisations.
F
Feature Engineering
Création ou transformation de variables (features) à partir des données brutes, afin d’améliorer la performance d’un modèle. Cela inclut le nettoyage, la normalisation et la génération de variables dérivées.
Feature Selection
Méthode visant à identifier les variables les plus pertinentes pour un modèle de machine learning. Elle permet de réduire la dimensionnalité, le bruit et la complexité du modèle.
Fouille de données
Terme équivalent à data mining. Désigne l’exploration de grands ensembles de données pour en extraire des insights actionnables.
G
GAN (Generative Adversarial Network)
Type de réseau de neurones composé d’un générateur et d’un discriminateur en compétition. Les GAN sont utilisés pour créer de nouvelles données (images, textes, etc.) réalistes à partir d’un bruit initial.
Generative AI (IA Générative)
Sous-ensemble de l’intelligence artificielle qui vise à générer de nouveaux contenus (texte, images, musique) à partir de modèles d’apprentissage automatique. Les GAN et les Large Language Models en sont des exemples marquants.
H
Hadoop
Écosystème open source dédié au Big Data, permettant le stockage et le traitement distribué de grands volumes de données. Il s’appuie principalement sur HDFS et le framework MapReduce.
Hive
Outil faisant partie de l’écosystème Hadoop, qui propose une interface de type SQL pour manipuler des données stockées en HDFS.
I
Intelligence artificielle
Domaine visant à créer des systèmes capables d’exécuter des tâches requérant normalement l’intelligence humaine (voir machine learning et deep learning). Englobe la vision par ordinateur, la robotique, etc.
Interpretabilité (Explainable AI)
Ensemble de techniques permettant de rendre un modèle IA plus compréhensible (ex. importance des variables, visualisation des poids). Cruciale pour la confiance et l’acceptation des solutions d’IA par les utilisateurs.
J
K
K-means
Algorithme de clustering partitionnant un ensemble d’observations en k groupes (clusters). Chaque cluster est représenté par un centroïde, mis à jour jusqu’à minimiser la distance interne de ses points.
KNIME
Plateforme de data science open source basée sur une interface graphique par “nœuds” (nodes). Permet de concevoir, automatiser et partager des workflows d’analyse de données (prétraitement, apprentissage, visualisation).
K-plus proches voisins
Algorithme de machine learning utilisable en classification ou régression. Il étiquette une observation en se basant sur la majorité (ou la moyenne) des k observations les plus proches dans l’espace des features.
L
LangChain
Cadre de développement permettant de créer des applications autour de Large Language Models. LangChain facilite notamment la gestion du contexte, le chaînage de prompts et l’intégration de données externes.
Large Language Model (LLM)
Modèle d’IA générative entraîné sur d’immenses corpus de textes, capable de comprendre et de générer du langage naturel. Les modèles GPT, BERT ou LLaMA en sont des exemples.
M
Machine learning
Sous-domaine de l’intelligence artificielle où des algorithmes apprennent à partir de données (voir apprentissage) pour réaliser des prédictions ou découvrir des structures sous-jacentes.
MapReduce
Paradigme de traitement distribué pour gérer de grands volumes de données, popularisé par Google et intégré à Hadoop. “Map” répartit la tâche en sous-problèmes, “Reduce” agrège les résultats partiels.
Matplotlib
Bibliothèque Python phare pour la data visualization, permettant de créer des graphiques statiques (histogrammes, nuages de points, courbes) avec un contrôle fin du style et de la présentation.
MongoDB
Base de données NoSQL orientée documents, utilisée pour stocker des données semi-structurées (JSON). Populaire dans de nombreux projets de Big Data.
N
NLP (Natural Language Processing)
Branche de l’IA dédiée au traitement automatique du langage naturel (texte ou parole). Inclut la tokenisation, la traduction, la génération de texte (voir LLM) ou l’extraction d’entités nommées. On l’appelle TAL (traitement automatique du langage) en français.
O
Open data
Données mises à disposition par les administrations, organisations ou entreprises, de manière libre et gratuite. Favorise la transparence, la collaboration et l’innovation.
Overfitting (Surapprentissage)
Lorsqu’un modèle s’ajuste trop précisément aux données d’entraînement, il perd de sa capacité à généraliser. Cela se traduit par de bonnes performances sur l’ensemble d’apprentissage mais de mauvaises en test.
P
Plotly
Package (Python, R, JavaScript) pour la data visualization interactive. Permet de créer des graphiques dynamiques (zoom, hover, etc.) et de les intégrer facilement dans des notebooks ou des applications web.
Power BI
Outil de business intelligence de Microsoft permettant la création de rapports et de tableaux de bord interactifs. S’intègre avec diverses sources de données (fichiers plats, bases de données, services cloud).
Prédiction
Résultat d’un algorithme de machine learning (souvent supervisé) qui, à partir de nouvelles données, fournit une valeur ou une classe estimée (ex. prévision de ventes, diagnostic médical).
Prompt engineering
Art de concevoir et d’optimiser les requêtes (prompts) fournies à une IA générative ou un LLM. Un prompt bien structuré et précis améliore la qualité des réponses et la pertinence des contenus générés.
Python
Langage de programmation très populaire en data science grâce à ses bibliothèques spécialisées (NumPy, pandas, scikit-learn, TensorFlow…). Il s’inscrit dans une communauté très active et est apprécié pour sa lisibilité.
Q
R
R (langage)
Langage de programmation et environnement dédiés à la statistique, très utilisé en data science et pour la visualisation (ggplot2, Shiny…). Apprécié pour son orientation analytique.
Random Forest
Ensemble d’arbres de décision construit via des échantillons aléatoires de données et de variables (bagging). Robuste et performant pour des tâches de classification ou de régression.
Rééchantillonnage
Techniques permettant de réutiliser un même échantillon de données pour estimer la variabilité des statistiques ou des modèles (ex. cross-validation, bootstrap). Vise à obtenir des estimations plus robustes.
Reinforcement Learning
Type d’apprentissage automatique basé sur un agent interagissant avec un environnement. L’agent obtient des récompenses ou des punitions selon ses actions, et apprend une politique optimale.
Regression linéaire
Méthode de machine learning supervisé visant à modéliser la relation entre une variable cible continue et une ou plusieurs variables explicatives. Fournit un estimateur linéaire généralement facile à interpréter.
Regression logistique
Algorithme de classification supervisée pour prédire la probabilité qu’une observation appartienne à une classe (souvent binaire). Malgré son nom, il s’agit bien d’une classification et non d’une régression continue.
Réseaux bayésiens
Modèles graphiques probabilistes permettant de représenter et d’inférer des relations de causalité ou de dépendance entre différentes variables. Souvent utilisés en aide à la décision sous incertitude.
Réseaux de neurones
Modèles inspirés du cerveau humain, composés de neurones artificiels en couches. Ils constituent la base du deep learning, un domaine majeur de l’intelligence artificielle.
Réseaux de Neurones Convolutifs (CNN)
Réseaux spécialisés dans le traitement d’images ou de signaux grâce à la convolution. Très répandus en vision par ordinateur (classification d’images, détection d’objets, etc.).
Réseaux de Neurones Récurrents (RNN)
Famille de réseaux de neurones adaptée aux données séquentielles (texte, série temporelle), possédant une mémoire interne. Les LSTM et GRU en sont des variantes améliorant la gestion des dépendances longues.
S
Seaborn
Package Python de data visualization construite sur Matplotlib, offrant des styles prédéfinis et des fonctionnalités avancées pour l’analyse statistique (ex. distribution, corrélations, heatmaps).
Spark
Framework de calcul distribué permettant d’effectuer des opérations de Big Data en mémoire, plus rapidement qu’avec le paradigme MapReduce classique. Il propose des modules pour le machine learning, le streaming et les graphes.
Supervised Learning (Apprentissage supervisé)
Type de machine learning où on dispose de données étiquetées (features + cible). L’objectif est de prédire cette cible pour de nouveaux échantillons (ex. classification, régression).
SVM (Support Vector Machines)
Algorithmes de machine learning supervisé qui trouvent l’hyperplan séparant au mieux les données (en classification) ou qui prédisent linéairement/en kernel (en régression). Reconnu pour son efficacité en haute dimension.
T
Tableau
Solution de data visualization professionnelle permettant de créer des tableaux de bord interactifs, des cartes et des graphiques. L’outil se connecte à diverses sources de données et met l’accent sur le partage collaboratif.
TensorFlow
Bibliothèque open source de machine learning développée par Google. Très utilisée pour le deep learning et la production de modèles d’IA (ex. classification d’images, traitement NLP).
Time Series (Séries temporelles)
Données chronologiques associées à des intervalles ou points dans le temps. L’analyse de séries temporelles vise à modéliser et prévoir l’évolution d’une variable (ventes, température, trafic, etc.).
Transfer Learning
Technique consistant à réutiliser les poids d’un modèle pré-entraîné (ex. un CNN sur ImageNet) et l’adapter (fine-tuning) à une nouvelle tâche, réduisant les besoins en données et en temps d’entraînement.
U
Underfitting (Sous-apprentissage)
Un modèle trop simple ne capture pas la complexité des données. Ses performances sont alors médiocres à la fois sur l’ensemble d’entraînement et sur l’ensemble de test.
V
3V du big data
Volume (quantité de données), Vélocité (vitesse de génération et de traitement) et Variété (diversité des formats et sources). Parfois complétés par la Véracité (qualité) et la Valeur (utilité).
Vision par Ordinateur (Computer Vision)
Domaine de l’IA dédié à l’extraction d’informations depuis des images ou des vidéos (détection d’objets, reconnaissance faciale, segmentation d’images). Repose souvent sur des réseaux convolutifs (CNN).
W
Workflow
Enchaînement structuré des étapes de traitement de la data (collecte, nettoyage, modélisation, évaluation, déploiement). Des outils (KNIME, Airflow, etc.) assurent une gestion centralisée et reproductible de ces pipelines.
X
XGBoost
Bibliothèque de machine learning reposant sur le principe des arbres de décision ensemblistes (gradient boosting). Réputée pour son efficacité et sa rapidité, XGBoost domine de nombreuses compétitions de data science.
Y
Voir data.
Z
Voir data.
Partager cet article