Apprentissage supervisé

Pour les articles homonymes, voir Apprentissage (homonymie).

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Cet article ne cite pas suffisamment ses sources (septembre 2019).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

L'apprentissage supervisé (supervised learning en anglais) est une tâche d'apprentissage automatique consistant à apprendre une fonction de prédiction à partir d'exemples annotés, au contraire de l'apprentissage non supervisé. On distingue les problèmes de régression des problèmes de classement^[1]. Ainsi, on considère que les problèmes de prédiction d'une variable quantitative sont des problèmes de régression tandis que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification.

Les exemples annotés constituent une base d'apprentissage, et la fonction de prédiction apprise peut aussi être appelée « hypothèse » ou « modèle ». On suppose cette base d'apprentissage représentative d'une population d'échantillons plus large et le but des méthodes d'apprentissage supervisé est de bien généraliser, c'est-à-dire d'apprendre une fonction qui fasse des prédictions correctes sur des données non présentes dans l'ensemble d'apprentissage^[2].

Définition mathématique

Soit $(\Omega ,{\mathcal {A}},\mathbb {P} )$ , un espace probabilisé.

Jeu de données supervisées

Soit $({\mathcal {X}},{\mathcal {F}}_{X}),({\mathcal {Y}},{\mathcal {F}}_{Y})$ deux espaces mesurables. On peut définir une base de données d'apprentissage (ou ensemble d'apprentissage) comme un ensemble de couples entrée-sortie $(x_{n},y_{n})_{1\leq n\leq N}$ où chaque $x_{n}\in {\mathcal {X}}$ et $y_{n}\in {\mathcal {Y}}$ sont des réalisations respectives des variables aléatoires $X_{n}$ et $Y_{n}$ . Les couples de la suite $((X_{n},Y_{n}))_{n\leq N}$ sont indépendants et identiquement distribués suivant la loi d'un couple $(X,Y)$ à valeurs dans $({\mathcal {X}}\times {\mathcal {Y}},{\mathcal {F}}_{X}\otimes {\mathcal {F}}_{Y})$ . On rappelle que cette loi est caractérisée par une mesure de probabilité $\mathbb {P} _{(X,Y)}$ définie pour tout évènement $A\in {\mathcal {F}}_{X}\otimes {\mathcal {F}}_{Y}$ par $\mathbb {P} _{(X,Y)}(A)=\mathbb {P} [(X,Y)^{-1}(A)]$

Par exemple $X_{n}$ suit une loi uniforme et $Y_{n}=f(X_{n})+\epsilon _{n}$ où $\epsilon _{n}$ est un bruit centré. Dans ce cas, la méthode d'apprentissage supervisé utilise cette base d'apprentissage pour déterminer une estimation de f notée g et appelée indistinctement fonction de prédiction, hypothèse ou modèle qui à une nouvelle entrée x associe une sortie g(x). Le but d'un algorithme d'apprentissage supervisé est donc de généraliser pour des entrées inconnues ce qu'il a pu « apprendre » grâce aux données déjà annotées par des experts, ceci de façon « raisonnable ». On dit que la fonction de prédiction apprise doit avoir de bonnes garanties en généralisation.

Théorie de la décision

Plus généralement^[3], l'objectif de l'apprentissage supervisé est d'apprendre une fonction $f$ qui « minimise l'écart entre les variables aléatoires $f(X)$ et $Y$ ». Pour définir cet écart, nous introduisons une fonction de perte $L:{\mathcal {Y}}\times {\mathcal {Y}}\rightarrow \mathbb {R} _{+}$ qui quantifie la distance entre une prédiction du modèle $f(x)$ et une sortie attendue $y$ . À partir de cette fonction, nous pouvons définir le risque statistique d'un modèle $f$ . Il est noté $R$ et est défini par :

R(f)=\mathbb {E} (L(Y,f(X)))=\int _{{\mathcal {X}}\times {\mathcal {Y}}}L(y,f(x))\mathrm {d} \mathbb {P} _{(X,Y)}(x,y)

En pratique, on n'a jamais accès directement à $\mathbb {P} _{(X,Y)}$ , en revanche il est possible de l'estimer à partir du jeu de données en utilisant la mesure empirique $\mathbb {P} _{(X,Y)}^{N}$ définie pour tout $A\in {\mathcal {F}}_{X}\otimes {\mathcal {F}}_{Y}$ par $\mathbb {P} _{(X,Y)}^{N}(A)={\dfrac {1}{N}}\sum _{n=1}^{N}\delta _{(X_{n},Y_{n})}(A)$ .

Dès lors, un algorithme d'apprentissage supervisé mettra en œuvre des algorithmes d'optimisation afin de trouver une fonction $f$ qui minimise le risque empirique $R_{N}(f)={\dfrac {1}{N}}\sum _{n=1}^{N}L(Y_{n},f(X_{n}))$ . Il faut noter que $R_{N}$ n'est rien d'autre que la moyenne des écart (au sens de $L$ ) entre les prédictions du modèle et les sorties attendues.

Classification et régression

On distingue trois types de problèmes solubles avec une méthode d'apprentissage automatique supervisée^[4] :

${\mathcal {Y}}\subset \mathbb {R}$ : lorsque la sortie que l'on cherche à estimer est une valeur dans un ensemble continu de réels, on parle d'un problème de régression. La fonction de prédiction est alors appelée un régresseur.
${\mathcal {Y}}=\{1,\ldots ,I\}$ : lorsque l'ensemble des valeurs de sortie est fini, on parle d'un problème de classification, qui revient à attribuer une étiquette à chaque entrée. La fonction de prédiction est alors appelée un classifieur.
Lorsque ${\mathcal {Y}}$ est un ensemble de données structurées, on parle d'un problème de prédiction structurée, qui revient à attribuer une sortie complexe à chaque entrée^[5]. Par exemple, en bio-informatique le problème de prédiction de réseaux d’interactions entre gènes peut être considéré comme un problème de prédiction structurée dans laquelle l'ensemble possible des sorties structurées est l'ensemble de tous les graphes modélisant les interactions possibles.

Coût quadratique en régression

Une bonne estimation de $f$ vérifierait $f(X)=\mathbb {E} (Y|X)$ . On estimerait donc $Y$ par son espérance conditionnelle par rapport à $X$ . Le théorème^[6] suivant montre l'intérêt d'utiliser la fonction de perte quadratique dans le cas d'une régression.

Minimisation du coût quadratique — Supposons ${\mathcal {Y}}=\mathbb {R} ^{d}$ . On se munit de la fonction de perte quadratique définie pour tout $y,y'\in \mathbb {R} ^{d}$ par $L(y,y')=\|y-y'\|_{2}^{2}$ . On suppose également $Y-\mathbb {E} (Y|X)\in L^{2}(\mathbb {R} ^{p},{\mathcal {B}}(\mathbb {R} ^{p}),\lambda _{p})$ , avec $\lambda _{p}$ la mesure de Lebesgue sur $\mathbb {R} ^{p}$ . Alors, la fonction $f$ qui minimise le risque statistique associé à $L$ vérifie $f(X)=\mathbb {E} (Y|X)$ .

Démonstration — Calculons le risque statistique associé à la fonction de perte quadratique :

${\begin{aligned}R(f)&=\mathbb {E} (L(Y,f(X)))\\&=\mathbb {E} (\|Y-f(X)\|_{2}^{2})\\&=\mathbb {E} (\|(Y-\mathbb {E} (Y|X))-(f(X)-\mathbb {E} (Y|X))\|_{2}^{2})\\&=\mathbb {E} (\|Y-\mathbb {E} (Y|X)\|_{2}^{2})-2\mathbb {E} (\langle Y-\mathbb {E} (Y|X)|f(X)-\mathbb {E} (Y|X))\rangle )+\mathbb {E} (\|f(X)-\mathbb {E} (Y|X))\|_{2}^{2})\\\end{aligned}}$

Où $\langle \cdot |\cdot \rangle$ désigne le produit scalaire euclidien dans $\mathbb {R} ^{d}$ .

On cherche donc à trouver la fonction $f$ qui minimise $R(f)$ . Le premier terme de la somme ne dépend pas de $f$ , et on peut réécrire le second terme à l'aide de la formule de l'espérance totale :

${\begin{aligned}\mathbb {E} (\langle Y-\mathbb {E} (Y|X)|f(X)-\mathbb {E} (Y|X))\rangle )&=\mathbb {E} (\mathbb {E} (\langle Y-\mathbb {E} (Y|X)|f(X)-\mathbb {E} (Y|X))\rangle |X))\\&=\mathbb {E} (\langle Y-Y|f(X)-Y\rangle )\\&=0\end{aligned}}$

Le second terme est donc nul. Enfin, le troisième terme est positif et s'annule pour $f(X)=\mathbb {E} (Y|X)$ .

Méthodes d'apprentissage supervisé

Applications

Notes et références

↑ « classement » est la traduction correcte du terme anglais classification; la « classification » française correspond plutôt au clustering en anglais. Voir par exemple la BDL québécoise
↑ Massih-Reza Amini, « Principes de base en apprentissage supervisé », dans Machine Learning, juin 2020 (lire en ligne)
↑ (en) Trevor Hastie, Robert Tibshirani et Jerome Friedman, The Elements of Statistical Learning, New York, NY, Springer, New York, NY, 2009 (ISBN 978-1-0716-2122-6)
↑ (en) Vladimir Nasteski, « An overview of the supervised machine learning methods », HORIZONS.B, vol. 4,‎ 15 décembre 2017, p. 51–62 (DOI 10.20544/HORIZONS.B.04.1.17.P05, lire en ligne, consulté le 17 mai 2022)
↑ (en) Hal Daumé, John Langford et Daniel Marcu, « Search-based structured prediction », Machine Learning, vol. 75, n^o 3,‎ 1^er juin 2009, p. 297–325 (ISSN 1573-0565, DOI 10.1007/s10994-009-5106-x, lire en ligne, consulté le 17 mai 2022)
↑ Sylvain Arlot, « Fondamentaux de l'apprentissage statistique », dans Apprentissage statistique et données massives, Editions Technip, mai 2018 (lire en ligne)

Voir aussi

Bibliographie

Vincent Barra, Antoine Cornuéjols, Laurent Miclet, Apprentissage Artificiel : Concepts et algorithmes, Eyrolles, 2021 (ISBN 978-2-416-001-04-8) [détail des éditions]
(en) Tom M. Mitchell, Machine Learning, 1997 [détail des éditions]
(en) Christopher M. Bishop, Pattern Recognition And Machine Learning, Springer, 2006 (ISBN 0-387-31073-8) [détail des éditions]

Articles connexes

v · m Science des données
Concepts	MapReduce Apprentissage profond Extreme learning machine Apprentissage automatique Apprentissage supervisé Apprentissage non supervisé Réseau de neurones artificiels Représentation graphique de données Exploration de données Textemining Segmentation Intelligence artificielle Big data Data Lineage
Architecture	Hadoop Cloudera Hortonworks Apache Hive NoSQL NewSQL HBase Cassandra Apache Spark
Outils	Presto Apache Impala Pig Tableau Software Elasticsearch MongoDB Apache Mahout Scikit-learn TensorFlow Theano (logiciel) SPSS JMP Dataiku Apache MXNet ONNX Apache SINGA Keras
Programmation	R Ggplot2 SAS Python Julia SQL Scala
Statistique	ACP AFC ACM Méthode des moindres carrés Analyse des données Homoscédasticité Knn Cartes de Kohonen Statistique multivariée Théorème de Bayes Analyse de la variance Test du χ² Distance de Cook
Articles liés	Watson Teradata Glossaire de l'exploration de données Extract-transform-load Traitement analytique en ligne

v · m

Apprentissage automatique et exploration de données

Problèmes

Apprentissage supervisé

Classement	Arbre de décision Boosting Forêts aléatoires k-NN U-matrix CRF HMM Modèle graphique
Régression	Régression linéaire Analyse discriminante linéaire Naive Bayes Régression logistique Machine à vecteurs de support ou SVM
Réseau de neurones artificiels (ANN)	Réseau récurrents (RNN) LSTM GRU Calcul par réservoir RBF Réseau bayésien à action directe (FFN) Apprentissage profond Perceptron Perceptron multicouche Réseau neuronal convolutif (CNN) TDNN Réseau de neurones à impulsions (SNN)

Apprentissage non supervisé

Clustering	Regroupement hiérarchique K-means Algorithme espérance-maximisation DBSCAN OPTICS
Réduction de dimensions	Analyse factorielle Analyse canonique des corrélations Analyse en composantes indépendantes ACP Sélection de caractéristique Extraction de caractéristique t-SNE
Réseau de neurones artificiels (ANN)	Réseau de Hopfield RBM Cartes de Kohonen