Seance 1
Seance 1
Seance 1
Séance 1
Bruno Bouzy
bruno.bouzy@parisdescartes.fr
www.mi.parisdescartes.fr/~bouzy
Objectif
• Apercu de l'apprentissage automatique (AA)
• Problématiques:
– Classification oui surtout
– Optimisation oui un peu
Apprentissage automatique
Techniques abordées
• Apprentissage symbolique
• Réseaux bayésiens
• Réseaux de neurones
• Machine a vecteurs support
• Arbres de décision
• Bagging Boosting
• Méthodes des différences temporelles
• Evolution artificielle
• Algorithmes « bandit »
Apprentissage automatique
Techniques représentatives
• « Machine Learning » top-cited papers (2011):
– Quinlan 1986, induction of decision trees (~3000)
– Cortes & vapnik 1995, support vector networks (~2000)
– Sutton 1988, learning to predict by methods of temporal
differences
– Breiman 2001, random forests (bagging) (~1000)
– Aha 1991, instance-based learning algorithms
– Cooper Herskovits 1992, a bayesian method for the induction of
probabilistic networks from data (~900)
– Shapire 1999, improved boosting algo... (~800)
– etc.
Apprentissage automatique
Techniques fondamentales
• Mise a niveau
– Approximation polynomiale
– Descente de gradient
– Probabilités
• Réseaux de neurones
– Perceptron
• Evolution artificielle
• Apprentissage symbolique
– Induction dans l'espace des versions
Apprentissage automatique
Guide du cours
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Apprentissage symbolique
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Apprentissage numérique
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Classification
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Prediction
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Optimisation
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Apprentissage supervisé
Probabilités Réseaux bayésiens
Approximation polynomiale
SVN
Apprentissage symbolique
Evolution artificielle
Différences temporelles
Algorithmes « bandit »
Apprentissage automatique
Apprentissage supervisé ou non ?
• Supervisé
– Un oracle classe les exemples
– L'apprenant apprend à classer comme l'oracle
• Non supervisé
– L'apprenant apprend par lui-même
à classer
à décider d'une action
Apprentissage automatique
Induction
• Langage courant:
– Expliquer
– Prédire, classifier
– Faire simple
Apprenant: h(x,α)
x1, x2, ..., xm y1, y2, ..., ym
Apprentissage automatique
Induction
• Exemples non classifiés
– x1, x2, ..., xm.
• 1 oracle classifie les exemples
– (x1, u1), (x2, u2), ..., (xm, um).
• L'apprenant apprend (phase d'apprentissage)
– En recherchant une hypothèse h( . , α)
permettant de classifier au mieux les exemples
• L'apprenant classifie (phase de test)
– les exemples nouveaux en utilisant l' hypothèse
apprise Apprentissage automatique
Les espaces et ensembles
• X: espace des exemples x
• H: espace des hypothèses h
• F: espace des fonctions cibles f
• S: échantillon (sample)
• S+: ensemble des exemples positifs
• S-: ensemble des exemples négatifs S = S+ + S-
• A: ensemble d'apprentissage
• T: ensemble de test S = A + T
Apprentissage automatique
Biais et variance
• Apprentissage d'une hypothèse h dans H.
• h* : hypothèse optimale dans H.
• h – h* : « variance » ou « erreur d'estimation ».
• Exemples classifiés idéalement avec une
fonction cible optimale f* dans F ≠ H.
• h* - f* : « biais » ou « erreur d'approximation ».
• h – f* : erreur totale.
Apprentissage automatique
Compromis biais-variance
• Erreur totale =
– erreur d'estimation + erreur d'approximation
– variance + biais
• Plus H est complexe...
– plus H se rapproche de F, plus le biais diminue.
– plus 2 hypothèses donnent des résultats
différents, plus la variance augmente.
• H de complexité intermédiaire pour minimiser
l'erreur totale
Apprentissage automatique
Compromis biais-variance
Erreur d'approximation
Erreur d'estimation
Complexité de H
Apprentissage automatique
Compromis biais-variance
• Reconnaitre les hommes et les femmes...
– Modèle simple: la taille pour classifier
• Les hommes sont plus grands que les femmes.
• biais important: hommes petits et femmes
grandes (erreur d'approximation)
• variance faible: seuil de taille précisément calculé
– Modèle plus complexe: taille, longueur
cheveux, poids, timbre de la voix, pilosité.
• biais moins important,
• variance plus importante.
Apprentissage automatique
Induction
• Environnement X:
Engendre des exemples xi tirés indépendamment suivant une
distribution DX.
• Oracle:
Pour chaque xi, fournit une étiquette ui dans U (avec une distribution
de probabilité F(u|x) inconnue)
• Apprenant:
Construit une hypothèse h dans H telle que:
h(xi)= ui pour chaque xi.
Apprentissage automatique
Induction
Apprentissage automatique
Risque empirique et risque réel
Risque
Rreel(h^S)
Rreel(h*)
Remp(h^S)
Apprentissage automatique
Références
Apprentissage automatique