Chap2 (Partie2) KNN

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 26

CHAPITRE 2: APPRENTISSAGE

SUPERVISÉ
(PARTIE 2)

k plus proches voisins


(k-ppv)

3 LIRI Dr. Imen Khamassi


Zied Elouedi 2008/2009
Plan
2

 Introduction

 Algorithmes et paramètres

 Exemples

Zied Elouedi 2008/2009


Introduction
Apprentissage par analogie: Recherche d’un ou de plusieurs
cas similaires déjà résolus.

Dis moi quels sont tes voisins, je te dirais qui tu es.

Un nouvel objet sera affecté à la classe la plus commune parmi


les classes des k objets qui sont les plus proches de lui.

k plus proche voisins (k-ppv)


k nearest neighbors (k-nn)

Zied Elouedi 2008/2009 3


Algorithme k-ppv
4
 Pour déterminer la classe d’un nouvel objet O:
 Calculer la distance entre O et tous les objets de l’ensemble
d’apprentissage.
 Choisir les k objets de l’ensemble d’apprentissage qui sont les plus
proches de O.
 Affecter O à la classe majoritaire parmi les classes des k plus proches
voisins. Objet à classer

Zied Elouedi 2008/2009


Exemples
5

X X X

(a) 1-plus proche voisin (b) 2-plus proches voisins (c) 3-plus proches voisins

Zied Elouedi 2008/2009


Paramètres
6

o L’ensemble d’apprentissage.

o La métrique de distance pour calculer la distance entre deux objets.

o La valeur de K représentant le nombre des voisins les plus proches.

o Choix de la classe de l’objet à classer.

Zied Elouedi 2008/2009


Ensemble d’apprentissage
7

o Ensemble d’objets tel que pour chaque objet, on connaît:

 La valeur de ses attributs.

 Sa classe.

Zied Elouedi 2008/2009


Distance

 Le choix de la distance est primordial au bon fonctionnement


de la méthode.

 Les distances les plus simples permettent d'obtenir des


résultats satisfaisants (lorsque c'est possible).

 Propriétés de la distance:
 Réflexivité: d(A,B)=0 SSi A = B
 Non négativité: d(A, B)  0
 Symétrie: d(A,B)= d(B,A)
 Inégalité triangulaire: d(A,B) d(A,C) + d(B,C)

Zied Elouedi 2008/2009 8


Distance Euclidienne

L’une des distances utilisées quand les attributs sont numériques


est la distance Euclidienne.

 La distance euclidienne entre deux objets


O1=(x1, x2, x3,…xn) et O2 =(y1,y2, y3,…yn)
est définie comme suit:

n
D(O1, O 2)   i i
( x
i 1
 y ) 2

Zied Elouedi 2008/2009 9


Distance Euclidienne pondérée
10

n
D(O1, O 2)   w (x  y )
i 1
i i i
2

Remarque: il y a plusieurs distances à utiliser comme celles


utilisées en clustering (Minkowski, Manhattan, etc).

Zied Elouedi 2008/2009


Distance selon les variables
11

 Variables numériques

 Variables catégoriques

 Variables binaires

 Variables ordinales

Il suffit d’utiliser la distance appropriée à chaque type de variable.

Zied Elouedi 2008/2009


Choix du k
 Si k est trop petit, sensible au bruit
 Si k est trop grand, le voisinage peut conetnir des objets de
plusieurs classes.

 Choix du nombre k de voisins déterminé par utilisation d'un ensemble


test ou par validation croisée.
 Une heuristique fréquemment utilisée est de prendre k égal au nombre
d'attributs plus 1.
Zied Elouedi 2008/2009 12
Classification

 Pour déterminer la classe à partir de la liste des k plus


proches voisins:

 Choix de la classe majoritaire.

 Choix de la classe majoritaire pondérée:


Chaque classe d'un des k voisins sélectionnés est
pondéré.
Par exemple w = 1/d2.

Zied Elouedi 2008/2009 13


Remarques
14

o Pas de construction de modèle

C'est l'échantillon d'apprentissage, associé à une


fonction de distance et d'une fonction de choix de la
classe en fonction des classes des voisins les plus
proches, qui constitue le modèle.

Zied Elouedi 2008/2009


Exemple
Client Age Revenu Nombre Classe
cartes (Réponse)
de crédit
Mohamed 35 350 3 Non

Ali 22 500 2 Oui

Samia 63 2000 1 Non

Sami 59 1700 1 Non

Meriem 25 400 4 Oui

Lotfi 37 500 2 ?
Zied Elouedi 2008/2009 15
Exemple

Client Age Revenu Nombre cartes Classe Distance(Client, Lotfi)


de crédit (Réponse)
Mohamed 35 350 3 Non Sqrt((35-37)2+(350-
500)2+(3-2)2)=150.01
Ali 22 500 2 Oui Sqrt((22-37)2+(500-
500)2+(2-2)2)= 15
Samia 63 2000 1 Non Sqrt((63-37)2+(2000-
500)2+(1-2)2)=1500.22
Sami 59 1700 1 Non Sqrt((59-37)2+(1700-
500)2+(1-2)2)=1200.2
Meriem 25 400 4 Oui Sqrt((25-37)2+(400-
500)2+(4-2)2)=100.74
Lotfi 37 500 2 ?

Zied Elouedi 2008/2009 16


Exemple
Client Age Revenu Nombre cartes Classe Distance(Client, Lotfi)
de crédit (Réponse)
Mohamed 35 350 3 Non Sqrt((35-37)2+(350-
500)2+(3-2)2)=150.01
Ali 22 500 2 Oui Sqrt((22-37)2+(500-
500)2+(2-2)2)= 15
Samia 63 2000 1 Non Sqrt((63-37)2+(2000-
500)2+(1-2)2)=1500.22
Sami 59 1700 1 Non Sqrt((59-37)2+(1700-
500)2+(1-2)2)=1200.2
Meriem 25 400 4 Oui Sqrt((25-37)2+(400-
500)2+(4-2)2)=100.74
Lotfi 37 500 2 Oui ?
Il faut normaliser puis calculer les distances!
Zied Elouedi 2008/2009 17
Normalisation des variables
Client Age Revenu Nombre Classe
cartes de (Réponse)
Valeur Normalisée = crédit
( )

Mohamed 0.56 0.18 0.75 Non

Valeur Normalisée
𝐴𝑔𝑒 Ali 0.35 0.25 0.5 Oui

=
( )
Samia 1 1 0.25 Non

=
Sami 0.94 0.85 0.25 Non
= 0,56

Meriem 0.4 0.2 1 Oui

Lotfi 0.59 0.25 0.5 ?

Zied Elouedi 2008/2009 18


Exemple

Client Age Revenu Nombre cartes Classe Distance(Client, Lotfi)


de crédit (Réponse)
Mohamed 0.56 0.18 0.75 Non Sqrt((0.56-0.59)2+(0.18-
0.25)2+(0.75-0.5)2)=0.26
Ali 0.35 0.25 0.5 Oui Sqrt((0.35-0.59)2+(0.25-
0.25)2+(0.5-0.5)2)= 0.24
Samia 1 1 0.25 Non Sqrt((1-0.59)2+(1-
0.25)2+(0.25-0.5)2)=0.89
Sami 0.94 0.85 0.25 Non Sqrt((0.94-0.59)2+(0.85-
0.25)2+(0.25-0.5)2)=0.74
Meriem 0.4 0.2 1 Oui Sqrt((0.4-0.59)2+(0.2-
0.25)2+(1-0.5)2)=0.54
Lotfi 0.59 0.25 0.5 ?

Zied Elouedi 2008/2009 19


Exemple
k=3
Client Age Revenu Nombre cartes Classe Distance(Client, Lotfi)
de crédit (Réponse)
Mohamed 0.56 0.18 0.75 Non Sqrt((0.56-0.59)2+(0.18-
0.25)2+(0.75-0.5)2)=0.26
Ali 0.35 0.25 0.5 Oui Sqrt((0.35-0.59)2+(0.25-
0.25)2+(0.5-0.5)2)= 0.24
Samia 1 1 0.25 Non Sqrt((1-0.59)2+(1-
0.25)2+(0.25-0.5)2)=0.89
Sami 0.94 0.85 0.25 Non Sqrt((0.94-0.59)2+(0.85-
0.25)2+(0.25-0.5)2)=0.74
Meriem 0.4 0.2 1 Oui Sqrt((0.4-0.59)2+(0.2-
0.25)2+(1-0.5)2)=0.54

Lotfi 0.59 0.25 0.5 Oui

Zied Elouedi 2008/2009 20


Avantages
21

 Simple et facile à implémenter et à utiliser.

 Compréhensible : La classification est facile à expliquer.

 Robuste aux données bruitées.

 Efficace pour des classes réparties de manière irrégulière.

 Des applications intéressantes.

Zied Elouedi 2008/2009


Inconvénients
22

 Nécessité de capacité de stockage et de puissance de calcul.

 Pas de modèle construit.

 Prend du temps pour classer un nouvel objet:


Comparaison des distances du nouvel objet avec tous les autres
de l’ensemble d’apprentissage.

 Choix du K.

Zied Elouedi 2008/2009


Complexité
23

 La complexité de l'algorithme naïf appliquant la


règle des k-PPV est de O(kdn).

o d est la dimensionnalité de l'espace (nombre d’attributs).

o n est le nombre d'échantillons.

Zied Elouedi 2008/2009


Conclusion (1)
24
 K-pvv est une méthode de classification non-paramétrique puisqu'aucune
estimation de paramètres n'est nécessaire comme pour la régression
linéaire.

 Tous les calculs doivent être effectués lors de la classification (pas de


construction de modèle).

 Le modèle est l'échantillon: Espace mémoire important nécessaire pour


stocker les données, et méthodes d'accès rapides nécessaires pour accélérer
les calculs.

 Les performances de la méthode dépendent du choix de la distance, du


nombre de voisins et du mode de combinaison des réponses des voisins.

 La méthode permet de traiter des problèmes avec un grand nombre


d'attributs. Cependant, plus le nombre d'attributs est important, plus le
nombre d'exemples doit être grand.

Zied Elouedi 2008/2009


Conclusion (2)
25

 Plusieurs extensions de K plus proches voisins:


 Système de classification hybrides
 Fuzzy K-NN.

 Belief K-NN.
.
.
.

Zied Elouedi 2008/2009


Bibliographie
26
- T. M. Cover and P. E. Hart. Nearest neighbor pattern classification. IEEE
Trans. Inform. Theory, IT-13(1):21–27, 1967.

- B. V. Dasarathy. Nearest neighbor norms: NN pattern classification


techniques. IEEE Computer Society Press, Los Alamitos, Ca, 1991.

- J. M. Keller, M. R. Gray, and J. A. Givens. A fuzzy k-nn neighbor algorithm.


IEEE Trans. Syst. Man Cybern., SMC-15(4):580–585, 1985.

- T. Denoeux. A k-nearest neighbor classification rule based on Dempster-


Shafer theory. IEEE Transactions on Systems, Man and Cybernetics,
25(05):804-813, 1995.

-S. A. Dudani The distance weighted k nearest neighbor rule IEEE


Transactions on Systems, Man and Cybernetics SMC6, 325-327, 1976.

-L. M. Zouhal and T. Denoeux. A comparison between fuzzy and evidence-


theoretic k-NN rules for pattern recognition. In Proceedings of EUFIT’95, vol.
3, pages 1319-1325, Aachen, August 1995.
Zied Elouedi 2008/2009

Vous aimerez peut-être aussi

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy