Pratique Regression Logistique
Pratique Regression Logistique
Pratique Regression Logistique
Page: 2
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Avant-propos
Ce fascicule est ddi la Rgression Logistique. Il s'agit d'une technique de modlisation qui, dans sa version la plus rpandue, vise prdire et expliquer les valeurs d'une variable catgorielle binaire Y (variable prdire, variable explique, variable dpendante, attribut classe, variable endogne) partir d'une collection de variables X continues ou binaires (variables prdictives, variables explicatives, variables indpendantes, descripteurs, variables exognes). Elle fait partie des mthodes d'apprentissage supervis [13] ; elle peut s'inscrire dans le cadre de la rgression linaire gnralise [7] (Chapitre 5, pages 83-97) ; elle peut tre vue comme une variante de la rgression linaire multiple, bien connue en conomtrie [6] (Chapitre IV, pages 67-77). Pendant longtemps, trouver de la documentation en franais sur la Pratique de la Rgression Logistique a t un problme. Les seuls ouvrages disponibles tudiaient le sujet sous l'angle de
des variables qualitatives, excellents par ailleurs, mais avec un prisme plutt thorique, assez loign des
proccupations du praticien qui souhaite mettre en oeuvre l'outil dans le cadre du scoring ou du data mining sans entrer dans les arcanes des proprits des estimateurs, biais, convergence, etc. Les questions que tout un chacun se pose face ce type de mthode sont assez simples et demandent des rponses tout aussi simples : De quoi s'agit-il ? A quel type de problme rpond la technique ? Comment peut-on la mettre en oeuvre ? Quelles en sont les conditions d'utilisation ? Comment lire et interprter les rsultats ? Comment les valider ? Fort heureusement, dans la priode rcente, la situation a radicalement chang. Des chapitres entiers sont consacrs aux aspects pratiques de la rgression logistique dans de nombreux ouvrages en franais que nous citons en bibliographie. Certains le font de manire approfondie en dtaillant les formules. D'autres se concentrent sur la mise en oeuvre et les interprtations. En tous les cas, le lecteur exclusivement francophone a de quoi lire. La situation est en revanche moins reluisante concernant la documentation accessible librement sur internet. Certes, nous pouvons glaner ici ou l quelques "slides" sur des serveurs. Mais, d'une part, il ne s'agit que de supports trs peu formaliss et, d'autre part, leur dure de vie est souvent trs faible. Je fais certes systmatiquement des copies locales en ce qui me concerne, mais il est hors de question bien entendu de les diuser moi mme. Leurs auteurs ne les ont pas retirs par hasard. Ce fascicule est une version formalise et complte de mes "slides" accessibles sur mon site de cours (http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, "Rgression LogisPage: 3 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
l'conomtrie
Avant-propos
tique" [14] et "Rgression Logistique Polytomique" [15]). Nous faisons la part belle la rgression logistique binaire dans les 2 premires parties. Nous largirons notre propos la rgression logistique polytomique (Y peut prendre plus 2 modalits, elles sont ventuellement ordonnes) dans les autres. Enn, nous nous focalisons avant tout sur la mise en oeuvre de la rgression logistique. Les formules sont dtailles uniquement lorsqu'elles permettent de mieux comprendre les mcanismes sous-jacents, de mieux apprhender la teneur des rsultats et, par l, de mieux les interprter. Comme notre habitude, une des particularits de cet ouvrage est que nous reproduisons autant que possible les calculs dans un tableur. Nous mettons en relation directe les formules, qui sont parfois assez abstraites, et les tapes numriques qui permettent d'aboutir aux rsultats . Au besoin nous croiserons les rsultats avec les sorties des logiciels spcialiss. Nous utiliserons prioritairement les outils libres, TANAGRA (http://
eric.univ-lyon2.fr/~ricco/tanagra) et R (http://www.r-project.org), pour que le lecteur puisse reproduire les exemples illustratifs. Tous les chiers de donnes et de calculs utiliss pour l'laboration de cet ouvrage sont accessibles en ligne (voir Annexe B, page 247).
Un document ne vient jamais du nant. Comme il n'y a pas 10.000 manires de prsenter la rgression logistique, toute ressemblance avec des rfrences existantes n'est pas fortuite. Elle est compltement assume. Le plus important dans ce cas est de veiller les citer . Rendons donc Csar ce qui lui appartient, les sources suivantes m'ont beaucoup inspir : 1. L'ouvrage de Hosmer et Lemeshow est certainement
LA
souhaite mettre en pratique la rgression logistique dans une application relle se doit d'avoir lu cet ouvrage. Le discours est clair. Il va directement l'essentiel, sans nanmoins faire l'impasse sur les aspects thoriques importants. Tout est dissqu, discut, les rfrences sont systmatiquement croises, recoupes. J'ai rarement lu un livre d'une telle qualit. C'est simple. J'ouvre une page au hasard, je trouve intressant ce qui y est crit. Les ouvrages qui m'ont autant impressionn se comptent sur les doigts de la main. Je remarque d'ailleurs que je ne suis pas le seul l'avoir apprci. De nombreux auteurs s'en inspirent grandement dans leur prsentation. On retrouve, entres autres, quasiment partout le fameux exemple de la prdiction de la CHD (coronary heart disease) en fonction de l'ge, avec les gures 1.1 et 1.2 ([9], pages 4 et 5). C'est plutt bon signe je trouve. J'avoue moi mme avoir fait comme tout le monde. Autant prendre les informations l o elles sont de bonne qualit. 2. L'autre rfrence anglo-saxonne qui m'a beaucoup plu est l'ouvrage de Scott Menard [10] de la srie
Quantitative Applications in the Social Sciences (Sage University Paper). Il s'agit d'une petite
brochure qui ne paie pas de mine, crit un peu la manire des "Que sais-je". Mais l'usage, on se rend compte trs rapidement de la richesse du propos (comme les "Que sais-je" d'ailleurs). En plus, la lecture est trs uide. C'est toujours agrable. L'auteur prend beaucoup de recul par rapport aux techniques. Il faut prendre cet ouvrage comme un guide de lecture des rsultats de la rgression
1. C'est devenu un peu une marque de fabrique de mes crits. Je pense que savoir reproduire les formules sur un tableur est le signe qu'on les a parfaitement comprises. Je montre les calculs sous Excel parce que je l'utilise pour mes enseignements, mais la transposition Open Oce Calc ne prsente aucune dicult. 2. Reprendre le travail des autres sans les citer, c'est du plagiat ; reprendre le travail des autres en les citant, c'est une manire d'honorer leurs eorts. Ca ne cote rien de le faire et a fait plaisir. Pourquoi s'en priver ?
Page: 4 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
Avant-propos
rfrence aux principaux outils du march (SAS, SPSS).
logistique. Il nous aide comprendre ce qui est important dans les sorties de logiciels. Il fait beaucoup 3. En franais, aprs une longue priode de disette, la documentation existe maintenant. Il n'y a certes pas de livres exclusivement consacrs au sujet. Mais bien souvent les chapitres que l'on retrouve dans les dirents ouvrages sont d'excellente facture. Nous les dtaillons volontiers dans la bibliographie en indiquant les numros de chapitre et le nombre de pages ddies au sujet pour que le lecteur puisse faire sa recherche bibliographique en connaissance de cause. 4. En ligne, en franais, de la documentation la fois prenne et susamment approfondie est trs rare. Il y a bien la page Wikipdia [25], mais elle est plutt concise. Comme je le disais plus haut, en cherchant bien on trouve ici ou l des "slides". Mais d'une part, ils sont trs laconiques (c'est plutt normal pour des slides) ; d'autre part, ils restent peu de temps en ligne. C'est un peu (beaucoup) dommage. Ceci est vrai aujourd'hui (Aot 2009). Peut tre qu'entre temps d'autres supports de qualit en franais sont maintenant disponibles. Ca ne peut tre que positif pour tout le monde. 5. En anglais, la situation est tout autre. Les excellentes rfrences abondent, avec une prennit qui semble assure. Je citerai le cours complet avec des exemples comments sous SAS et R du dpartement de Statistique de l'Universit de Pennsylvania [22], ou encore la page de David Garson qui, dle sa dmarche, trace les contours de la mthode puis explique de manire approfondie les sorties du logiciel SPSS [5]. Il ne m'a pas t possible de rdiger d'une traite la totalit de ce fascicule. Plutt que d'attendre indniment sa nalisation, j'ai prfr sortir une premire version, consacre exclusivement la rgression logistique binaire. Le reste, les chapitres relatifs la rgression logistique polytomique, viendra au l du temps. J'ai mis en annexes les indications qui permettent de suivre les direntes versions et les dates de modications (Annexe A). Enn, selon l'expression consacre, ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer le contenu sont les bienvenus.
Page: 5
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 6
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 7
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
valuation de la rgression
.......................................................
27 27 27 29 32 33 35 36 37 37 37 39 40 40 41 43 43 45 45 47 47 48 49 51 51 51 52
2.1 La matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Construction et indicateurs associs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Autres indicateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Exemple : coeur = f (age, taux max, angine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 Le modle est-il "intressant" ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 Subdivision "apprentissage - test" des donnes pour une valuation plus able . . . 2.1.6 Inconvnients de la matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Diagramme de abilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Calcul et interprtation du diagramme de abilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Exemple : COEUR = f(age, taux max, angine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Exemple : Acceptation de crdit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Construction du test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Acceptation de crdit - Test de Hosmer-Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Le test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Pourquoi un test de comparaison de populations ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Fichier COEUR - Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Acceptation de crdit - Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 La courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Justication et construction de la courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Le critre AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3 Fichier COEUR - Courbe ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4 Critre AUC et Statistique de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 La courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Principe de la courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Fichier COEUR - Courbe rappel-prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 8
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
9
55 55 55 56 56 56 57 58 59 60 60 61 62 63 64 65 67 68
............................................
3.1 Quoi et comment tester ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 criture des hypothses tester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Deux approches pour les tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Tests fonds sur le rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Principe du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Tester la nullit d'un des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Tester la nullit de q (q < J ) coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Tester globalement la nullit des J coecients (a1 , . . . , aJ ) . . . . . . . . . . . . . . . . . . . . . 3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald . . . . . . . . . . . . 3.3.1 Matrice de variance-covariance des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Tester la nullit d'un des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Intervalle de conance de Wald pour un coecient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Tester la nullit de q (q < J ) coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.5 Tester globalement la nullit des J coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.6 criture gnrique des tests de signicativit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.7 Aller plus loin avec la forme gnrique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Bilan : Rapport de vraisemblance ou Wald ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page: 9
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
10
101
6.1 Dnir les interactions entre variables explicatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1.1 Interaction par le produit de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 6.1.2 tude du ronement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.1.3 Coecients des indicatrices seules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6.2 Stratgie pour explorer les interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.2.1 Modle hirarchiquement bien formul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.2.2 tude du ronement avec 3 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.3 Calcul de l'odds-ratio en prsence d'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6.3.2 Estimation par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 6.4 Interprter les coecients de la rgression en prsence d'interactions . . . . . . . . . . . . . . . . . . 111 6.4.1 Deux explicatives binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 6.4.2 Un explicative continue et une explicative binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.4.3 Deux explicatives continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
La slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
7.1 Pourquoi la slection de variables ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 7.2 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2.1 Principe de la slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.2.2 Slection de variables avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7.3 Slection statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 7.3.1 Slection BACKWARD base sur le Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 7.3.2 Slection FORWARD base sur le Test du Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.1 Analyse des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 8.1.1 Notre exemple de rfrence : coeur = f (age, taux max) . . . . . . . . . . . . . . . . . . . . . . . 136 8.1.2 Rsidus de Pearson et Rsidus dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.1.3 Le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 8.1.4 Rsidus de Pearson et Rsidus dviance standardiss . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8.1.5 Distance de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 8.1.6 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 8.2 Non-linarit sur le LOGIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 8.2.1 Identication graphique univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.2.2 Une solution simple : la discrtisation de la variable X . . . . . . . . . . . . . . . . . . . . . . . . 149 8.2.3 Dtection numrique multivarie : le test de Box-Tidwell . . . . . . . . . . . . . . . . . . . . . . 151 8.2.4 Dtection graphique multivarie : les rsidus partiels . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Page: 10 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
11
161
9.1 Notion de "Covariate pattern" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 9.2 Levier associ aux "Covariate pattern" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 9.3 Rsidu de Pearson et Rsidu dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.3.1 Rsidu de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9.3.2 Rsidu dviance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.4 Mesurer l'impact de chaque "covariate pattern" sur les coecients . . . . . . . . . . . . . . . . . . . . 169 9.4.1 La distance de Cook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 9.4.2 Les critres C et CBAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 9.4.3 Les critres DFBETA et DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 9.5 Sur-dispersion et sous-dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10.1 Redressement pour les chantillons non reprsentatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 10.1.1 Donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 10.1.2 Correction du logit pour les chantillons non reprsentatifs . . . . . . . . . . . . . . . . . . . . 178 10.1.3 Modication de la rgle d'aectation pour le classement . . . . . . . . . . . . . . . . . . . . . . . 181 10.1.4 valuation sur un chantillon non reprsentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 10.2 Prise en compte des cots de mauvais classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.2.1 Dnir les cots de mauvaise aectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 10.2.2 Intgrer les cots lors de l'valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 10.2.3 Intgrer les cots lors du classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 10.2.4 Classement d'un individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 10.2.5 Traitement du chier COEUR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
195
11.1 L'cueil de la discrimination parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.2 Estimation des coecients par les MCO pondrs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11.2.1 Quel intrt ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11.2.2 quivalence entre la rgression logistique et la rgression linaire . . . . . . . . . . . . . . . 198 11.2.3 Un exemple numrique avec la fonction DROITEREG . . . . . . . . . . . . . . . . . . . . . . . . 200 11.3 Rgression non-linaire mais sparateur linaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
Page: 11 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
12
Partie III La rgression logistique multinomiale 12 Variable dpendante nominale - Principe et estimations
. . . . . . . . . . . . . . . . . . . . . . . . . . 207
12.1 La distribution multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 12.2 crire les logit par rapport une modalit de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 12.3 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 12.3.1 Vecteur gradient et matrice hessienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 12.3.2 Un exemple : prdiction de formule de crdit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 12.3.3 Estimation des coecients avec Tanagra et R (packages nnet et VGAM) . . . . . . . . 213 12.3.4 Modier la modalit de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 12.4 Signicativit globale de la rgression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 12.4.1 Modle trivial : estimations et log-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 12.4.2 Pseudo-R2 de McFadden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 12.4.3 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 12.4.4 Les rsultats fournis par les logiciels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
. . . . . . . . . . . . . . . . 219
13.1 Classement d'un individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 13.2 Matrice de confusion et taux d'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 13.3 Indicateurs synthtiques pour le rappel et la prcision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 13.3.1 Rappel et prcision par catgorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 13.3.2 Microaveraging et macroaveraging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 13.4 Taux d'erreur et chantillon non reprsentatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 13.5 Intgrer les cots de mauvais classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
Page: 12
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
13
225
14.1 Estimation de la matrice de variance covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 14.2 Signicativit d'un coecient dans un logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 14.2.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 14.2.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 14.3 Signicativit d'un coecient dans tous les logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 14.3.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 14.3.2 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 14.4 Test d'galit d'un coecient dans tous les logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.4.1 Test du rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.4.2 Test de Wald - Calcul direct . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 14.4.3 Test de Wald - Calcul gnrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 14.5 Interprtation des coecients - Les odds-ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 14.5.1 Calcul de l'odds-ratio via le tableau de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 14.5.2 Obtention des odds-ratio via la rgression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . 235
15 S'appuyer sur des rgression binaires spares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Partie IV La rgression logistique polytomique ordinale 16 Variable dpendante ordinale (1) - LOGITS adjacents
237
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 249
C.1 Lecture des rsultats - Rgression logistique binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 C.2 Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 C.3 Didacticiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
Page: 13 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
14
D.1 La rgression logistique avec la commande glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.1 glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.2 summary de glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 D.1.3 D'autres fonctions applicables sur l'objet glm() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 D.2 La rgression logistique avec la commande lrm() du package Design . . . . . . . . . . . . . . . . . . 254
Littrature
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Page: 14
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Notations
L'objectif est de prdire les valeurs prises par la variable alatoire Y dnie dans {y1 , y2 , . . . , yK }. Pour la rgression logistique binaire, Y prend uniquement deux modalits {+, } (ou {1, 0} pour simplier). Nous disposons d'un chantillon de taille n. La valeur prise par Y pour un individu est note Y (). Le chier comporte J descripteurs {X1 , X2 , . . . , XJ }. Le vecteur de valeurs pour un individu s'crit
On
probabilit a posteriori d'un individu d'tre positif c.--d. sachant les valeurs prises par les que l'on cherche
descripteurs est note P [Y () = +/X()] = (). Ici galement, lorsqu'il ne peut y avoir de confusions, nous crirons . Ce dernier terme est trs important. En eet, c'est la probabilit
[ ln
] () = a0 + a1 X1 () + + aJ XJ () 1 ()
a0 , a1 , . . . , aJ sont les paramtres que l'on souhaite estimer partir des donnes.
Lorsque nous adoptons une criture matricielle, nous crirons
] () ln = X() a 1 ()
avec X() = (1, X1 (), X2 (), . . . , XJ ()), la premire composante (X0 () = 1, ) symbolise la constante ; a = (a0 , a1 , . . . , aJ ) est le vecteur des paramtres. Enn, toujours pour allger l'criture, nous omettrons le terme lorsque cela est possible.
Donnes
Autant que faire se peut, nous utiliserons le mme jeu de donnes ctif comportant 20 observations et
3 variables prdictives pour illustrer la rgression logistique binaire. L'objectif est de prdire la prsence
ou l'absence d'un problme cardiaque (COEUR - Y ; avec "prsence" = "+" et "absence" = "-") partir de son AGE (quantitative - X1 ), du TAUX MAX (pression sanguine, quantitative - X2 ) et l'occurence d'une ANGINE de poitrine (binaire - X3 ) (Figure 0.1). Nous obtenons une srie d'indicateurs lorsque nous le traitons avec le Tanagra (Figure 0.2) ou lorsque nous le traitons avec le logiciel R (Figure 0.3). Certaines permettent d'valuer la qualit globale de la
Page: 1 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
Fig. 0.1.
Fichier COEUR
Expliciter les principes qui rgissent la mthode et dcrire les formules associes pour que nous sachions lire en connaissance de cause les rsultats constituent les objectifs de ce support.
rgression, d'autres permettent de juger la contribution individuelle de chaque variable. Le chier est susamment petit pour que l'on puisse dtailler tous les calculs. Le faible eectif en revanche induit une certaine instabilit des rsultats. Dans certains cas ils ne concordent pas avec nos connaissances usuelles. Il ne faudra pas s'en formaliser. L'intrt d'avoir recours un expert du domaine justement est qu'il a la possibilit de valider ou d'invalider le fruit de calculs purement mcaniques. Bien entendu, lorsque la situation ne s'y prte pas, nous utiliserons ponctuellement d'autres chiers de donnes. Nous l'indiquerons au fur et mesure.
Page: 2
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Fig. 0.2.
Fig. 0.3.
Page: 3
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 4
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie I
Page: 5
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 6
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Y = f (X, )
entre ces variables. La fonction f (.) est le modle de prdiction, on parle aussi de classieur ; est le vecteur des paramtres de la fonction, on doit en estimer les valeurs partir des donnes disponibles. Dans le cadre de la discrimination binaire, nous considrons que la variable dpendante Y ne prend que 2 modalits : positif "+" ou ngatif "-". Nous cherchons prdire correctement les valeurs de Y , mais nous pouvons galement vouloir quantier la propension (la probabilit) d'un individu tre positif (ou ngatif). Les applications sont nombreuses, certains touchent directement notre vie quotidienne : 1. Dterminer la viabilit d'un client sollicitant un crdit partir de ses caractristiques (age, type d'emploi, niveau de revenu, autres crdits en cours, etc.) ; 2. Quantier le risque de survenue d'un sinistre pour une personne sollicitant un contrat d'assurance (ex. un jeune homme venant d'obtenir son permis de conduire et demandant une assurance tous risques pour une 205 Turbo-kitte avec un aileron de requin sur le toit aura trs peu de chances de trouver une compagnie conciliante) ; 3. Discerner les facteurs de risque de survenue d'une maladie cardio-vasculaire chez des patients (ex. l'ge, le sexe, le tabac, l'alcool, regarder les matches de l'quipe de France de foot, etc.) ; 4. Pour une enseigne de grande distribution, cibler les clients qui peuvent tre intresss par tel ou tel type de produit.
Page: 7 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
104-105) : 1. Choisir la forme de la fonction. 2. Estimer les paramtres du modle partir d'un chantillon . 3. valuer la prcision des estimations. 4. Mesurer le pouvoir explicatif du modle. 5. Vrier s'il existe une liaison signicative entre l'ensemble des descripteurs et la variable dpendante. 6. Identier les descripteurs pertinents dans la prdiction de Y , vacuer celles qui ne sont pas signicatives et/ou celles qui sont redondantes. 7. Mesurer l'inuence de chaque observation, au besoin dtecter celles qui peuvent avoir une inuence exagre au point de fausser les rsultats. 8. Pour un nouvel individu classer, dterminer la valeur de partir des valeurs prises par les X . 9. Construire un intervalle de variation (fourchette) de . La rgression logistique permet de rpondre prcisment chacune de ces questions. Elle le fait surtout de manire compltement cohrente avec sa dmarche d'apprentissage, la maximisation de la vraisemblance. Ce n'est pas un de ses moindres mrites par rapport d'autres mthodes supervises.
o est une fonction indicatrice qui, pour un individu donn, prend la valeur 1 lorsque la prdiction ne concorde pas avec la vraie valeur ; elle prend la valeur 0 lorsque le modle prdit bon escient. On confronte ainsi les vraies valeurs prises par la variable dpendante dans la population et les prdictions du modle. Dans le cas idal, toutes les prdictions sont correctes, l'erreur thorique est gal
0. L'autre extrme serait que le modle se trompe systmatiquement, dans ce cas le taux serait gal 1.
Mais en ralit, il est plus judicieux de prendre comme borne haute le classement au hasard . Lorsque les classes sont qui-distribues c.--d. les proportions de positifs et de ngatifs sont identiques dans la population, nous obtiendrions un taux d'erreur thorique gal 0.5. Le classieur doit faire mieux.
1. Nous verrons plus loin (sections 1.6 et 2.1.4) qu'il y a une approche plus rigoureuse pour dnir le classieur de rfrence (le modle trivial), celui que l'on doit absolument surpasser.
Page: 8 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
Notre indicateur est thorique dans la mesure o nous ne disposerons jamais de la population complte pour la calculer. Il faudra que l'on produise une estimation partir d'un chantillon. La solution la plus simple consiste mesurer la proportion de mauvais classement sur le chier qui a servi construire le modle, on parle de
taux d'erreur en resubstitution. Pour simple quelle soit, cette estimation n'est
cependant pas trs able, on sait que le taux d'erreur ainsi calcul est souvent trop optimiste, il faut le produire autrement. Nous reviendrons sur ce sujet plus loin (section 2.1).
P [Y () = yk /X()]
pour chaque modalit yk de Y . On aecte l'individu la modalit la plus probable yk c.--d.
On associe donc l'individu la classe la plus probable compte tenu de ses caractristiques X(). Cette approche est optimale au sens de l'erreur thorique ! . Mais un problme apparat tout de suite : comment estimer correctement ces probabilits conditionnelles ?
2. Souvent, pas toujours. L'importance du biais d'optimisme dpend aussi des caractristiques du classieur et des donnes. Dans certains cas, lorsque la mthode a tendance fortement coller aux donnes (ex. la mthode des plus proches voisins dans un espace sur-dimensionn), le taux d'erreur en resubstitution n'est d'aucune utilit ; dans d'autres, mthodes linaires dans un espace o le ratio entre le nombre d'observations et le nombre de descripteurs est favorable, il donne des indications tout fait crdibles. 3. Il est possible de gnraliser l'approche une conguration o l'on associerait des cots de mauvais classement aux aectations (cf. [3], page 4)
Page: 9 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
10
Fig. 1.1.
P (COEU R = /AN GIN E = 0) = 0.8 En vertu du principe bayesien, nous adoptons la rgle suivante :
valuation
Maintenant que nous avons un modle de prdiction COEU R = f (AN GIN E), il faut en valuer les performances. Pour cela, nous confrontons les vraies valeurs de la variable dpendante avec celles prdites par le modle. Dans notre feuille Excel (Figure 1.2), la colonne "Prdiction" correspond aux valeurs prdites par le modle, nous utilisons simplement une fonction "SI(...)" s'appuyant sur la colonne ANGINE. "Erreur" correspond la fonction . Elle prend la valeur 1 lorsque la prdiction errone, 0 autrement. Dans la partie basse de la feuille, nous comptons le nombre d'erreurs de prdiction : 5 individus ont t mal classs. Nous en dduisons le taux d'erreur resub =
5 20
pris au hasard dans la population, nous avons 25% de chances de faire une prdiction errone. A l'inverse, nous avons 75% de chances de faire une prdiction correcte. Attention, il s'agit bien d'une erreur en resubstitution puisque le modle a t labor (dans notre cas, les probabilits conditionnelles ont t calcules) partir des mmes donnes. Les performances annonces sont donc sujettes caution, surtout pour un modle construit sur un eectif aussi faible.
Page: 10
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
11
Fig. 1.2.
12
P (Y = yk /X) =
Dans le cas deux classes, nous devons comparer simplement P (Y = +/X) et P (Y = /X). Formonsen le rapport,
(1.1)
Si
4. Je me rappelle d'une discussion anime avec un ami qui soutenait que la rgression logistique est une rgression non-linaire. Oui, eectivement il a raison, c'est une rgression non-linaire parce que la fonction de transfert est non linaire, la fonction logistique en l'occurrence. C'est un point de vue que l'on retrouve souvent en statistique ou en conomtrie. En revanche, pour sparer les positifs et les ngatifs, elle construit une frontire linaire, base sur une combinaison linaire des variables. C'est en ce sens qu'on parle d'un classieur linaire. On retrouve volontiers ce point de vue en reconnaissance des formes.
Page: 12 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
13
est facile estimer ds lors que l'chantillon est issu d'un tirage alatoire dans
n+ n .
la population, indpendamment des classes d'appartenance des individus. Il sut de prendre le rapport entre le nombre d'observations positives et ngatives Et quand bien mme l'chantillon serait issu d'un tirage deux niveaux on parle de tirage rtrospectif (ou "donnes cas-tmoin" lorsque l'on xe l'avance le nombre d'observations positives et ngatives que l'on souhaite obtenir, on procde alors par tirage alatoire dans chaque groupe (voir [3], page 5 ; [9], pages 205 210 ; [23], pages 431 434) il est possible de procder des redressements si l'on connat par ailleurs la vraie valeur de la prvalence p = P (Y = +) (voir [2], pages 67 et 68, ou [3], pages 79 et 80, pour une prsentation rapide ; [9], chapitre 6, pour une prsentation plus dtaille et l'tude d'autres schmas d'chantillonnage). Le vritable enjeu rside donc dans l'estimation du rapport de probabilit logistique introduit l'hypothse fondamentale suivante :
P (X/Y =+) P (X/Y =) .
La rgression
[ ln
] P (X/Y = +) = b0 + b1 X1 + + bJ XJ P (X/Y = )
(1.2)
Cette hypothse couvre une large palette de lois de distribution des donnes ([2], page 64 ) : La loi normale (comme pour l'analyse discriminante) ; Les lois exponentielles ; Les lois discrtes ; Les lois Beta, les lois Gamma et les lois de Poisson ; Un mlange de variables explicatives binaires (0/1) et continues, cette proprit est trs importante car elle rend oprationnelle la rgression logistique dans de trs nombreuses congurations. Contrairement l'Analyse Discriminante Linaire, que l'on qualie de mthode paramtrique car on met une hypothse sur les distributions respectives de P (X/Y = +) et P (X/Y = ) (loi normale),
rgression logistique est une mthode semi-paramtrique car l'hypothse porte uniquement sur
le rapport de ces probabilits. Elle est moins restrictive. Son champ d'action est donc thoriquement plus large # .
la
5. En thorie seulement. En pratique, ces deux mthodes prsentent souvent des performances similaires (voir [7], chapitre 7, en particulier la section 7.1.5, page 145 ; [21], page 480 ; [8], pages 103 105). Entre autres parce qu'elles induisent un sparateur linaire dans l'espace de reprsentation ([8], chapitre 4, pages 79 113). La rgression logistique ne se dmarque vraiment que lorsque l'une des hypothses de l'Analyse Discriminante Linaire, l'homoscdasticit, est trs fortement remise en cause. Toujours selon ce mme point de vue, lorsque les classes ne sont pas linairement sparables dans l'espace de reprsentation, la rgression logistique, tout comme l'analyse discriminante linaire, ne nous est d'aucun secours.
Page: 13 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
14
(1.3)
P (Y =+/X) P (Y =/X)
exprime un
odds
individu prsente un odds de 2, cela veut dire qu'il a 2 fois plus de chances d'tre positif que d'tre ngatif. Posons C(X) = a0 + a1 X1 + + aJ XJ , nous pouvons revenir sur avec la fonction logistique
(1.4) (1.5)
Fig. 1.3.
Fonction Logistique
> 1 Alors Y = +
Si > 0.5 Alors Y = + Elle peut tre aussi base simplement sur C(X) avec : Si C(X) > 0 Alors Y = +
Autres remarques,
Page: 14 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
15
C(X) et permettent tous deux de "scorer" les individus, et par l de les classer selon leur propension tre "positif". Cette fonctionnalit est trs utilise dans le ciblage marketing par exemple. On parle de "scoring". Sauf que reprsente une probabilit, avec les proprits inhrentes une probabilit, entres autres
P (Y = +/X) + P (Y = /X) = 1.
D'autres fonctions de transformation existent. Si on utilise la fonction de rpartition normale par exemple, on parle de modle PROBIT (voir [23], page 395). Comme nous avions pu le dire dj plus haut, la fonction de transfert logistique est non linaire (Figure 1.3), c'est en ce sens que l'on qualie la rgression logistique de rgression non-linaire dans la littrature.
[ ln
Les deux formulations (quations 1.2 et 1.3) sont identiques une constante prs
] p a0 = ln + b0 1p
Il faudra s'en souvenir lorsque les donnes sont issues d'un mode d'chantillonnage autre que le tirage alatoire simple (schma de mlange) dans la population.
Y est une variable binaire dnie dans {+, }, (ou {1, 0} pour simplier les critures). Pour un
individu , on modlise la probabilit l'aide de la loi binomiale B(1, ), avec
(1.6)
date/time: 21-Jun-2011/16:10
16
Vraisemblance
La vraisemblance (en anglais
()y() (1 ())(1y())
(1.7)
L=
y (1 )(1y)
N'oublions pas que la vraisemblance correspond la probabilit d'obtenir l'chantillon partir d'un tirage dans la population. Elle varie donc entre 0 et 1. La mthode du maximum de vraisemblance consiste produire les paramtres a = (a0 , a1 , . . . , aJ ) de la rgression logistique qui rendent maximum la probabilit d'observer cet chantillon [11] (page 81).
Log-vraisemblance
Pour faciliter les manipulations, on prfre souvent travailler sur la log-vraisemblance (log-likelihood )
LL =
y ln + (1 y) ln(1 )
(1.8)
que celui qui maximise la log-vraisemblance. Cette dernire en revanche varie entre et 0. Puisque a est un estimateur du maximum de vraisemblance, il en possde toutes les proprits : 1. Il est asymptotiquement sans biais ; 2. Il est de variance minimale ; 3. Il est asymptotiquement gaussien. Ces lments, notamment le dernier, seront trs importants pour l'infrence statistique (intervalle de conance, test de signicativit, etc.).
Page: 16
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
17
Dviance
Bien souvent, on utilise la quantit
DM = 2LL = 2 LL
appele dviance [9] (page 13) (ou dviance rsiduelle, en anglais
(1.9)
logiciels tels que R) (DM ). Contrairement la log-vraisemblance, elle est positive. L'objectif de l'algorithme d'optimisation est de minimiser cette dviance. On peut faire le parallle avec la somme des carrs des rsidus de la rgression linaire multiple. La
compose de la constate correspondrait alors la somme des carrs totaux [10] (pages 20 27). Dans certains ouvrages, on dnit la dviance D de manire plus gnrique (cf. [9], page 13 ; [23], page 405 ; [7], page 115) :
D = 2 ln
] L(Mod`le satur) e e ) L(Mod`le tudi e e e = 2 LL(Mod`le tudi) [2 LL(Mod`le satur)] e e e e e = DM [2 LL(Mod`le satur)] e e ( ) ( )] [ 1 = 2 y ln + (1 y) ln y 1y
Un modle satur pour des donnes individuelles $ est un modle reconstituant parfaitement les valeurs de la variable dpendante c.--d. () = y(). Sa vraisemblance est gale 1 (quation 1.4), et sa log vraisemblance 0 (quation 1.8). Dans ce contexte, D = DM .
Optimisation
Bonne nouvelle, la log-vraisemblance est une fonction convexe. Il existe donc une solution unique
a. Mauvaise nouvelle, il n'existe pas de solution analytique. Il faut passer par des heuristiques. Ce qui
explique que l'on obtienne parfois des rsultats dirents d'un logiciel l'autre : le rsultat obtenu dpend de l'algorithme utilis, du paramtrage adopt, et parfois mme des choix d'implmentation de l'informaticien. Ces dirences droutent le nophyte. En ralit, il n'y aucune raison de s'en inquiter si on connat un peu la technique. Les divergences entre les logiciels ne doivent nous alerter que si elles sont trop importantes. Plusieurs techniques d'optimisation existent, les logiciels s'appuient souvent sur l'algorithme de Newton-Raphson [23] (pages 398 400) ou de ses variantes (ex. Fisher Scoring). Nous en reparlerons en dtail plus loin (section 1.5). Cet aspect est trs important. En eet, il peut inuencer les rsultats, il explique galement les ventuels plantages des logiciels (ah ! le fameux "a marche pas !").
6. A distinguer de la situation de "covariate pattern" o plusieurs observations, dont certaines sont positives, d'autres ngatives, partagent la mme description [9] (page 144). C'est le cas lorsque les donnes sont issues d'exprimentations ou lorsque les variables explicatives sont toutes catgorielles [1] (pages 91 97). On parle aussi de situation de donnes groupes [23] (pages 434 438). Le modle satur correspond alors au modle o l'on aura tenu compte de toutes les interactions possibles entre les variables explicatives. Pour une tude plus approfondie, voir le chapitre 9.
Page: 17 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
18
Fig. 1.4.
Dans un premier temps, nous devons prparer la feuille Excel (Figure 1.4) : En F3..I3, nous introduisons les valeurs de dpart des coecients, le solveur a besoin de cette initialisation, elle nous permet galement de vrier l'intgrit de la feuille de calcul. Nous mettons, au hasard & , a = (1.0, 0.0, 0.0, 1.0). En colonnes B, C, D et E, nous avons le jeu de donnes. En F, nous plaons la variable Y recode en 0/1. Nous calculons alors C(X). Pour le premire observation, nous avons C(X) = 1.0 + 0.0 50 + 0.0
0.8808.
7. A propos de l'utilisation du solveur, des sites de cours en ligne sont rfrencs sur ma page consacre Excel : http://eric.univ-lyon2.fr/~ricco/cours/cours_excel.html 8. L'initialisation est faite au hasard. En thorie, n'importe quelle valeur conviendrait. En pratique, on a intrt mettre des valeurs proches de la solution dnitive. A dfaut, on conseille gnralement de tenter plusieurs valeurs de dpart.
Page: 18 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
19
La fraction de la log-vraisemblance correspondante est gale LL = y ln() + (1 y) ln(1 ) = Il ne nous reste plus qu' calculer la dviance DM = 2LL = 2(0.12690.3133 . . . ) = 42.6671. Nous pouvons actionner le solveur ce stade. Nous souhaitons minimiser la cellule cible I28 contenant l'expression de la dviance. Les cellules variables sont celles contenant les paramtres de la rgression logistique, savoir les cellules F3 I3. Il n'y a pas de contraintes dans cette optimisation.
Fig. 1.5.
Nous obtenons une nouvelle version de la feuille de calcul la sortie (Figure 1.5). La dviance est passe DM = 16.6117. Les valeurs des paramtres qui ont permis de l'obtenir sont
Page: 19
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
20
ai+1 = ai
LL a.a
LL a
(1.10)
9. A ce propos, le logiciel libre, open source, est une garantie de transparence qui nous donne l'opportunit d'inspecter le code source et de comprendre les divergences entre les logiciels, voire entre les versions du mme logiciel ! A dfaut, nous sommes condamns subir le bon vouloir des diteurs.
Page: 20 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
21
LL a
[y() ()] xj ()
Lorsque la solution a t trouve c.--d. le vecteur a permettant d'optimiser LL est obtenu, toutes les composantes du vecteur gradient sont gales 0. C'est tout fait normal. On cherche un optimum dans un espace convexe. La solution annule la drive premire par rapport aux paramtres .
dite
matrice hessienne.
inverse correspond la matrice des variances covariances des coecients, prcieuse lors de l'infrence statistique (tests et intervalle de conance).
H(j1 , j2 ) =
(1.12)
Il est parfois plus commode de passer par une notation matricielle, nous pouvons crire
H(a) = X V X
o V est une matrice diagonale de taille (n n) compose de () (1 ()).
(1.13)
10. Rappelons-nous les exercices d'optimisation d'quations du second degr (une parabole). La dmarche consiste calculer la drive premire, qui est une quation du premier degr, puis de l'annuler. L'ide est grosso modo la mme ici.
Page: 21 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
22
de rfrence est le modle qui n'utilise pas les informations en provenance des variables indpendantes Xj . On parle galement de classieur par dfaut (en anglais default classier ). En rgression logistique, il correspond au modle M0 (on parle galement de "modle initial", de "modle trivial" ; en anglais null model ) n'incluant que la constante a0 .
Dans ce qui suit, nous montrons (1) comment estimer directement le paramtre a0 du modle rduit la simple constante, (2) comment obtenir la dviance sans avoir la calculer explicitement, (3) nous prsenterons alors plusieurs indicateurs, de type P seudo R2 , bass sur la comparaison des dviances respectives du modle tudi (DM ) et du modle par dfaut (D0 ).
] LOGIT (M0 ) = ln = a0 1
Nous ne tenons pas compte des variables explicatives Xj . De fait :
p P (X/Y = +) = 1 1 p P (X/Y = ) p = 1p
On devine aisment
l'estimation a0 de la rgression
p 1p ] [ n+ = ln n [ ]
a0 = ln
Le nombre de positifs n+ et ngatifs n dans l'chantillon sut pour estimer le paramtre du modle trivial. Pour prdire la probabilit a posteriori pour un individu d'tre positif (), nous utilisons simplement la proportion des positifs p =
n+ n
Page: 22
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
23
LL0 = =
D0 = 2 LL0
COEU R = f ()
- Estimation directe
Reprenons l'exemple du chier COEUR (Figure 0.1). Nous y observons n+ = 6 observations positives parmi n = 20. Nous obtenons directement : Le nombre de ngatifs n = 20 6 = 14 La proportion de positifs p =
6 20
= 0.3 [
n+ n
= ln
6 14
COEU R = f ()
- Estimation usuelle
Par curiosit, nous souhaitons vrier si les rsultats de l'estimation directe concordent avec ceux de la procdure usuelle. Nous reprenons notre feuille Excel (Figure 1.4). Nous la modions en 2 temps : (1) nous annulons les coecients associs aux variables explicatives c.--d. a1 = a2 = a3 = 0 ; (2) nous lanons le solveur en spciant uniquement a0 (cellule F3) en cellule variable. Les rsultats (Figure 1.6) sont totalement cohrents avec l'approche directe : l'estimation a0 = 0.8473 et la dviance D0 = 24.4346. Ce qui est plutt encourageant. Le calcul direct nous pargne une optimisation complique. Nous remarquerons galement que () = p = 0.3, .
Page: 23
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
24
Fig. 1.6.
Indicateur
R2 de McFadden
Formule
2 RM F = 1 LLM LL0
Valeur Min/Max et Commentaires Min = 0 si LLM = LL0 , on ne fait pas mieux que le modle trivial. Max = 1 si LLM = 0, notre modle est parfait. L'analogie avec le R2 de la rgression linaire multiple est totale
= 0.3199
Snell
L0 LM
)2
R2 de Nagelkerke
2 RN =
2 RCS 2 max[RCS ]
2 Min = 0. Max si LM = 1, avec RCS = 1 4.94104 20 = 0.3235 2.4610 2 [ 2 ] (n) max RCS = 1 L0 . L'indicateur n'est pas normalis, c'est un peu gnant. 2 0.3235 Min = 0. Max = 1. C'est une RN = 0.7053 = 0.4587 simple normalisation du R2 de Cox and Snell.
Tableau 1.1.
LM avec celle du modle trivial L0 . Ils quantient la contribution des descripteurs dans l'explication de
Page: 24
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
25
Grosso modo, il s'agit de vrier si notre modle fait mieux que le modle trivial
Plusieurs formes de pseudo-R2 sont proposs dans la littrature, nous en distinguons quelques uns (Tableau 1.1) (voir [23], page 407 ; [9], page 166). Les R2 de Mac Fadden et de Nagelkerke sont les plus simples apprhender : lorsque la rgression ne sert rien, les variables explicatives n'expliquent rien, l'indicateur vaut 0 ; lorsque la rgression est
2 parfaite, l'indicateur vaut 1. Menard ([10], page 27) suggre que le RM F de McFadden est le plus adapt
la rgression logistique : il est le plus proche conceptuellement du coecient de dtermination de la rgression linaire multiple ; il n'est pas sensible des modications de la proportion de positifs dans le chier d'apprentissage.
2 Dans notre exemple, avec RM F = 0.3199, il semble que notre modle se dmarque du modle trivial.
On ne saurait pas dire en revanche si l'apport est signicatif ou non, nous en saurons d'avantage lorsque nous aborderons l'valuation statistique (Chapitre 3).
Page: 25
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 26
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2 valuation de la rgression
Maintenant que nous avons construit un modle de prdiction, il faut en valuer l'ecacit. Nous pouvons le faire de direntes manires :
Confronter les valeurs observes de la variable dpendante Y () avec les prdictions Y ().
Comparer les vraies valeurs avec celles prdites par le modle . En eet, n'oublions pas que la rgression logistique sait fournir une bonne approximation de cette quantit [16]. Elle peut se rvler trs utile lorsque nous souhaitons classer les individus selon leurs degrs de positivit ou introduire d'autres calculs ultrieurement (ex. intgrer les cots de mauvais classement). Dans ce chapitre, nous nous consacrons ce que l'on appellerait des mthodes d'valuation externes , bases sur les prdictions y () et/ou les probabilits a posteriori () fournies par le classieur. A aucun moment nous n'exploitons des informations spciques (internes) la rgression logistique (logvraisemblance). De fait, les
techniques et ratios prsents dans ce chapitre peuvent s'appliquer tout classieur issu d'un processus d'apprentissage supervis, pourvu qu'il sache fournir y()
courbe ROC par exemple), ne soient pas plus utilises par ailleurs.
et () (ex. analyse discriminante, arbres de dcision, rseaux de neurones, etc.). On s'tonne d'ailleurs que certaines procdures, trs populaires dans le cadre de la rgression logistique (la construction de la
Page: 27
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
28
2 valuation de la rgression
Y Y + + a c a+c b d b+d
Total
a+b c+d n=a+b+c+d
Total
Tableau 2.1.
d'apprhender la quantit de l'erreur (le taux d'erreur) et de rendre compte de la structure de l'erreur (la manire de se tromper du modle). Dans un problme 2 classes (+ vs. -), partir de la forme gnrique de la matrice de confusion (Tableau 2.1), plusieurs indicateurs peuvent tre dduits pour rendre compte de la concordance entre les valeurs observes et les valeurs prdites (voir [10], pages 27 36). Nous nous concentrons sur les ratios suivants : a sont les vrais positifs c.--d. les observations qui ont t classes positives et qui le sont rellement. c sont les
faux positifs c.--d. les individus classs positifs et qui sont ralit des ngatifs.
de la mme manire, b sont les faux ngatifs et d sont les vrais ngatifs. Mais ces termes sont peu utiliss en pratique car les positifs et les ngatifs n'ont pas le mme statut dans la majorit des tudes (ex. les positifs sont les fraudeurs que l'on cherche isoler ; les positifs sont les personnes atteintes d'une maladie que l'on chercher dtecter ; etc.). Le
taux d'erreur est gal au nombre de mauvais classement rapport l'eectif total c.--d.
=
=
La sensibilit (ou le rappel, ou encore le taux retrouver les positifs La
a+d =1 n
prcision
a a+b indique la proportion de vrais positifs parmi les individus qui ont t classs positifs Se = Sensibilit = T V P = rappel = e precision = a a+c
Elle estime la probabilit d'un individu d'tre rellement positif lorsque le modle le classe comme tel. Dans certains domaines, on parle de La
1. Il faut tre prcis sur les terminologies. Chez certains auteurs, validation externe correspond une valuation du modle sur un chantillon part, dit chantillon test, n'ayant pas particip la construction du modle ([9], pages 186 188).
Page: 28 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
29
c = 1 Spcicit e e c+d La F-Mesure est trs utilise en recherche d'information. Elle synthtise (moyenne harmonique) le
rappel et la prcision, l'importance accorde l'une ou l'autre est paramtrable avec
F =
Lorsque
* = 1 est la valeur usuelle, on accorde la mme importance au rappel et la prcision, la F-Mesure devient
F=1 =
* < 1, on accorde plus d'importance la prcision par rapport au rappel. Une valeur frquemment utilise est = 0.5, on accorde deux fois plus d'importance la prcision. * > 1, on accorde plus d'importance au rappel par rapport la prcision. Une valeur frquemment rencontre est = 2. La F-Mesure est une moyenne harmonique entre le rappel et la prcision, en eet nous pouvons l'crire de la manire suivante
F =
o 2 =
1 .
1 1 1 precision + (1 ) rappel
30
2 valuation de la rgression
Tous deux partagent une proprit importante : ils ne dpendent pas du schma d'chantillonnage. Mme si l'chantillon n'est pas reprsentatif c.--d. la proportion des positifs (resp. des ngatifs) ne rete pas la probabilit d'tre positif (resp. ngatif), la sensibilit et la spcicit n'en sont pas aect. Tout simplement parce que nous utilisons le "prol-ligne" de la matrice de confusion. Lorsque nous travaillons sur des donnes o la proportion des positifs a t xe arbitrairement (schma d'chantillonnage rtrospectif), cette proprit est prcieuse car elle nous vite d'avoir procder des redressements prilleux. Enn, pour couronner le tout, la grande majorit des indicateurs d'valuation des classieurs peuvent s'crire en fonction de la sensibilit et la spcicit. Dans ce qui suit, nous r-crivons quelques indicateurs dcrits prcdemment de manire faire
ressortir la synthse entre sensibilit et spcicit. Nous proposerons aussi d'autres indicateurs moins connus en apprentissage automatique.
Taux d'erreur
La probabilit de mal classer peut tre dcompose de la manire suivante :
nous
Nous retrouvons l'expression du taux d'erreur issu de la matrice de confusion ci-dessus. 2. L'chantillon n'est pas reprsentatif mais nous disposons par ailleurs de la vraie valeur de p (connaissances du domaines, tudes prcdentes, etc.). Nous formons
a d ) + (1 p) (1 ) a+b c+d Les estimations de la sensibilit et de la spcicit partir de la matrice de confusion restent valables = p (1
parce que ce sont des "prols lignes" du tableau, ils ne dpendent pas de la proportion des positifs et ngatifs dans le chier.
Page: 30 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
31
Taux de succs
Le taux de succs est le complmentaire 1 du taux d'erreur, nous pouvons naturellement l'crire en fonction de Se et Sp
= 1 = 1 [p (1 Se ) + (1 p) (1 Sp )] = p Se + (1 p) Sp
Prcision
Toujours en partant de la dnition probabiliste, la prcision (valeur prdictive positive) peut s'crire
V PP =
p Se p Se + (1 p) (1 Sp )
Indice de Youden
L'indice de Youden est bien connue en biostatistique, moins en apprentissage supervis. Il s'crit
IY = Se + Sp 1
(2.1)
Son mrite est de caractriser le classieur selon la sensibilit et la spcicit. Il prend la valeur maximum 1 lorsque le modle est parfait. En eet, dans ce cas Se = 1 et Sp = 1. Il peut tre utilis pour comparer les performances de plusieurs modles. Son interprtation n'est pas trs vidente en revanche. C'est le principal frein son utilisation.
Rapport de vraisemblance
Le rapport de vraisemblance dcrit le surcrot de chances des positifs (par rapport aux ngatifs) d'tre classs positifs. Sa dnition est la suivante :
L= =
1 P (Y = /Y = ) Se = 1 Sp
Le rapport de vraisemblance ne dpend pas de la proportion des positifs. Il donne donc des indications valables mme si l'chantillon n'est pas reprsentatif. Plus grande est sa valeur, meilleur sera le modle.
Page: 31 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
32
2 valuation de la rgression
Fig. 2.1.
0.60 =7
Page: 32
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
33
En termes de performances, nous constatons que le modle issu de la rgression logistique semble (pourquoi cette prudence ? nous verrons pourquoi plus loin, section 2.1.5) meilleur que le prcdent bas sur les probabilit conditionnelles P (COEU R/AN GIN E) qui prsentait un taux d'erreur gal 0.25 (Figure 1.2).
yk = arg max P [Y () = yk ]
k
La rgle de dcision du classieur par dfaut est donc trs simple : on aecte, pour tout individu classer, la modalit majoritaire dans l'chantillon d'apprentissage. Pour le chier COEUR, sachant que la proportion des "prsence (+)" est (-)"
14 20 . 6 20
aecter systmatiquement la conclusion "absence" tous les individus que l'on souhaite classer. La matrice de confusion du classieur par dfaut est facile construire
Y Y +
Total Et le taux d'erreur associ est
+ 0 0 0
6 14 20
Total
6 14 20
(def ) =
6 = 0.3 20
Page: 33
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
34
2 valuation de la rgression
(M ) =
4 20
6 20
= 0.3.
(M ) (def )
2 Si notre modle est parfait, avec un taux d'erreur nul, nous obtenons R = 1 ; si notre modle ne sait 2 pas faire mieux que le classieur par dfaut, nous avons R = 0.
Elle est note p cause de sa similitude avec le de Goodman et Kruskal (1954) - une mesure d'association pour les tableaux de contingence - dans certains ouvrages [10] (page 32). Son inconvnient est qu'elle peut prendre des valeurs ngatives lorsque le modle tudi est moins bon que le modle par dfaut. Cette conguration arrive principalement lorsque les classes sont trs dsquilibres dans le chier de donnes. Le taux d'erreur du classieur par dfaut est d'oce trs faible, il est dicile de faire mieux. C'est une des critiques que l'on adresse la matrice de confusion en tant qu'outil d'valuation d'ailleurs. Pour nous, ce n'est pas rdhibitoire. Il faut en tre conscient simplement et ne pas pousser des hauts cris parce qu'on obtient quelque chose que l'on dsigne par R2 et qui s'avre tre ngatif. Pour le chier COEUR, le pseudo-R2 est
2 R = 1
d=
(def ) (M )
1 n (def ) (1
(def ) )
(2.2)
Page: 34
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
35
Elle suit une loi binomiale, mais elle se rapproche trs rapidement de loi normale centre rduite ds
R.C. : d > u1
O u1 est le fractile d'ordre 1 de la loi normale centre est rduite. Voyons ce qu'il en est pour notre exemple COEUR, la formation de la statistique ne pose aucun problme, nous avons
d=
0.3 0.2
Mance. Ce test a le mrite d'exister, mais c'est bien son seul mrite. En eet, on se rend compte
l'usage que la moindre dirence entre les taux d'erreur est quasi-systmatiquement entrine pour peu que la taille du chier dpasse la centaine d'observations (dans le data mining, on traite souvent des chiers avec plusieurs milliers voire centaines de milliers d'observations !). Elle est systmatiquement rfute sur des petits chantillons (notre chier COEUR). Ses indications sont nalement trs peu utilisables. Mieux vaut s'en tenir des indicateurs simples tel que le pseudo-R2 qui donne avant tout un ordre d'ides sur la pertinence du modle.
2.1.5 Subdivision "apprentissage - test" des donnes pour une valuation plus able
Le modle issu de la rgression logistique avec les 3 variables (resub = 0.2) semble meilleur que celui bas uniquement sur "angine" (resub = 0.25) si l'on se rfre au taux d'erreur en resubstitution. Faut-il s'en tenir cela ? Non, car nous utilisons les mmes donnes pour construire le modle et pour l'valuer. Or, dans ce contexte, les classieurs plus complexes ayant tendance "coller" aux donnes laissent penser, tort, qu'ils prsentent de meilleures performances. En rgle gnrale, plus une observation pse sur son
le taux d'erreur en resubstitution est totalement inutilisable ds lors que l'on souhaite comparer les performances de modles de complexit dirente (ou reposant sur des reprsentations direntes ex. arbre de dcision vs. rgression logistique).
propre classement en gnralisation, plus optimiste sera le taux d'erreur en resubstitution. Bref,
Parmi les solutions envisageables, la plus simple consiste valuer le classieur sur des donnes part qui n'ont pas particip au processus d'apprentissage. Nous procdons de la manire suivante lorsque l'on dispose d'un chantillon de taille n : 1. Nous tirons au hasard na individus parmi n, il s'agit de l'chantillon d'apprentissage, nous les utilisons pour construire le modle de prdiction Ma . On ddie gnralement 70% des donnes l'apprentissage. Mais ce n'est pas aussi simple, nous en rediscuterons plus loin.
Page: 35 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
36
2 valuation de la rgression
la matrice de confusion en confrontant les valeurs observes et les valeurs prdites. Habituellement,
=1
na n
= 30%.
Principal atout de cette approche, les indicateurs ainsi obtenus sont non-biaiss. Ils permettent de comparer les mrites respectifs de plusieurs modles, mme s'ils sont de complexit dirente, mme s'ils ne reposent pas sur des systmes de reprsentation identiques (ex. un classieur linaire vs. un classieur non linaire). C'est la dmarche privilgier si l'on dispose de susamment d'observations. Et c'est bien l le principal dfaut de cette dmarche. Lorsque nous travaillons sur un petit chantillon, en rserver une partie pour l'valuation pnalise la construction du modle, sans pour autant que l'on ait une valuation able des performances puisque l'eectif est trop faible. Nous sommes face 2 exigences contradictoires : Rserver une grande partie des donnes l'apprentissage favorise la construction d'un modle de bonne qualit. En revanche, l'chantillon test sera trop rduit pour esprer obtenir une estimation viable des performances en prdiction. Rserver une fraction plus forte au test permet certes d'obtenir une valuation able. Mais dans ce cas nous nous tirons une balle dans le pied (ae !) car le modle labor peut tre dgrad faute d'informations (d'observations) susantes. Bref, les proportions habituellement mises en avant (70% vs. 30%) ne doivent pas tre prises au pied de la lettre. Tout est aaire de compromis : il en faut susamment pour l'apprentissage an de produire un modle consistant ; il en faut susamment pour le test an d'obtenir une valuation able des performances. Les "bonnes" proportions dpendent souvent des caractristiques du classieur et des donnes analyses (rapport entre le nombre d'observations et le nombre de variables, degr de dicult du concept apprendre, etc.).
faibles, nous avons intrt construire le modle M sur la totalit des donnes, puis utiliser des techniques de r-chantillonnage pour en mesurer les performances (ex. la validation croise, le bootstrap). L'intrt est double. Nous utilisons la totalit des donnes (la totalit de l'information disponible) pour construire le classieur. Et nous pouvons obtenir une valuation (plus ou moins) faiblement biaise de son erreur de prdiction [17].
37
le chier. Le classement dans le groupe le plus important est toujours favoris. Par exemple, si nous avons 99% de positifs, nous avons intrt classer systmatiquement les observations dans cette classe, nous avons la garantie que le taux d'erreur sera gal 1%. On pourrait penser alors que construire un classieur dans ce contexte ne sert rien.
Ici galement, si nous en avons la possibilit, nous avons tout intrt construire le diagramme partir des donnes tests n'ayant pas particip l'laboration du classieur. Les indications obtenues n'en seront que plus crdibles. Voici les principales tapes de la construction du diagramme de abilit : 1. Appliquer le classieur sur les donnes pour obtenir le score (). 2. Trier le chier selon le score croissant. 3. Sur la base du score, subdiviser les donnes en intervalles (ex. 0.0-0.2, 0.2-0.4, etc.). 4. Dans chaque intervalle, calculer la proportion de positifs. 5. Dans le mme temps, toujours dans chaque intervalle, calculer la moyenne des scores. 6. Si les chires concordent dans chaque intervalle, les scores sont bien calibrs, le classieur est de bonne qualit. 7. Nous pouvons rsumer l'information dans un graphique 8.
abilit, avec en abcisse la moyenne des scores, en ordonne la proportion de "positifs". Si les scores sont bien calibrs, les points devraient tre aligns sur une droite, la premire bissectrice.
9. Les points s'cartant sensiblement de la premire bissectrice doivent attirer notre attention.
38
2 valuation de la rgression
Fig. 2.2.
Le tableau a t tri selon un le score croissant. Dans le 1er groupe, avec un score variant entre 0.00 et 0.33 c.--d. de l'observation no 1 au no 12, la proportion de "+" est gale
0.0164+0.0362++0.2134 12 1 12
Nous faisons de mme pour les autres groupes, nous obtenons le diagramme de abilit (Figure 2.3).
Fig. 2.3.
Manifestement, il y a un problme dans notre rgression. Les points ne sont pas aligns du tout. Mais on ne devrait pas trop s'en tonner. Les eectifs sont tellement faibles (n = 20) qu'il pouvait dicilement
Page: 38
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
39
en tre autrement. Les rsultats sont de mauvaise qualit. Le classieur est certainement trs instable de
Fig. 2.4.
De nouveau, nous reproduisons les tapes permettant d'obtenir le diagramme de abilit (Figure 2.4, nous ne visualisons que les 40 premires observations ici) : Nous avons estim les paramtres du modle l'aide de Tanagra, nous obtenons les valeurs suivantes (Remarque : nous ignorons pour l'instant les autres informations)
Page: 39
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
40
2 valuation de la rgression
Variable Constante Age Rev.Tete Prof.Indep Nb.Prob Coecient
Propritaire 0.1491
Nous calculons alors le LOGIT pour chaque individu. Pour la premire observation, nous avons
1 = 0.0001 1 + e(9.3699) Une fois calcul tous les scores, et le tableau tri, nous dcidons de procder un dcoupage en 4 (1) =
intervalles, dnies par 0.00 0.25, 0.26 0.50, etc . Dans chaque intervalle nous comptabilisons la proportion de positifs et, dans le mme temps, nous calculons la moyenne des scores (nous avons utilis les tableaux croiss dynamiques pour cela). Il ne reste plus qu' produire le diagramme de abilit. Concernant le chier CREDIT, nous constatons que le modle produit une bonne estimation des quantits (), les points sont quasiment aligns sur une droite.
2. Attention, le nombre d'intervalles est dterminant dans cette procdure. Nous avons toujours intrt xer un nombre assez faible de manire obtenir un bon "lissage" de la courbe. S'il est trop lev, la courbe devient chaotique, trs peu utilisable et laissant penser que les classieurs sont toujours de mauvaise qualit
Page: 40 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
41
mg0 , le nombre de ngatifs observs ; mg1 = g (), la somme des scores des observations situes dans le groupe g . On la dsigne comme la frquence thorique des positifs dans le groupe ; g1 =
mg1 mg ,
mg0 = mg mg1 , la frquence thorique des ngatifs. 5. Nous calculons alors la statistique de Hosmer et Lemeshow en utilisant une des formules suivantes ([23], page 407 ; [9], page 148)
C=
(mg0 mg0 )2 mg1 mg0 g [ ] mg (mg1 mg1 )2 = mg1 (mg mg1 ) g + = (mg1 mg1 )2
g
[ (mg1 mg1 )2
]
(2.3) (2.4) (2.5)
mg1 (1 g1 )
6. Lorsque le modle est correct (H0 ), la statistique C suit approximativement une loi du 2 (G 2)
degrs de libert. 7. Lorsque la probabilit critique du test (p-value) est plus grand que le risque choisi, le modle issu de la rgression logistique est accept. 8. Les rserves usuelles concernant ce type de test restent de mise ici. Il faudrait entres autres que tous les eectifs thoriques soient suprieurs 5 dans toutes les cases du tableau. Si ce n'est pas le cas, on devrait procder des regroupements et corriger en consquence les degrs de libert. Mais il ne faut pas non plus s'arc-bouter cette ide. Il s'agit d'un outil d'valuation du classieur, il donne avant tout une indication sur la qualit des () [9] (page 150). 9. Enn, au del de la statistique elle-mme, l'tude du tableau de calcul, en particulier la dtection des situations o les eectifs observs et thoriques sont fortement dissemblables, donnent des indications prcieuses sur le comportement du classieur [9] (page 151). Nous nous rapprochons en cela une tude qualitative dj mise en avant lors de la prsentation du diagramme de abilit.
Remarque : Hosmer et Lemeshow sur un chantillon test. Tout comme pour la matrice de
confusion, nous pouvons subdiviser les donnes en 2 parties : la premire pour construire le modle, la seconde pour l'valuer. La procdure de Hosmer et Lemeshow peut tre labore sur ce second chantillon. La statistique de test reste identique, les degrs de libert en revanche sont modis puisqu'aucun paramtre n'a t estim sur ces donnes (voir [9], pages 186 188 ; d'autres statistiques sont proposes, toujours dans le contexte d'une valuation sur un chantillon test).
42
2 valuation de la rgression
Nous avons dj obtenu prcdemment, lors de l'tude du diagramme de abilit, la colonne de score
et tri le chier (Figure 2.4). Il ne nous reste plus qu' constituer les groupes en nous basant sur les dciles (G = 10). Nous devrions obtenir les mmes eectifs mg = prs, tout dpend s'il y a des ex-aequo ou non).
100 10
Fig. 2.5.
La feuille de calcul est construite comme suit (Figure 2.5, l'achage est limit aux 37 premires observations) : Tout d'abord, nous calculons les dciles. Le 1er dcile est gal 0.271, le 2nd 0.6249. Nous vrions le nombre d'observations dans chaque groupe, nous avons bien mg = 10, g puisque
n = 100.
Dans chaque groupe, nous comptons le nombre de positifs et de ngatifs. Pour le 1er groupe par exemple, nous avons m11 = 2 et m10 = 10 2 = 8. Puis nous calculons les eectifs esprs en faisant la somme des scores dans le groupe. Pour le 1er groupe, nous avons m11 = 0.0001 + 0.0044 + 0.0195 + + 0.2828 = 1.1985. Nous en dduisons
Page: 42
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
43
[ C=
Les degrs de libert tant gales G 2 = 10 2 = 8, nous obtenons une p-value de 0.4503 avec la loi du 2 . La p-value est suprieure au risque usuel de 5%. Le modle est valid, il est compatible avec les donnes.
Fig. 2.6.
Il faut pouvoir quantier cette impression visuelle. Pour ce faire, un test de comparaison de populations semble appropri. L'objectif est de rpondre la question : "est-ce que les positifs ont des scores (signicativement) plus levs que les ngatifs ?". cadre de l'apprentissage supervis, il
Page: 43
celui que l'on retient le plus souvent dans la littrature. Pour direntes raisons [18] (page 34). Dans le
job: regression_logistique
date/time: 21-Jun-2011/16:10
44
2 valuation de la rgression
AUC (Area Under Curve) associ la courbe ROC que nous prsenterons plus loin (section 2.5)
[23] (pages 410-411). A dfaut, nous aurions pu utiliser tout autre test permettant de caractriser un dcalage entre les paramtres de localisation des distributions. Rappelons brivement les formules associes ce test : 1. A partir des scores (), nous calculons le rang des r() des individus dans l'ensemble de l'chantillon, sans distinction de classes. 2. Nous calculons alors les sommes conditionnelles de rangs, pour les positifs
r+ =
et pour les ngatifs
:y()=1
r()
r =
3. Nous en dduisons les statistiques
:y()=0
r()
U + = r+
et
n+ (n+ + 1) 2
U = r
n (n + 1) 2
U = min(U+ , U )
5. Sous H0 , les distributions sont confondues, la statistique centre et rduite Z suit une loi normale
N (0, 1) Z= U
1 12 (n+ n+ n 2
+ n + 1)n+ n
6. Il s'agit usuellement d'un test bilatral. Mais en vrit on imagine mal que les positifs puissent prsenter des scores signicativement plus faibles que les ngatifs. Ou alors, il faudrait prendre le complmentaire 1 des valeurs produites par le classieur.
Deux types de corrections peuvent tre introduites pour prciser les rsultats dans certaines circonstances : une correction de continuit lorsque les eectifs sont faibles ; une correction du dnominateur de la statistique centre et rduite lorsqu'il y a des ex-aequo, on utilise habituellement les rangs moyens [18] (pages 40 et 41-44).
Page: 44
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
45
Fig. 2.7.
= 8, U+ = 97 8
6.14 2
6(6+1) 2
= 76, et U = min(U+ , U ) = 8.
Z=
1 12 (6.14
= 2.8043
+ 1)6.14
Nous obtenons la probabilit critique du test avec la loi de rpartition normale centre et rduite p-value = 0.0050. Au risque usuel de 5%, nous concluons que les distributions conditionnelles des scores sont dcales.
46
2 valuation de la rgression
Fig. 2.8.
Nous en drivons le graphique des distributions conditionnelles. Il y a manifestement un dcalage, notamment pour les valeurs leves du score o les positifs sont sur-reprsents. Passons maintenant au calcul de la statistique de Mann-Whitney. Les donnes ont t tries selon un score croissant. La colonne "Rang" prend les valeurs 1, 2, 3, . . . , n. Nous ralisons la somme des rangs pour chaque catgorie, toujours l'aide de l'outil "Tableaux croiss dynamiques" d'Excel. Nous obtenons r = 721 et r+ = 4329. Nous en drivons U = 721
27(27+1 2
= 343 et U+ = 4329
73(73+1 2
= 1628
Z=
343
1 12 (73.27
73.27 2
+1)73.27
= 4.9884
Nous obtenons ainsi une p-value < 0.0001. Les distributions sont eectivement dcales. Les scores permettent de distinguer les positifs des ngatifs.
Page: 46
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
47
score dcroissant.
3. Considrons qu'il n'y a pas d'ex-aequo. Chaque valeur du score peut tre potentiellement un seuil s. Pour toutes les observations dont le score est suprieur ou gal s, les individus dans la partie haute du tableau, nous pouvons comptabiliser le nombre de positifs n+ (s) et le nombre de ngatifs n (s). Nous en dduisons T V P =
n+ (s) n+
et T F P =
n (s) n .
4. La courbe ROC correspond au graphique nuage de points qui relie les couples (TVP, TFP). Le premier point est forcment (0, 0), le dernier est (1, 1). Deux situations extrmes peuvent survenir. La discrimination est parfaite. Tous les positifs sont situs devant les ngatifs, la courbe ROC est colle aux extrmits Ouest et Nord du repre (Figure 2.9, A). Les scores sont totalement inoprants, le classieur attribuent des valeurs au hasard, dans ce cas les positifs et les ngatifs sont mlangs. La courbe ROC se confond avec la premire bissectrice (Figure 2.9, B).
3. Voir A. Renaud, Statistique Epidmiologique, Collection "Que Sais-Je", PUF, 1986 ; pages 103 109.
Page: 47 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
48
2 valuation de la rgression
Fig. 2.9.
un ngatif. Ainsi, dans le cas d'une discrimination parfaite, les positifs sont srs d'tre placs devant les
ngatifs, nous avons AU C = 1. A contrario, si le classieur attribue des scores au hasard, il y a autant de chances de placer un positif devant un ngatif que l'inverse, la courbe ROC se confond avec la premire bissectrice, nous avons AU C = 0.5. C'est la situation de rfrence, notre classieur doit faire mieux. On propose gnralement dirents paliers pour donner un ordre d'ides sur la qualit de la discrimination [9] (page 162) (Tableau 2.2).
Pas de discrimination.
0.7 AU C < 0.8 Discrimination acceptable 0.8 AU C < 0.9 Discrimination excellente AU C 0.9
Tableau 2.2.
Discrimination exceptionnelle
Pour calculer l'AUC, nous pouvons utiliser une bte intgration numrique, la mthode des trapzes par exemple. Nous verrons plus loin que sa valeur peut tre obtenue autrement, en faisant le parallle avec le test de Mann-Whitney. Au nal, il apparat que le critre AUC est un rsum trs commode. Il permet, entre autres, les comparaisons rapides entre les classieurs. Mais il est vident que si l'on souhaite analyser nement leur comportement, rien ne vaut la courbe ROC.
Page: 48
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
49
Fig. 2.10.
Nous savons qu'il y a n+ = 6 positifs et n = 14 ngatifs dans le chier. Nous avons calcul la colonne des scores y (), puis nous avons tri le tableau selon le score dcrois sant. Nous insrons arbitrairement le couple (0, 0). Il y a 1 individu ayant un score suprieur ou gal 0.8789. Il est positif, soit n+ (0.8789) = 1 et
T V P1 =
1 6
0 14
= 0.0000.
Prenons le cas de l'individu n 4 avec un score de 0.5815. Il a 4 observations avec un score plus grand que ce seuil, avec n+ (0.5815) = 3 et T V P4 =
n (0.5815) = 1 et T F P4 =
1 14
= 0.0714.
En procdant ainsi, nous obtenons l'ensemble des points. Il est d'usage d'ajouter la premire bissectrice dans le graphique pour que l'on se rende compte visuellement de l'cartement de la courbe ROC par rapport la situation de rfrence (Figure 2.11). Passons maintenant au calcul de l'AUC. Nous utilisons la mthode des trapzes, une technique d'intgration numrique. On peut toujours discuter de sa prcision par rapport d'autres approches, elle sut amplement dans notre contexte. Pour calculer la surface du tuyaux d'orgue entre les individus conscutifs
i 1 et i, nous utilisons
Page: 49 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
50
2 valuation de la rgression
Fig. 2.11.
si = (T F Pi T F Pi1 )
Nous faisons la somme AU C =
i=1 si
Dans notre exemple (Figure 2.12), nous calculons les si successif. Par exemple, pour i = 3, nous avons
s3 = (0.0714 0.0000)
0.3333+0.3333 2
Fig. 2.12.
Page: 50
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
51
Nous avons 90.5% de chances de placer un positif devant un ngatif en "scorant" avec notre classieur, comparer avec les 50% de la situation de rfrence. Ce rsultat est plutt encourageant. On pouvait facilement le deviner d'ailleurs en observant le graphique (Figure 2.11). La courbe s'carte sensiblement de la premire bissectrice. Elle semble indiquer - avec les rserves toujours de mise tant que nous valuons notre modle sur les donnes d'apprentissage - que notre modle est plutt exceptionnel (cf. Tableau 2.2) avec des estimations () discriminatoires. Ce que ne laissait pas entendre le taux d'erreur en resubstitution de resub = 0.2 issu de la matrice de confusion, bas uniquement sur les prdictions y ().
AU C =
U+ n+ n
(2.6)
Reprenons notre exemple COEUR, le tableau de calcul de la statistique de Mann-Whitney (Figure 2.7) nous fournit U+ = 76. Lorsque nous formons l'expression ci-dessus, nous retrouvons AU C = est eectivement possible d'obtenir directement l'AUC via la statistique de Mann-Whitney.
76 614
0.9048. Exactement la valeur de l'aire sous la courbe obtenue par la mthode de trapze (Figure 2.12). Il
retrie-
sommes face deux exigences contradictoires : nous aimerions retrouver une fraction leve des positifs potentiels (rappel) ; nous aimerions que la cible ne contienne que des positifs (prcision). La courbe traduit l'arbitrage entre ces deux critres lorsque l'on fait varier le seuil d'aectation s. Elle est conceptuellement proche de la courbe ROC. Pour chaque valeur de s, nous formons (virtuellement) la matrice de confusion et nous calculons les deux indicateurs. Il y a quand mme une dirence trs importante. La prcision tant un "prol-colonne" de la matrice de confusion, il faut donc travailler sur un chantillon reprsentatif (la proportion des positifs
n+ n
sitif p) pour pouvoir l'exploiter convenablement. Si cette condition est respecte, elle parat plus adapte que la courbe ROC lorsque les classes sont trs dsquilibres (la proportion des positifs est trs faible), notamment pour direncier le comportement des algorithmes d'apprentissage supervis. Pour laborer la courbe rappel-prcision, nous procdons comme suit : 1. Calculer le score de chaque individu.
Page: 51 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
52
2 valuation de la rgression
2. Trier les donnes selon un score dcroissant. 3. Mettons qu'il n'y a pas d'ex-aequo, chaque valeur du score est un seuil potentiel s. Pour les individus situs dans la partie haute du tableau c.--d. dont le score est suprieur ou gal s, il s'agit de la cible, nous comptabilisons le nombre de positifs n+ (s) et le nombre total d'observations n(s). 4. Nous en dduisons le rappel(s) =
n+ (s) n+
et la prcision precision(s) =
n+ (s) n(s) .
Dans les parties hautes du tableau, lorsque le seuil est lev, la taille de la cible sera rduite. La prcision sera forte, dans la cible ne seront prsents que des positifs ; mais le rappel sera faible, une faible fraction de l'ensemble des positifs y sont inclus. A mesure que s diminue, la taille de la cible augmente, elle sera de plus en plus pollue (la prcision diminue) mais intgrera une plus grande fraction des positifs (le rappel augmente). La courbe est donc globalement dcroissante, mais elle n'est pas forcment monotone.
Fig. 2.13.
Nous reprenons le chier COEUR. La structure du tableau de calcul est trs similaire celle de la courbe ROC. Les donnes sont tries selon dcroissant (Figure 2.13) : Il y a n+ = 6 positifs et n = 14 ngatifs. Pour le seuil s = 0.8789, la cible contient un seul individu n(s) = 1 et c'est un positif. Nous avons
rappel =
1 6
= 0.1667 et precision =
2 2
1 1
= 1.
2 6
En passant au second individu, qui est toujours un positif, nous obtenons rappel =
= 0.3333 et
precision =
Page: 52
= 1.
macro: svmono.cls date/time: 21-Jun-2011/16:10
job: regression_logistique
53
= 1 et
precision =
6 20
= 0.3.
Nous obtenons ainsi tous les points qui composent la courbe (Figure 2.14).
Fig. 2.14.
Page: 53
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 54
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
H0 : aj = 0
Ce test de signicativit est systmatiquement donn par les logiciels. Nous verrons plus loin que seule une de ses formes (test de Wald) est en ralit propose. L'autre (test du rapport de vraisemblance) est passe sous silence. Or ces approches ne se comportent pas de la mme manire. Il faut le savoir pour interprter les rsultats en connaissance de cause. 2. valuer la contribution d'un bloc de "q" variables. Sans restreindre la gnralit du propos (les coecients tester ne sont pas forcment conscutifs dans la rgression), nous crirons H0 de la manire suivante
H0 : aj = aj+1 = = aj+q = 0
On ne peut pas le transformer en une succession de tests individuels. En eet, les coecients ne sont pas indpendants (en tous les cas, ils ont une covariance non-nulle). Il faut bien tester la nullit simultane des q coecients. 3. valuer l'apport de l'ensemble des variables explicatives. Nous avons ici une formulation statistique du problme abord lors de la dnition des pseudo-R2 (section 1.6) .
H0 : a1 = a2 = = aJ = 0
Il s'agit d'une valuation globale de la rgression. En eet, si l'hypothse nulle est compatible avec les donnes, cela signierait qu'aucun des descripteurs ne contribue l'explication de la variable dpendante. Le modle peut tre jet aux orties.
Page: 55
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
56
H0 : M a = 0
o M est une matrice de contrastes indpendants m lignes et J +1 colonnes, de rang m. La procdure et les formules sont un peu complexes, mais nous pouvons valuer tout type de conguration ([23], page 421 ; [7], page 90).
hrence avec la dmarche d'estimation des paramtres. Elle est puissante c.--d. elle dtecte mieux l'hypothse alternative lorsqu'elle est vraie. L'inconvnient est qu'elle est plus gourmande en ressources machines : chaque hypothse valuer donne lieu une nouvelle estimation des paramtres, donc un processus d'optimisation. Certes les logiciels et les ordinateurs actuels sont trs performants. Il reste que le surcrot de calcul n'est pas ngligeable lorsque nous traitons de grandes bases de donnes. 2. S'appuyer sur la normalit asymptotique des estimateurs (du maximum de vraisemblance). On parle de test de Wald. Le principal avantage est que les informations que l'on souhaite exploiter sont toutes disponibles l'issue de l'estimation du modle complet, incluant l'ensemble des variables. L'obtention des rsultats est donc immdiate. L'inconvnient est que le test de Wald est conservateur. Il a tendance favoriser l'hypothse nulle. Dans ce chapitre, nous prsentons tour tour ces deux dmarches pour les congurations numres ci-dessus. Nous confronterons les rsultats sur le chier COEUR. Vu la trs faible taille du chier, n = 20, nous xerons le risque de premire espce 10%.
Mr et Ms ([9], pages 36 40 ; [10], page 22). Mr comporte r variables, avec donc r + 1 paramtres
estimer (le nombre de degrs de libert du modle est gal [n (r + 1) = n r 1]) ; Ms en comporte
s (s < r), avec pour contrainte, et c'est pour cela qu'on parle de modles embots, qu'elles se retrouvent
toutes dans Mr . La statistique de test s'crit :
Page: 56 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
57
(3.1)
o L(M ) reprsente la vraisemblance du modle. Sous H0 , les coecients des variables supplmentaires que l'on retrouve dans Mr sont tous nuls, LR suit une loi du 2 (r s) degrs de libert [7] (page 114). L'expression ci-dessus peut se dcliner sous plusieurs formes
LR = 2 ln
o LL(M ) est la log-vraisemblance, D la dviance. Quelques remarques : 1. LR 0, plus on rajoute de variables dans la rgression, mmes non pertinentes, plus faible sera la dviance . 2. Dans les tests qui nous intressent (section 3.1.1), le modle Mr correspond au modle complet intgrant les J variables explicatives. Pour le chier COEUR, la dviance du modle est gale
DM = 16.618.
Page: 57
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
58
Fig. 3.1.
Fig. 3.2.
59
Le rapport de vraisemblance est gal LR = 21.7422 16.6177 = 5.1245. Avec une loi du 2 2 degrs Au risque 10%, les donnes ne sont pas compatibles avec l'hypothse nulle a1 = a2 = 0 c.--d. on ne peut pas conclure la nullit simultane des 2 coecients.
Remarque :
Nous ne montrons pas les calculs mais, dans cet exemple, le rejet de l'hypothse nulle
est avant tout conscutif la signicativit individuelle du coecient de TAUX MAX (LR = 3.0840, p-value pour 2 (1) gale 0.079067). Il arrive parfois que tous les coecients pris individuellement soient non signicatifs. En revanche, lorsque l'on teste leur nullit simultane, on est amen rejeter l'hypothse nulle.
Fig. 3.3.
Notons que les logiciels proposent toujours, d'une manire ou d'une autre, ce test pour valuer le modle. Dans Tanagra, le tableau libert 3, et la p-value 0.0500 (Figure 3.3). Le logiciel R, lui, fournit la
Model Chi2 test (LR) fournit la statistique LR = 7.8169, le degr de null deviance, la dviance du modle trivial, de 24.435 avec (n 1 = 19) degrs de libert ; et la dviance du modle tudi, residual deviance, de 16.618 avec (n 3 1 = 16) degrs de libert. En calculant l'cart entre ces quantits, nous
retrouvons le test de signicativit globale (Figure 3.4).
1. Nous pouvons faire l'analogie avec la somme des carrs des rsidus en rgression linaire multiple.
Page: 59 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
60
Fig. 3.4.
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
Les estimateurs du maximum de vraisemblance sont asymptotiquement normaux. Par consquent, lorsque les eectifs sont assez levs, le vecteur a suit une loi normale multidimensionnelle. Il importe tout d'abord de dterminer l'expression de sa matrice de variance covariance. Nous pourrons par la suite dcliner les dirents tests de signicativit (section 3.1.1).
3.3.1 Matrice de variance-covariance des coecients Matrice Hessienne. Lors de la description de l'algorithme d'optimisation de Newton-Raphson, nous
avons dni une matrice des drives partielles secondes, dite matrice hessienne (section 1.5). Nous en reprenons l'expression matricielle ici
H = X V X
O X est la matrice des donnes, la premire colonne correspondant la constante. Elle est de dimension n (J + 1). Pour les donnes COEUR (Figure 0.1), les valeurs s'crivent
1 X =. . . 1
1 50 126 1 49 . . . 126 . . .
0 . . . 49 171 0
V est une matrice diagonale de taille n n, compose des valeurs de () (1 ()), les probabilits () tant obtenues aprs estimation des paramtres. En reprenant les valeurs issues des calculs (Figure
1.5), nous avons (1) = 0.8798, (2) = 0.5815, (3) = 0.3922, . . . , (20) = 0.0737), et par consquent
V =
0 0 0.2384 . . . ...
0 . . . 0.0683 0
Page: 60
job: regression_logistique
date/time: 21-Jun-2011/16:10
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
Ainsi, nous pouvons former la matrice hessienne H de taille (J + 1) (J + 1),
61
130.24 6615.41 19211.02 34.59 H= 386.30 19211.02 57709.57 94.12 0.65 34.59 94.12 0.65
2.61
130.24
386.30 0.65
Matrice de variance covariance des coecients. L'aaire devient intressante lorsque l'on sait que l'inverse de la matrice hessienne correspond la matrice de variance covariance des coecients
estims. En particulier, nous obtenons les variances des coecients sur la diagonale principale.
= H 1
Dans notre exemple COEUR, la matrice qui en rsulte est
(3.2)
1.0563
Test de Wald.
gistique ; nous savons qu'il suit une loi normale multidimensionnelle ; nous disposons de la matrice de variance covariance associe. Tout est en place pour que nous puissions raliser les dirents tests de signicativit. Ils sont regroups sous l'appellation test de Wald ([7], pages 90 et 113 ; [23], page 421).
Wj =
a2 j 2 aj
(3.3)
2 O aj est la variance du coecient aj , lue sur la diagonale principale de la matrice de variance covariance de coecients .
Dans notre exemple du chier COEUR, puisque nous avons les valeurs des coecients et la matrice de variance covariance associe, nous pouvons raliser le test que nous rsumons dans le tableau suivant.
Page: 61
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
62
p-value 0.0684
a0 a1 a2 a3
0.1805 0.1161
0.2370
Fig. 3.5.
A titre de comparaison, nous reproduisons les sorties du logiciel Tanagra (Figure 3.5). Nous obtenons les mmes valeurs, la dirence que Tanagra ache plutt les carts-type estims aj . Et il ne ralise pas le test de signicativit de la constante. Le logiciel R, lui, propose la statistique Zj (Figure 3.6) la place de Wj , avec
Zj =
aj = signe(j ) Wj N (0, 1) a j
Fig. 3.6.
Zj peut prendre des valeurs ngatives. Le test tant bilatral, nous retrouvons exactement les mmes
probabilits critiques (p-value) qu'avec la statistique de Wald Wj .
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
aj u1/2 aj u1/2 est le fractile d'ordre 1 90%, avec u0.95 = 1.6449.
Coecient
2
63
(3.4)
Pour notre chier COEUR, nous calculons les intervalles des coecients au niveau de conance 1 =
aj 14.494
-0.126
aj Borne basse Borne haute 7.9546 0.0938 0.0404 1.5045 1.41 0.28 0.13 0.70 27.58 0.03 0.00 4.25
a0 a1 a2 a3
0.064 1.779
Remarque : Il est possible de construire un intervalle de conance bas sur le rapport de vraisemblance [7] (page 91). Nous n'en avons pas fait mention dans la section prcdente tout simplement parce que la formulation est complique, pas vraiment utilise dans la pratique car peu dcisive par rapport l'intervalle de Wald, et de ce fait non implmente dans les logiciels ( ma connaissance).
(3.5)
o a(q) est le sous-vecteur des valeurs observes des coecients que l'on souhaite tester ; (q) est la
sous-matrice de variance covariance associe ces coecients. Rien ne vaut un petit exemple pour prciser tout cela. Nous souhaitons, pour le chier COEUR, tester la nullit simultane des coecients rattachs AGE et TAUX MAX. L'hypothse nulle s'crit :
H0 : a1 = a2 = 0
Sous une forme vectorielle
H0 :
Le vecteur des coecients estims est gal
( ) a1 a2
( ) 0 0
a(2) =
( ) a1 a2
( =
) 0.126 0.064
date/time: 21-Jun-2011/16:10
Page: 63
job: regression_logistique
macro: svmono.cls
64
( 1 (2) =
) 0.126 0.064
Avec une loi du 2 2 degrs de libert, nous obtenons une p-value = 0.1454. Au risque 10%, nous ne pouvons pas rejeter l'hypothse nulle. Nos donnes sont compatibles avec l'hypothse de nullit simultane des coecients a1 et a2 . Ce rsultat est en contradiction avec celui du test de rapport de vraisemblance. Nous y reviendrons par la suite.
H0 : a1 = a2 = = aJ = 0
Attention, la constante a0 ne doit pas tre prise en compte dans cette procdure. Le test de Wald ici correspond une simple gnralisation du prcdent. La statistique W(J) suit une loi du 2 J degrs de libert sous H0 . Elle s'crit
(3.6)
2. La situation est facilite par le fait que les coecients sont conscutifs dans notre exemple. Mais nous pouvons appliquer ce test en toute gnralit, pour toute combinaison de coecients, qu'ils soient conscutifs ou non.
Page: 64 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
a1 0.126 = a2 = 0.064 a3 1.779
65
a(3)
(3)
( ) W(3) = 0.126 0.064 1.779 35.73 622.89 1.48 0.064 2.36 1.48 0.49 1.779 = 4.762
Avec un loi du 2 3 degrs de libert, nous obtenons une p-value de 0.1900. Manifestement, au risque 10%, l'hypothse nulle ne peut pas tre rejete. Le modle n'est pas globalement signicatif. Comme le prcdent (tester simultanment "ge" et "taux max"), ce rsultat contredit celui du rapport de vraisemblance.
0.126
H0 : M a = 0
o M est une matrice de dimension [m (J + 1)] de rang m ; a tant de dimension (J + 1) 1, n'oublions pas la constante. La statistique de test s'crit alors ([23], page 421 ; voir [7], page 90 pour une criture quivalente) :
]1 [ Ma W(M ) = a M M M
Elle suit une loi du 2 m degrs de libert. Pour le chier COEUR, voici l'criture de la matrice M pour les direntes congurations.
Page: 65 job: regression_logistique macro: svmono.cls
(3.7)
date/time: 21-Jun-2011/16:10
66
H0 : a1 = 0 H0 : a1 = a2 = 0 H0 :
= 0 a 0 1 a2 = 0 H0 : a1 = a2 = a3 = 0 H0 : a3 0 a2
( ) a1
( ) 0
0001
Application au test H0 : a1 = a2 = 0
Fig. 3.7.
Curieux comme nous sommes, voyons si les rsultats concordent si nous utilisons la forme gnrique. Nous avons une feuille Excel dont voici la teneur (Figure 3.7) : La matrice M pour ce test s'crit
( M=
0100 0010
( M M =
) ( 0.0004 0.0413 1 0 = 0.0088 0.0004 0.0016 0.0030 0 1 0.0004 0.0016 0.0030 2.2634 00
1.0563
00
( (M M ) 1 =
Page: 66
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
3.3 Tests fonds sur la normalit asymptotique des coecients - Tests de Wald
0.0126 Nous disposons des paramtres estims a = 0.064 1.779 Nous calculons 14.494 ) ( ) ( 0.126 0 1 0 0 0.0126 = Ma = 0.064 0 0 1 0 0.064 1.779
Nous disposons de toutes les informations ncessaires la formation de la statistique de test ( )( ) ( ) 114.974 28.577 0.126 W(M ) = 0.126 0.064 = 3.8565 28.577 618.411 0.064 Exactement la valeur obtenue avec la mthode directe (section 3.2.3).
67
14.494
Le nombre de degr de libert est m = 2 (nombre de lignes de la matrice M). Nous obtenons une p-value de 0.1454.
H0 :
( ) a3 a1
( =
1.5 2 a2
a3 = 1.5 a1 = 2 a2
( (
a3 = 1.5 a1 2 a2 = 0
) 1.5 + 0 a1 + 0 a2 + 1 a3 = 0 0 + 1 a1 + (2) a2 + 0 a3 = 0 ( )
M=
1.5 0 0 1 0 1 2 0
Nous introduisons ces valeurs dans la feuille Excel (Figure 3.8). Le rsultat est immdiat, nous obtenons
W(M ) = 2.8292, avec une p-value de 0.2430 pour un 2 (2). Au risque 5%, les donnes sont compatibles
avec l'hypothse nulle.
Page: 67 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
68
Fig. 3.8.
Rapp. de Vraisemblance
Test de Wald
Accep. H0 , p-value = 0.1156 Accep. H0 , p-value = 0.1805 Rejet H0 , p-value = 0.0499 Accep. H0 , p-value = 0.1900
Signif. "ge" et "taux max" Rejet H0 , p-value = 0.0771 Accep. H0 , p-value = 0.1454
Nous retrouvons dans ces rsultats les comportements que l'on attribue gnralement ces tests dans la littrature, savoir : 1. Concernant le test du rapport de vraisemblance Il est plus puissant. Il dtecte mieux l'hypothse alternative lorsque cela est justi. Il est revanche plus gourmand en ressources car il impose de recalculer le modle sous la contrainte de l'hypothse nulle. Encore une fois, le problme ne se pose vritablement que lorsque nous avons traiter une grande base de donnes. 2. Concernant le test de Wald Il est moins puissant, plus conservateur. Il favorise l'hypothse nulle H0 . C'est agrant dans nos rsultats sur le chier COEUR, H0 n'a jamais t rejete quel que soit le test mis en place. Lorsque la valeur du coecient est lev, l'estimation de l'cart type gone exagrment. De nouveau H0 est favoris lors des tests individuels, cela nous emmne supprimer tort des variables importantes du modle. Il repose sur des proprits asymptotiques de l'estimateur. Il est par consquent peu prcis lorsque nous traitons de petits eectifs comme c'est le cas pour le chier COEUR.
Page: 68
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
69
Accordons lui quand mme une qualit, il est peu gourmand en ressources. Nous travaillons partir des rsultats fournis par la rgression sur la totalit des variables, sans avoir produire des calculs supplmentaires compliqus (une inversion de matrice quand mme, ce n'est jamais anodin). Pour mettre tout le monde d'accord, lorsque les eectifs sont importants, les deux procdures fournissent des rsultats cohrents [7] (page 91).
Page: 69
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 70
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie II
Page: 71
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 72
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Un des principaux objectifs de l'apprentissage supervis est de fournir un systme de classement qui, pour un nouvel individu quelconque issu de la population (ex. un nouveau client pour une banque, un malade qui arrive au service des urgences, etc.), fournit une prdiction y ( ). Avec exactitude si possible. La rgression logistique sait faire cela. Mais, la dirence d'autres mthodes, elle peut fournir en plus un indicateur de abilit de la prdiction avec une estimation de la probabilit ( ). Ainsi, lorsque
est proche de 1 ou de 0, la prdiction est plutt sre ; lorsqu'elle prend une valeur intermdiaire, proche
du seuil d'aectation s (s = 0.5 habituellement), la prdiction est moins assure. Dans les domaines o les consquences des mauvaises aectations peuvent tre dramatiques (dans le domaine de la sant par exemple), on pourrait mme imaginer un systme qui ne classe qu' coup (presque) sr du type : Si s1 Alors y = Si s2 Alors y = +, avec s2 s1 bien entendu. Sinon, indtermination. On demande des analyses complmentaires ou on prsente le sujet un expert. Obtenir une estimation et une indication sur sa prcision nous est donc fort utile. Dans ce chapitre, nous montrons comment calculer pour un nouvel individu classer, puis nous tudierons la construction d'un intervalle (fourchette) de prdiction. Ce dernier point constitue aussi une avance considrable par rapport aux d'autres mthodes supervise. Nous disposons d'une indication sur la plage de valeurs crdibles de .
c(x( )) = a0 + a1 x1 ( ) + + aJ xJ ( )
(4.1)
Si nous adoptons une criture matricielle, avec x( ) = (1, x1 ( )), . . . , xJ ( )) la description de l'individu classer et a = (0 , a1 , . . . , aJ ) le vecteur des paramtres estims, nous crivons a
Page: 73 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
74
de l'individu, soit
( ) =
1 c 1 + e
(4.2)
(4.3)
Application aux donnes COEUR. Rappelons que le vecteur estim des paramtres de la rgression est a = (14.4937, 0.1526, 0.0636, 1.7790) (Figure 1.5). Nous souhaitons classer un nouvel individu avec AGE = 35, TAUX MAX = 156, et ANGINE = 1. Nous ralisons la succession de calculs suivante : c = 14.4937 0.1526 35 0.0636 156 + 1.7790 1 = 1.9601 =
1 1+e1.9601
= 0.8765
y = prsence e La prdiction est correcte. En eet il s'agit de l'individu no 6 dans notre tableau de donnes (Figure 0.1), il est positif ("prsence").
c V () =
a x2 V (j ) + j
2xj xk COV (j , ak ) a
(4.4)
c V () = xx
(4.5)
On reconnat dans l'expression ci-dessus l'estimation de la variance covariance des coecients estims.
75
(4.6)
Reprenons notre exemple COEUR ci-dessus. Nous souhaitons calculer l'intervalle de conance
de ( ) au niveau (1 ) = 90%. D'ores et dj, nous savons que u0.95 = 1.6449. Concernant la matrice de variance covariance des paramtres estims, elle a dj t calcule par ailleurs (section 3.3.1)
1.0563
1.0563
c =
4.5689 = 2.1375
Nous pouvons produire les bornes basses (c1 ) et hautes (c2 ) du LOGIT pour l'individu classer :
76
Fig. 4.1.
Page: 76
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Dans certains domaines, l'explication est bien plus importante que la prdiction . On souhaite comprendre les phnomnes de causalit, mettre jour les relations de cause eet. Bien entendu, les techniques statistiques n'ont pas vocation rpondre mcaniquement des problmes complexes. En revanche, elles ont pour rle de donner aux experts les indications adquates pour qu'ils puissent se concentrer sur les informations importantes. La rgression logistique propose des outils qui permettent d'interprter les rsultats sous forme de risques, de chances, de rapports de chances. C'est certainement une des raisons pour laquelle elle a gagn les faveurs d'un large public d'utilisateurs. Un signe qui ne trompe pas, une large documentation est ddie l'interprtation des sorties de la rgression logistique dans les ouvrages qui font rfrence ([9], chapitre 3 ; [10], chapitre 3).
Fig. 5.1.
Pour illustrer notre propos, nous utiliserons un tableau de contingence issu du chier COEUR, il croise la variable dpendante coeur (avoir une maladie cardiaque ou pas +/-) avec la variable explicative
1. Par exemple, dans le domaine de la sant, on cherche certes dtecter automatiquement les personnes qui dveloppent une maladie particulire, mais il est peut tre plus important que l'on comprenne pourquoi ils la dveloppent pour qu'on puisse l'anticiper. On distingue ainsi l'analyse "pronostic" vise prdictive de l'analyse "tiologique" vise explicative.
Page: 77 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
78
angine (groupe "expos" vs. groupe "tmoin" 1/0). Nous pouvons construire le tableau parce que les
deux variables ne sont pas continues. Nous adjoignons la copie d'cran les notations que nous utiliserons par la suite (Figure 5.1) .
Quelques dnitions Risque relatif. On appelle risque relatif le surcrot de chances d'tre positif du groupe expos par
rapport au groupe tmoin.
RR =
Nous l'interprtons de la manire suivante : les personnes qui ont une angine de poitrine ont 3 fois plus de chances que les autres (ceux qui n'en ont pas) de dvelopper une maladie cardiaque. Il caractrise un lien entre l'apparition de la maladie et l'occurrence de l'angine de poitrine. Lorsque RR = 1, cela veut dire que l'angine n'a pas d'incidence sur la maladie.
odds(1) =
Dans le groupe des personnes ayant une angine de poitrine, on a 1.5 fois plus de chances d'avoir une maladie cardiaque que de ne pas en avoir. Nous pouvons de la mme manire dnir l'odds dans le groupe tmoin odds(0).
Odds-ratio.
tmoin.
L'odds ratio est gal au rapport entre l'odds du groupe expos et l'odds du groupe
2. Pour une tude approfondie des indicateurs prsents dans cette section, notamment les dnitions, les estimations, les tests de signicativit et les intervalles de conance, voir [20], chapitre 5, pages 49 62.
Page: 78 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
79
ad bc 3 10 = 32 =6
L'OR indique peu prs la mme chose que le risque relatif, savoir : dans le groupe expos, on a 6 fois plus de chances d'avoir la maladie que dans le groupe tmoin. Il est toujours un peu gnant d'avoir deux formulations, avec des valeurs direntes, pour le mme concept. A priori, le risque relatif est l'indicateur le plus simple apprhender. Pourtant, on lui prfre souvent l'odds-ratio, principalement pour 2 raisons : 1. La prvalence, la probabilit a priori p d'tre positif, est souvent trs faible dans les tudes relles. Les malades sont rares, les fraudeurs ne sont pas lgion, etc. Dans ce cas, l'odds-ratio et le risque relatif prennent des valeurs similaires. En eet, lorsque a c alors a + c c ; de mme, lorsque b d alors
b + d d. Par consquent RR =
Fig. 5.2.
2. L'odds-ratio possde une proprit trs prcieuse, il est invariant par rapport au mode d'chantillonnage. Que l'on procde un tirage alatoire simple des donnes (schma de mlange) ou un tirage rtrospectif, il prsentera toujours la mme valeur. Voyons un exemple pour nous en persuader (Figure 5.2). Dans le premier cas (celui du haut), l'chantillon a t tir au hasard, nous obtenons les valeurs
RR = 3 et OR = 6. Dans le second cas (celui du bas), nous avons un tirage (presque) quilibr. Nous
avons choisi n+ = 6 individus au hasard parmi les positifs, n = 7 parmi les ngatifs. En calculant de nouveau nos indicateurs, nous avons RR = 1.8 et OR = 6. L'OR prend la mme valeur que
Page: 79 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
80
Log odds-ratio.
ln(OR) = ln
odds(1) odds(0) = ln(odds(1)) ln(odds(0)) P (Y = +/1) P (Y = +/0) = ln ln P (Y = /1) P (Y = /0) P (Y = +/1) P (Y = +/0) = ln ln 1 P (Y = +/1) 1 P (Y = +/0) = LOGIT (1) LOGIT (0)
D'ores et dj, sans rentrer dans les dtails, on constate que le log-odds ratio peut s'interprter comme un cart entre 2 LOGIT. Nous garderons l'esprit cette ide dans tout ce qui suit.
LOGIT = a0 + a1 X
L'interprtation des coecients dpend du type de la variable explicative X .
(5.1)
X = 1 LOGIT (1) = a0 + a1 1 = a0 + a1 X = 0 LOGIT (0) = a0 + a1 0 = a0 ln(OR) = LOGIT (1) LOGIT (0) = a1 OR = ea1
Page: 80
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
81
Fig. 5.3.
coeur = f (angine)
Reprenons notre exemple croisant coeur et angine, l'odds-ratio tait gal OR = 6 (Figure 5.1). Maintenant, nous ralisons une rgression logistique expliquant coeur avec angine comme seule variable explicative l'aide du logiciel Tanagra (Figure 5.3). Nous obtenons a1 = 1.791759. En prenant l'exponentielle, nous obtenons OR(angine) = e1.791759 = 6. Ainsi, la rgression logistique nous permet de mesurer directement le surcrot de risque associ un facteur explicatif binaire. Si aj < 0 OR < 1, il y a une diminution du risque ; si aj > 0 OR > 1, il y a une augmentation. Nous pouvons nous appuyer sur le mcanisme de formation des intervalles de conance des coefcients (section 3.3.3) pour obtenir ceux des odds-ratios. La grande majorit des logiciels fournissent automatiquement ce type de rsultat (Figure 5.3, avec un niveau de conance x automatiquement
95%).
Dtaillons les calculs puisque nous disposons de l'estimation du coecient et de son cart type. Pour un intervalle 95%, le fractile de la loi normale utilise est u0.975 = 1.96. Nous produisons les bornes de la manire suivante : 1. Borne basse
82
ln(OR) u1/2
1 1 1 1 + + + a b c d
(5.2)
calculons la quantit
Les rsultats concordent avec ceux obtenus l'aide de la rgression logistique. En eet, lorsque nous ( ) 1 1 1 1 1.25 = 1.1181 partir des donnes du tableau de contin3 + 3 + 2 + 12 =
gence (Figure 5.1), nous retrouvons la valeur a1 = 1.1181 de l'cart-type du coecient obtenue lors de la rgression (Figure 5.3).
La constante a0
Nous savons lire le coecient a1 , qu'en est-il de la constante ? X = 0 est la catgorie de rfrence, le groupe tmoin. Dans notre exemple, il s'agit des individus qui n'ont pas une angine de poitrine. Le LOGIT associ au cas X = 0 s'crit :
LOGIT (0) = a0 + a1 0 = a0
Dveloppons l'expression :
odds(0) =
Si nous prenons cette fois-ci les rsultats de la rgression logistique (Figure 5.3), nous trouvons a0 =
CQFD.
Page: 82 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
83
b a1 u1/2 b a1
Attention, la valeur de l'odds-ratio dpend de l'unit de mesure utilise. Prenons l'ge, si on la mesure en mois au lieu d'annes, une variation d'une unit n'a pas le mme eet sur la variable dpendante. Ce qui parat assez normal. L'outil doit tre manipul avec une grande prudence.
rapport la variable explicative. C'est une hypothse un peu forte. Prenons un exemple simple. Si
l'on veut tudier le risque d'apparition d'une maladie cardiaque, il est vident que passer de 10 ans 20 ans n'a pas la mme signication que de passer de 40 ans 50 ans.
dans les eets que l'on souhaite tester [9] (page 63).
Fig. 5.4.
Nous obtenons a1 = 0.062653, et par consquent ea1 = 0.9393. Lorsque le taux max augmente d'une
1 0.9393
job: regression_logistique
macro: svmono.cls
84
La constante a0
Ici galement, la constante peut tre comprise comme le log-odds lorsque X prend la valeur de rfrence
X = 0. Dans notre exemple coeur = f (taux max) c'est un peu gnant. En eet, lorsque taux max = 0,
cela veut simplement dire que la personne est morte, son coeur ne bat plus. Nous avons donc tout intrt centrer la variable pour obtenir une interprtation plus sduisante de la constante. C'est ce que nous avons fait, nous avons relanc la rgression logistique (Figure 5.5).
Fig. 5.5.
Premier constat, l'estimation de la pente a1 n'a pas t modie. C'tait attendu. L'odds ratio dpend uniquement des variations de X et non pas de la valeur de X . Que l'origine du repre soit 0 ou la moyenne, cela ne change rien l'aaire. Second constat, la constante a0 est, elle, tout fait dirente. Voyons comment nous pouvons la lire :
e1.010689 = 0.3640
Une personne prsentant un "taux max" moyen (dont le "taux max" est gal la moyenne de la population) a
1 0.3640
= 2.7475 fois plus de chances d'tre non malade (que d'tre malade).
5.2.3 Variable explicative qualitative nominale Calcul de l'odds-ratio partir d'un tableau de contingence
Il n'est pas possible d'introduire directement une variable qualitative L(L > 2) modalits dans la rgression logistique. Il faut la recoder. Du choix de codage dpend l'interprtation des coecients. Nous traitons un nouveau chier de n = 209 observations dans cette section. La variable dpendante est toujours la prsence/absence d'une maladie cardiaque (coeur). La variable explicative est "chest pain" (type douleur dans la poitrine) avec 4 modalits : "typ. angina" (code 1), "atyp. angina" (2), "asympt." (3) et "non anginal" (4).
Page: 84 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
85
les odds-ratio en revanche, nous devons dnir la catgorie de rfrence. Ils seront alors dnis en opposition cette situation de rfrence.
Former le tableau de contingence ne pose pas de problmes particuliers. Il en est de mme lors du
Attention, le choix de la modalit de rfrence est crucial pour l'interprtation. Il ne peut pas tre dissoci de l'analyse qualitative des rsultats que l'on veut mener par la suite. Dans notre exemple, admettons qu'il s'agisse de la dernire (non anginal - code 4). Nous aurons calculer L 1 = 4 1 = 3 odds-ratio. Nous rsumons cela dans une feuille de calcul (Figure 5.6).
Fig. 5.6.
4 2
type "typ. angina" ont 2.0 fois plus de chances d'avoir une maladie cardiaque (que de ne pas en avoir). De mme pour les autres catgorie, nous pouvons calculer : odds(2) = et odds(4) =
7 29
= 0.102 ; odds(3) =
75 27
= 2.778 ;
= 0.241.
odds(1) odds(4) 2.0 0.241
La 4eme catgorie reprsentant la situation de rfrence, nous calculons les 3 odds-ratio en l'opposant aux autres c.--d. OR(1/4) =
angina ont 8.286 fois plus de chances de dvelopper une maladie cardiaque que ceux qui prsentent une douleur de type non anginal " ; de mme, nous pouvons
produire OR(2/4) =
0.102 0.241
= 0.421 et OR(3/4) =
2.778 0.241
= 11.508.
Page: 85
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
86
Fig. 5.7.
Codage 0/1 - X = CHEST PAIN vs. X1 = TYP ANGINA, X2 = ATYP ANGINA, X3 = ASYMPT
Nous avons ralis la rgression logistique avec ces 3 nouvelles variables c.--d. Y = f (X1 , X2 , X3 ), Tanagra nous fournit une srie de rsultats (Figure 5.8) : La rgression est globalement signicative. Le test du rapport de vraisemblance montre que les coecients relatifs aux variables (a1 , a2 , a3 ) ne sont pas tous simultanment nuls (2 = 85.7164, et p-value < 0.0001). Un des coecients au moins est signicativement dirent de 0. Comme il n'y a que les variables recodes 0/1 de CHEST PAIN dans notre modle, cela indique (1) que CHEST PAIN a une incidence sur l'apparition de la maladie cardiaque ; (2) qu'il y a un surcrot (ou rduction) de risque signicatif associ au moins une des 3 modalits, par rapport la modalit de rfrence NON ANGINAL. Voyons le dtail des coecients justement (nous signalons par un astrisque les coecients signicatifs 5%) :
j 1 2 3
aj
Wald
Nous retrouvons les valeurs des odds-ratio calcules partir du tableau de contingence (Figure 5.6). De plus, nous savons maintenant quelles sont les situations o les surcrots (rductions) de risques sont signicatifs. En eet, si le coecient est signicativement dirent de 0, l'odds-ratio qui en est driv est signicativement dirent de 1. Nous n'avions pas cette information auparavant. Dans notre tableau ci-dessus, nous constatons que TYP ANGINA et ASYMPT se dmarquent signicativement de la situation de rfrence NON ANGINAL, pas ATYP ANGINA en revanche.
Page: 86 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
87
Fig. 5.8.
Ceci est conrm par le tableau des intervalles de conance 95% fourni par Tanagra dans la partie basse de la fentre de rsultats (Figure 5.8). L'odds-ratio est considr signicatif si l'intervalle ne contient pas la valeur 1. En conclusion, lorsque nous procdons un codage 0/1 simple,
La constante a0
A l'instar de la variable explicative binaire, la constante s'interprte comme le log-odds de la situation de rfrence (groupe tmoin). Dans notre exemple (Figure 5.8), a0 = 1.421386. Lorsque nous passons l'exponentielle, nous obtenons e1.421386 = 0.241, qui est bien la valeur de l'odds(4) obtenu partir du tableau de contingence (Figure 5.6).
88
ne doivent pas tre dissocies. Nous devons travailler en deux temps : (1) tester si les coecients des indicatrices sont simultanment nuls, nous valuons l'impact de la variable nominale sur la variable dpendante ; (2) une fois acquise la signicativit globale, regarder les modalits qui s'cartent de la situation de rfrence [10] (page 60). Un autre point de vue peut tre dfendu. Nous pouvons traiter individuellement les indicatrices. L'important est de bien en mesurer les consquences sur l'interprtation des rsultats. Si nous retirons uniquement l'indicatrice ATYP ANGINA du modle, et conservons les deux autres, cela veut dire que la situation de rfrence est maintenant compose des deux modalits {NON ANGINAL et ATYP ANGINA}. Les coecients des autres indicatrices s'interprtent comme des log odds-ratio par rapport cette nouvelle catgorie tmoin. Dans notre tableau de contingence (Figure 5.6), cela revient crer une nouvelle colonne de rfrence qui serait le fruit de la fusion des colonnes ATYP ANGINA et NON ANGINAL.
Fig. 5.9.
A titre de vrication, nous avons calcul les odds-ratio dans le tableau de contingence aprs fusion des modalits ATYP ANGINA et NON ANGINAL. Nous avons dans le mme temps calcul la rgression sur les indicatrices TYP ANGINA et ASYMPT (Figure 5.9). Les rsultats concordent, fort heureusement. Nous noterons surtout que les odds-ratios obtenus sont plus levs : la cration de la nouvelle situation de rfrence a permis de mieux caractriser le dcalage entre les modalits.
Page: 88
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
89
Fig. 5.10.
47 71
= 0.662 ; odds(2) =
31 36
= 0.861 ; odds(3) =
14 10
= 1.400.
L'interprtation est toujours la mme, par exemple, odds(3) = 1.4 signie qu'on a 1.4 fois plus de chances d'avoir une maladie cardiaque (que de ne pas en avoir) lorsqu'on a un SYSTOLIC de niveau TRES ELEVE. Venons-en l'odds-ratio maintenant. Dans le cas des variables ordinales, il se calcule par rapport la modalit prcdente. On quantie le surcrot de risque lors du passage d'un niveau au suivant. Nous n'avons pas le calculer pour NORMAL puisque c'est la modalit la plus basse. En revanche, pour le passage de NORMAL ELEVE, nous pouvons produire OR(2/1) =
odds(2) odds(1)
0.861 0.662
= 1.301. Nous
l'interprtons ainsi : en passant du SYSTOLIC NORMAL vers le niveau ELEVE, les individus ont 1.301 fois plus de chances de dvelopper une maladie cardiaque. De la mme manire, pour le passage de ELEVE TRES ELEVE, nous calculons OR(3/2) =
1.4 0.662
Dans le cas des variables ordinales, la modalit de rfrence est tout simplement la prcdente. Nous quantions le surcrot de risque conscutif un changement de niveau.
Page: 89
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
90
Fig. 5.11.
Codage de SYSTOLIC - variable qualitative ordinale - en 2 variables 0/1 imbriques SYS2 et SYS3
Voyons ce qu'il en est sur les 15 premires observations de notre chier (Figure 5.11). Les colonnes SYS2 et SYS3 sont indissociables, elle permettent de reconstituer parfaitement la variable SYSTOLIC LEVEL. Nous pouvons lancer la rgression logistique. Nous obtenons une srie de rsultats (Figure 5.12) : asys2 = 0.263001 et e0.263001 = 1.3008 = OR(1/2). Nous retrouvons l'odds-ratio du passage du niveau 1 au niveau 2. De mme, asys3 = 0.486004 et e0.486004 = 1.6258 = OR(3/2). Nous constatons avec la rgression qu'aucun des deux odds-ratio n'est signicativement dirent de 1, via le test de Wald pour les coecients ou via les intervalles de variation des odds-ratio.
La constante a0
Dans cette conguration, la constante a0 s'interprte comme le log-odds de la premire modalit de la variable explicative ordinale. Voyons cela sur notre exemple : a0 = 0.412532 et e0.412532 = 0.662 =
odds(1).
Page: 90 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
91
Fig. 5.12.
{1, 2, 3, . . . , L} c.--d. de l'introduire comme une variable quantitative dans la rgression. Ce faisant,
nous sommes en train d'indiquer la technique statistique que les carts entre les modalits sont identiques. En ralit, nous n'en savons rien. Si c'est eectivement le cas, le codage suggr tient la route. Sinon, nous sommes en train d'induire la rgression logistique en erreur, avec des rsultats fausss. En eet, n'oublions pas que dans la rgression simple avec une variable explicative quantitative, le coecient de la pente correspond au log odds-ratio d'une augmentation d'une unit de la variable explicative. On peut l'interprter comme le changement de niveau dans notre contexte, mais ceci quel
soit le niveau. Or nous avons bien vu que ce n'est pas vrai en gnral. Le surcrot de risque lors du passage
d'un niveau au suivant dpend du niveau sur lequel nous nous situons dans notre exemple (Figure 5.10). Notre codage {1, 2, . . .} introduit une contrainte supplmentaire qui pse sur les rsultats : la linarit du LOGIT par rapport la variable ordinale. Encore une fois, ce n'est pas forcment faux. Il faut en tre conscient tout simplement lors de la lecture et l'interprtation des sorties du logiciel. La pire des choses est de faire sans savoir ou laisser le logiciel choisir notre place. A titre de curiosit, nous avons lanc la rgression simple sur la variable explicative SYSTOLIC code {1, 2, 3}. Tanagra l'a intgre comme une variable quantitative. Nous obtenons un odds-ratio gal
ea1 = e0.3407 = 1.4060. Nous le lisons de la manire suivante : le changement de niveau entrane 1.4 fois
que
plus de chances de dvelopper une maladie cardiaque, que ce soit le passage de 1 2 ou de 2 3 (Figure 5.13). La conclusion n'est pas du tout de la mme teneur que celle obtenue avec le codage embot o le passage de 2 3 (OR(2/3) = 1.626) semblait entraner un risque plus lev que lors du passage de 1 2 (OR(2/1) = 1.301) (Figure 5.10).
92
Fig. 5.13.
exacerber le rle d'autres variables. Il nous faut discerner les informations importantes en interprtant correctement les coecients et les indicateurs fournis par la rgression logistique.
= 4.44 fois plus de chances de se voir refuser son crdit par rapport un salari. On n'aime pas
trop les professions indpendantes dans cet organisme de crdit (Figure 5.14). Nous introduisons la variable NBPROB (Figure 5.15). Surprise ! Non seulement NBPROB est trs signicative, a parat logique, ce n'est pas trs indiqu d'avoir des problmes avec sa banque, mais PROFINDEP devient aussi signicative 5%. L'introduction de NBPROB dans la rgression a exacerb son rle. En eet, si l'on passe au odds-ratio, nous avons OR(PRODINDEP/NBPROB)= e2.028 = 0.136. Ils ont
1 0.1316
Pour comprendre le mcanisme, nous avons calcul la moyenne des problmes rencontrs selon le type de profession.
Page: 92 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
93
Fig. 5.14.
CREDIT = f (PROFINDEP)
Fig. 5.15.
PROFINDEP Moyenne(NBPROB)
0 1
0.38 0.00
Les professions indpendantes sont des personnes qui n'ont jamais de problmes avec leur banque. Nous pouvons mieux lire les rsultats maintenant : La prise en compte du nombre de problme augmente l'eet de PROFINDEP. En contrlant le nombre de problmes, le fameux "toutes choses gales par ailleurs" c.--d. si les professions indpendantes et les salaris prsentaient le mme nombre de problmes, les premiers auraient 7.60 plus de chances de se voir refuser leur crdit. Les banques sont sans piti. Les banques sont donc enclins la clmence vis vis des professions indpendantes (4.44 fois plus de refus quand mme) uniquement parce que ce sont des gens sans problmes ! . On retrouve le concept de corrlation partielle. Nous mesurons le lien d'une explicative avec la variable dpendante, valeurs xes pour les autres descripteurs. Pour valider cette interprtation, nous avons ltr la base de manire ne conserver que les individus sans problmes (NBPROB = 0). Nous n'avons plus que n = 82 observations (sur les 100 initiaux).
3. Les chiers que l'on rcupre sur internet sont parfois cocasses. Comme je ne suis pas banquier, j'viterai de trop m'taler sur les interprtations et me concentrer sur les techniques.
Page: 93 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
94
Fig. 5.16.
Nous avons lanc la rgression simple CREDIT = f (PROFINDEP). Nous obtenons un rsultat qui conrme l'ide ci-dessus : lorsque la population est homogne selon le nombre de problmes, les professions indpendantes sont manifestement martyrises (a1 = 1.9994) (Figure 5.16).
L'interprtation des coecients en termes de log odds-ratio reste encore d'actualit dans la rgression multiple. A la dirence que nous contrlons l'eet des autres variables. On parle d'odds-ratio partiels. 5.3.2 Coecients standardiss en rgression logistique
Lorsque les explicatives sont exclusivement quantitatives, il peut tre intressant de comparer leur impact sur la variable dpendante. Quelle est celle qui joue le rle le plus important ? Dans quel sens ? Comparer les odds-ratio parat une solution immdiate. Mais comme les explicatives ne sont pas exprimes sur une mme chelle, la variation d'une unit n'a absolument pas la mme signication d'une variable l'autre. Les odds-ratio ne sont pas comparables en l'tat. La solution la plus simple est de centrer et rduire les explicatives. Ainsi nous pouvons mieux jauger leur inuence et, de plus, nous pouvons disposer d'interprtations sous forme de variations d'carts-type. Dans cette section, nous souhaitons mettre en place un dispositif qui permet de 1. Comparer les inuences respectives des variables explicatives. 2. Mesurer l'impact de la variation d'un cart-type d'une explicative sur le logit, soit en termes absolus c.--d. carts absolus entre logit (l'exponentielle de l'cart entre deux logit est un odds-ratio, ne l'oublions pas), soit en termes relatifs c.--d. variation en carts-type du logit. Auparavant, faisons un petit dtour par la rgression linaire multiple pour dcrire la dmarche. Nous montrerons qu'il est possible d'obtenir les coecients standardiss sans avoir raliser la rgression sur les donnes centres et rduites.
Page: 94
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
95
Fig. 5.17.
96
concerne les autres coecients, nous avons astd = 0.615 et astd = 0.369. Ce que nous avions subodor poids puis prcdemment est conrm : le poids pse plus sur la consommation que la puissance. L'norme avantage avec cette solution est que nous disposons d'une lecture cohrente des coecients : lorsque le poids (resp. la puissance) augmente de 1 cart-type, la consommation augmente de 0.615 (resp.
astd = aj j
j y
(5.3)
o j est l'cart-type de la variable Xj , y celle de l'endogne. Nous avons introduit ces nouvelles modications (Figure 5.17 ; tableau C) en utilisant les informations situes sous le tableau de donnes. Pour la variable poids par exemple
Nous retrouvons exactement les coecients standardiss de la rgression sur donnes centres rduites.
Page: 96
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
97
Fig. 5.18.
0.1201 et ataux
max
d'une unit des variables. Mais comme ces dernires sont exprimes sur des chelles direntes, nous ne pouvons rien conclure concernant l'importance relative des explicatives. On peut nanmoins le deviner via les p-value, taux max semble plus inuent puisque sa p-value est plus petite. Mais cela ne rpond pas notre seconde question : comment lire les coecients en termes de variation du logit ? Pour pouvoir y rpondre, nous devons calculer l'cart-type du logit logit prdit par le modle. Nous avons donc construit le logit prdit c et la probabilit prdite (Figure 5.19) Essayons d'analyser les implications des variations de la variable ge (age ), toutes choses gales par ailleurs c.--d. en xant par exemple la valeur de taux max 150, sur la variation absolue logit (age ) et relative logit (age ) =
logit (age ) logit
Lorsque age = 1, nous obtenons logit (1) = 0.1201 = aage . C'est l'interprtation usuelle des coecients de la rgression logistique sur les variables explicatives quantitatives. Si nous ramenons la variation du logit son cart-type c.--d. logit (1) =
logit (1) logit
0.1201 1.4851
0.0809, nous obtenons une valeur dont on ne voit pas trs bien la teneur.
Enn, pour une variation de 1 cart-type de l'ge, (age) = age = 8.16, nous observons un cart absolu logit (age ) = 0.9803 et un cart relatif logit (age ) = 0.6601 que rien dans les rsultats de la rgression logistique ne nous permet de deviner. Nous sommes obligs de les calculer explicitement.
Page: 97 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
98
Fig. 5.19.
Fig. 5.20.
Aucune des questions que nous avons mis en avant n'ont obtenu de rponses avec les coecient non standardiss : nous ne savons rien sur les inuences compares des explicatives ; nous ne mesurons l'impact sur le logit, en termes relatifs, des variations des explicatives. Dans ce qui suit, nous tudions dirents types de standardisation proposs dans la littrature [10] (pages 51 56).
astd.1 = aj j j
Nous obtenons les nouveaux coecients
(5.4)
Page: 98
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
99
Les coecients mesurent la variation absolue du logit conscutive une augmentation de 1 carttype des variables c.--d. astd.1 = logit (j ). j Comme nous mesurons l'impact sur le logit des variations en carts-type des explicatives, nous pouvons comparer leur poids relatif dans la rgression. Manifestement "taux max" a un impact plus lev (en cart absolu du logit) que l'ge. Nous ne disposons pas d'informations sur la variation relative logit . Enn, dernier commentaire important, cette standardisation nous fournit directement
les coecients que l'on aurait obtenu si on avait lanc la rgression logistique sur les donnes centres rduites " .
astd.2 = aj j
Sur le chier COEUR, nous aurons Variable Constante age taux max Quelques commentaires :
j logit
(5.5)
0.1201
8.16 1.4851
Les nouveaux coecients mesurent la variation relative du logit lorsqu'on augmente de 1 cart-type l'explicative c.--d. astd.2 = logit (j ) j Ils permettent aussi de comparer l'impact des explicatives.
Solution 3 : Standardisation sur les explicatives et l'cart-type thorique de la loi de rpartition logistique
La dernire standardisation vaut surtout parce qu'elle est propose dans le logiciel SAS [10] (page 55)
astd.3 = aj j
j theorique
(5.6)
100
standard # .
Sur le chier COEUR, nous aurons Variable age taux max Coecient
0.1201
8.16 1.8138
= 0.5405
0.6830
Comme pour toutes les autres standardisations, les coecients permettent de comparer l'impact des explicatives. Mais elles ne s'interprtent pas en termes de variation du logit.
5. Voir B. Scherrer, Biostatistique - Volume 1, Gatan Morin Editeur, 2007 ; pages 303 et 304.
Page: 100 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
On parle d'interaction lorsque l'eet d'une explicative sur la variable dpendante dpend du niveau (de la valeur) d'une autre explicative. Boire est mauvais pour la sant (parat-il ). Boire et fumer en mme temps, c'est pire, on a intrt faire son testament tout de suite (je
Il faut (1) que l'on puisse dcrire l'interaction sous la forme d'une nouvelle variable que la rgression logistique saura prendre en compte ; (2) que l'on vrie si cette conjonction produit un eet signicatif sur la variable dpendante ; (3) le mesurer en termes de surcrot de risque, d'odds-ratio ; (4) dnir une stratgie d'exploration des direntes interactions que l'on pourrait former partir des variables disponibles ; (5) interprter correctement les coecients fournis par l'estimation. On parle d'interaction d'ordre 1 lorsque l'on croise 2 variables ; interaction d'ordre 2 lorsque l'on croise
3 variables ; etc. L'analyse des interactions est un sujet trs riche en rgression logistique. Notre texte
doit beaucoup l'excellente monographique de Jaccard [4]. On trouvera des sections entires consacres ce sujet dans plusieurs ouvrages en franais ([11], pages 96 106, pour deux variables explicatives ; [23], pages 441 446).
satur lorsque l'on intgre toutes les interactions possibles dans la rgression.
Page: 101 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
102
simplement que l'on caractrise un certain type d'interaction. Admettons que X1 maintenant reprsente la consommation de cigarettes par jour, X2 la consommation d'alcool. Que penser de Z = X1 X2 quand elle est introduite dans la rgression logistique ? Le LOGIT s'crit
(6.1)
Il faut garder cette ide en tte. Concernant les variables quantitatives, utiliser le produit caractrise un certain type d'interaction : le log odds-ratio conscutif une variation d'une des explicatives est fonction linaire des autres explicatives. Ce n'est pas une limitation, il faut en tre conscient simplement lorsque nous analysons les rsultats.
103
Fig. 6.1.
Remarque : La lecture en termes de conjonctions en est une parmi les autres. Bien souvent, dans
les tudes relles, les variables explicatives ne jouent pas le mme rle. Dans notre exemple, on peut par exemple tudier l'eet du tabac (facteur
de risque)
est dirent selon que l'on est un homme ou une femme. La variable "sexe" (homme) est alors appele
variable modratrice.
choses :
Nous relanons la rgression avec la troisime variable Z (Figure 6.2). Nous constatons plusieurs La rgression est moins bonne que la prcdente si l'on en juge au critre BIC (SC). Il est pass 141.432 (plus le BIC est lev, moins bon est le modle, rappelons-le). C'est le danger qui nous guette mesure que l'on introduit de nouvelles variables peu ou prou pertinentes dans la rgression. La variable traduisant l'interaction n'est pas signicative : les hommes fumeurs ne ronent pas plus que les autres (ou, si nous sommes dans le schma "facteur de risque vs. eet modrateur", le tabac ne joue pas un rle direnci selon le sexe).
104
Fig. 6.2.
roner. Or on sait que ce n'est pas vrai au regard du rsultat de la rgression sans le terme d'interaction. En fait, croire que les coecients associes aux indicatrices seules correspondent aux eets individuelles des variables est une erreur [4] (page 20). Ils indiquent l'eet de la variable conditionnellement au fait que l'autre indicatrice prend la valeur 0. Prenons le coecient de
homme (sexe = homme) qui est gal ahomme = 1.586316 (on oublie que chez les non-
la variable est non signicative 10%). En passant l'exponentielle, nous avons OR(sexe=homme) =
e1.586316 = 4.9 c.--d. les hommes ont 4.9 fois plus de chances de roner que les femmes
Pour nous en persuader, nous avons ltr la base en ne retenant que les non-fumeurs. Nous avons
n = 64 observations. Nous avons ralis une rgression simple ronf lement = f (homme) (Figure 6.3).
Nous retrouvons le coecient de
105
Fig. 6.3.
purement mcaniques comme celles qui sont dcrites dans le chapitre consacr la slection de variables (chapitre 7). Il faut tenir compte du rle des variables dans les dirents niveaux d'interactions. Un modle est dit lev sont prsents. Vite un exemple pour bien comprendre. Si l'interaction X1 X2 X3 est prsent dans la rgression, nous devons y retrouver galement les interactions d'ordre 1 c.--d. X1 X2 , X1 X3 et X2 X3 ; mais aussi les interactions d'ordre 0 (les variables prises individuellement) c.--d. X1 , X2 et X3 . Cette contrainte doit tre respecte lors du processus de slection de variables. Deux situations sont envisageables : 1. Si X1 X2 X3 est signicatif, nous arrtons le processus de slection, toutes les autres interactions sont conserves. 2. Dans le cas contraire, nous pouvons la supprimer. Reste dnir une stratgie d'limination parmi les multiples interactions du mme ordre (d'ordre 1 concernant notre exemple), toujours en respectant la rgle dicte ci-dessus : a) Une premire approche consiste confronter le modle complet incluant toutes les interactions d'ordre suprieur Y = f (X1 , X2 , X3 , X1 X2 , X1 X3 , X2 X3 ) avec celle o elles sont absentes c.--d. Y = f (X1 , X2 , X3 ), en utilisant le test du rapport de vraisemblance ou le test de Wald. Si
Page: 105 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
mulated model ; [4], page 15) si toutes les interactions d'ordre infrieurs de l'interaction d'ordre le plus
106
X3 = tabac. On cherche en priorit isoler l'eet du tabac sur le ronement. Dans un premier temps,
avec le logiciel R, nous calculons le modle avec toutes les interactions
#rgression logistique - complet modele.full <- glm(ronflement ~ homme+age+tabac+homme_age+homme_tabac+age_tabac +hom_tab_age, data = donnees, family = "binomial") print(summary(modele.full))
Fig. 6.4.
La dviance du modle est D{0,1,2} = 114.66 (Figure 6.4). Aucun coecient ne semble signicatif. Il ne faut pas trop s'en formaliser, il doit y avoir de fortes corrlations entre les variables.
Page: 106 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
107
Fig. 6.5.
#rgression logistique - avec interactions d'ordre 1 modele.1 <- glm(ronflement ~ homme+age+tabac+homme_age+homme_tabac+age_tabac, data = donnees, family = "binomial") print(summary(modele.1))
La dviance est D{0,1} = 114.85. La statistique du rapport de vraisemblance est LR = D{0,1}
D{0,1,2} = 114.85 114.66 = 0.19. Avec la loi du 2 (93 92) = 1 degr de libert, nous avons une pvalue de 0.663. Manifestement, au risque 10%, l'interaction d'ordre 2 ne joue aucun rle dans l'explication du ronement.
Fig. 6.6.
valuons maintenant le bloc d'interactions d'ordre 1. Nous ralisons la rgression avec uniquement les variables individuelles.
#rgression logistique - sans interactions d'ordre 1 modele.0 <- glm(ronflement ~ homme+age+tabac, data = donnees, family = "binomial") print(summary(modele.0))
Page: 107 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
108
118.13 114.85 = 3.28. Avec un 2 (96 93) = 3 degrs de libert, nous avons une p-value de 0.350.
Nous pouvons liminer le bloc complet des termes d'interaction d'ordre 1. Enn, en considrant cette dernire rgression, on se rend compte que l'liminer. Le modle nalement slectionn inclut
sens du test de Wald (le test du rapport de vraisemblance aboutit la mme conclusion). Nous pouvons
ronent plus que les femmes age gal ; sexe gal, plus on est g, plus on rone.
Fig. 6.7.
logit = a0 + a1 X1 + a2 X2 + a3 X1 X2 X2 est binaire, nous souhaitons obtenir son odds-ratio. Le logit pour X2 = 0 s'crit
logit(X2 = 0) = a0 + a1 X1
Page: 108 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
109
logit(X2 = 1) = a0 + a1 X1 + a2 + a3 X1
L'cart entre les logit, le log odds-ratio, est obtenu par direnciation
Page: 109
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
110
logit u1/2
V (logit )
Fig. 6.8.
Poursuivons notre exemple ci-dessus, le logiciel R sait produire la matrice de variance covariance (Figure 6.8). Nous pouvons calculer la variance du log odds-ratio pour un homme (X1 = 1)
2 a a V (logit ) = V (2 ) + X1 V (3 ) + 2 X1 COV (2 , a3 ) a
1. On devine aisment qu' mesure que le nombre de variables augmente, avec des interactions d'ordre lev, la formule devient rapidement assez complexe.
Page: 110 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
111
hommes. Cela ne prjuge pas des rsultats chez les femmes, il faudrait reproduire la dmarche complte
chez les
a 1.1856 1.5863
p-value -
a0 2.1972 aX aZ
aXZ 0.4794
En passant par les tableaux croiss, nous pouvons calculer directement les odds-ratio (Figure 6.9). Nous constatons que l'odds ratio est plus lev chez la femme (OR(f emme) = 3.27) que chez l'homme
Page: 111
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
112
Fig. 6.9.
ln[OR(f emme)] = 1.1856 = aX , le log odds-ratio associ au facteur de risque X dans le groupe de rfrence correspond au coecient du facteur de risque aX . ln[OR(homme)] = 0.7032 = aX + aXZ , le log odds-ratio dans le groupe des hommes correspond la somme des coecients associs au facteur de risque et au terme d'interaction. Nous l'avons constat prcdemment, il y a un cart entre les odds-ratio. Nous savons maintenant qu'il est non signicatif 10% car le coecient aXZ du terme d'interaction ne l'est pas dans la rgression (p-value = 0.7151).
ln(OR)
OR
imc chez les hommes (n = 75) 0.083342 0.9200 imc chez les femmes (n = 25) 0.876508 2.4025
Est-ce que nous pouvons retrouver ces valeurs partir de la rgression incluant X , Z et le terme d'interaction XZ (Figure 6.10) ? La rponse est oui, le principe est assez similaire celui des deux variables binaires : ln[OR(f emme)] = 0.876508 = aX , le log odds-ratio conscutif une variation d'une unit d'IMC chez les femmes (Z = 0) correspond au coecient aX de la rgression. ln[OR(homme)] = 0.083342 = aX + aXZ , le log odds-ratio conscutif une variation d'une unit d'IMC chez les hommes (Z = 1) correspond la somme des coecients du facteur de risque et du terme d'interaction. Nous savons que l'cart entre ces odds-ratio n'est pas signicatif 10% parce que le coecient du terme d'interaction ne l'est pas dans la rgression.
Page: 112
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
113
Fig. 6.10.
Fig. 6.11.
Y = f (X, Z, XZ) (Figure 6.11). Nous lisons les coecients de la manire suivante :
aX = 0.181949 correspond au log odds-ratio conscutif une augmentation d'une unit de la consommation d'alcool pour des personnes ayant Z = 0 c.--d. l'ge moyen de la population (car la variable a t centre). aXZ = 0.007454 est la variation du log odds-ratio associ X lorsque Z augmente d'une unit. Cette dernire ide mrite quelques claircissements. Nous pouvons r-crire le logit :
114
de Z ! Lorsque Z = 0, il sera aX , nous l'avions vu prcdemment ; lorsque Z = 1, il sera aX + aXZ . La dirence entre ces deux quantits correspond bien aXZ . Ceci tant, l'interaction alcool age n'est pas signicative 10%, nous pouvons la retirer de la rgression. Le "bon" modle serait nalement ronf lement = f (alcool, age) avec comme principales conclusions : ge gal, boire fait roner ; et consommation d'alcool gal, plus on vieillit, plus on rone (Figure 6.12). Bref, mesdames, si vous voulez passer des nuits en toute quitude, mieux vaut pouser un jeune sobre qu'un vieux solard. Ca tombe un peu sous le sens quand mme. Je ne suis pas sr qu'il tait ncessaire de faire des calculs statistiques aussi compliqus pour parvenir cette conclusion.
Fig. 6.12.
Page: 114
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
7 La slection de variables
bonnes variables inclure dans le modle. Dans l'idal, elles devraient tre orthogonales entre elles et
toutes fortement lies avec la variable dpendante. Certains auteurs encensent la slection automatique de variables parce qu'elle constitue un outil fort utile pour une premire approche sur des donnes que l'on ne connat pas trs bien ; d'autres par contre la critiquent vertement car elle nous rend dpendante des uctuations alatoires dans les donnes, d'un chantillon l'autre nous sommes susceptibles d'obtenir des solutions direntes [10] (page 63). Il reste qu'elle est prcieuse lorsque la qualit de prdiction est l'objectif principal ou lorsque nous sommes dans un contexte exploratoire. Mme si l'expert du domaine a une certaine ide des explicatives retenir, une slection automatique peut l'aiguiller sur les pistes tudier. Plusieurs raisons nous poussent rduire le nombre de variables explicatives :
Moins il y aura de variables, plus facile sera l'interprtation. En vacuant les descripteurs
qui ne sont pas ncessaires l'explication de la variable dpendante, nous pouvons plus facilement cerner le rle de celles qui sont retenues. N'oublions pas que dans de nombreux domaines, l'explication est au moins aussi importante que la prdiction. La rgression logistique nous propose des outils merveilleux pour lire les coecients en termes de surcrot de risque. Rduire le nombre de variables permet d'en proter pleinement.
Le dploiement sera facilit. Lorsque le modle sera mis en production, on a toujours intrt
poser peu de questions pour identier la classe d'appartenance d'un individu. Imaginez vous arriver au service des urgences d'un hpital, une personne vous pose une trentaine de questions pour identier votre problme, vous aurez eu le temps de mourir plusieurs fois. Idem, vous sollicitez un crdit auprs d'un banque, elle commence vous demander la date de naissance de votre arrire grand-pre, la question d'aprs vous tes dj dans l'tablissement d'-ct. Au l du temps, je me suis rendu compte qu'un systme aussi ecace soit-il n'est vraiment adopt par les utilisateurs que s'il est peu contraignant, simple d'utilisation.
Page: 115
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
116
7 La slection de variables
Dernier argument en faveur de la slection, pour un mme nombre d'observations, C'est le principe du
un modle avec peu de variables a de meilleures chances d'tre plus robuste en gnralisation.
Rasoir d'Occam. En eet, lorsque le nombre de paramtres du modle est trop lev, le sur-apprentissage nous guette (overtting en anglais). Le classieur "colle" trop aux
donnes et, au lieu d'intgrer les informations essentielles qui se rapportent la population, il ingre les particularits de l'chantillon d'apprentissage. Introduire des variables explicatives nonpertinentes augmente articiellement les variances des coecients [10] (page 68), les estimations sont numriquement instables [9] (page 92). Bref, les probabilits conditionnelles P (X/Y ) sont mal estimes. On pense gnralement qu'il faut respecter un certain ratio entre le nombre de paramtres estimer et la taille de l'chantillon. Il est malheureusement trs dicile quantier. Il dpend aussi de la dicult du concept apprendre. A titre indicatif, nous citerons la rgle empirique suivante [9] (page 346)
min(n+ , n ) (7.1) 10 Il faut donc rduire le nombre de variables. Reste savoir comment. La slection manuelle est une J +1
solution possible. En se basant sur le test de Wald ou le test du rapport de vraisemblance, l'expert peut choisir le meilleur sous-ensemble, en accord avec les connaissances du domaine. Idale dans l'absolu, cette stratgie n'est pas tenable en pratique, surtout lorsque nous avons traiter de grandes bases de donnes avec un nombre considrable de variables explicatives potentielles (quelques centaines habituellement dans les bases de donnes marketing). Il nous faut utiliser des procdures automatises.
slection par optimisation implmente dans R, et la slection base sur des critres statistiques implmente dans Tanagra. Tous deux
Dans ce chapitre, nous tudierons deux approches : la se rejoignent sur le mode d'exploration de l'espace des solutions, il s'agit de procdures pas--pas qui valuent une succession de modles embots : la slection FORWARD part du modle trivial, puis rajoute une une les variables explicatives jusqu' ce que l'on dclenche la rgle d'arrt ; la slection BACKWARD part du modle complet, incluant la totalit des descripteurs, puis enlve une une les variables non signicatives ; R, de plus, dispose de la mthode STEPWISE (qu'elle appelle BOTH), elle alterne forward et backward, elle consiste vrier si chaque ajout de variable ne provoque pas le retrait d'une explicative qui aurait t intgre prcdemment. Nous le disons encore une fois,
solutions.
Il ne faut surtout pas prendre pour argent comptant les sous-ensembles de variables expli-
catives proposes. D'autant qu'ils peuvent varier d'une stratgie une autre, et mme d'un chantillon d'apprentissage un autre. Il faut plutt les considrer comme des alternatives que l'on peut soumettre et faire valider par un expert du domaine. La slection de variables est un maillon de la dmarche exploratoire. Nous pouvons nous appuyer sur ses rsultats pour essayer des combinaisons de variables, des transformations, rchir sur la pertinence de ce que l'on est en train de faire, etc.
1. On lira avec bonheur la section 8.5, pages 339 347, consacre la dtermination d'une taille "susante" d'chantillon dans le mme ouvrage.
Page: 116 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
117
AIC = 2LL + 2 (J + 1)
et le critre BIC de Schwartz
(7.2)
(7.3)
o 2LL est la dviance ; (J + 1) est le nombre de paramtres estimer, avec J le nombre de variables explicatives. Quelques remarques avant de passer un exemple illustratif : Ces deux critres sont assez similaires nalement. BIC pnalise plus la complexit du modle ds que l'eectif n augmente (ds que ln(n) > 2). Ca ne veut pas dire qu'il est meilleur ou moins bon. Il privilgie simplement les solutions avec moins de variables explicatives par rapport AIC. Selon la stratgie de recherche (forward, backward, stepwise), nous pouvons aboutir des sousensembles dirents. Ce n'est pas parce que la variable a t slectionne via cette procdure d'optimisation qu'elle sera signicative au sens du test du rapport de vraisemblance ou du test de Wald dans la rgression. Cela entrane souvent le praticien dans un abme de perplexit. Mais ce n'est pas du tout tonnant bien y regarder. Les critres utiliss ne sont pas les mmes. La conduite tenir dpend des objectifs de notre tude.
Page: 117
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
118
7 La slection de variables
Nous utilisons le logiciel R qui, avec la commande stepAIC du package MASS, implmente la slec-
tion de variables par optimisation . Le code source des commandes dcrites ci-dessous est livr avec ce document dans une archive part (Annexe B). Avant de lancer les calculs, nous devons spcier les explicatives du modle trivial (il n'y en a pas) et celles du modle complet (toutes). Dans R, nous dnissons deux variables de type pour les dcrire
chane de caractres
#modle trivial rduit la constante str_constant <- "~ 1" #modle complet incluant toutes les explicatives potentielles str_full <- "~ age+restbpress + max_hrate + chest_pain_asympt_1 + chest_pain_atyp_angina_1 + chest_pain_non_anginal_1 + blood_sugar_f_1 + restecg_normal_1 + restecg_left_vent_hyper_1 + exercice_angina_yes_1"
Slection FORWARD
Pour initier une slection forward, nous utilisons la commande stepAIC. Elle utilise par dfaut le critre AIC, mais nous pouvons le paramtrer de manire ce qu'elle optimise le critre BIC. Le modle constitu uniquement de la constante (modele) sert de point de dpart. stepAIC lance la procdure de recherche, et modele.forward rceptionne la rgression nale intgrant les variables slectionnes.
#dpart modele avec la seule constante + slection forward modele <- glm(heart ~ 1, data = donnees, family = binomial) modele.forward <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "forward") #affichage du modle final summary(modele.forward)
Dissquons les sorties de R durant le processus de recherche, on s'en tiendra uniquement aux trois premires tapes (Figure 7.1) 1. Initialement, nous avons AIC = 287.09 pour le modle trivial. 2. R cherche le modle 1 variable qui minimise l'AIC. Il ache toutes les congurations qu'il a testes et les trie selon l'AIC croissant : heart = f(chest_pain_asympt_1) AIC = 211.86 heart = f(exercice_angina_ yes_1) AIC = 214.88 ... Notons que les variables qui viennent aprs <none> proposent un modle pire, c.--d. l'AIC est plus lev, que le modle courant (le modle trivial ici). Au nal, R a intgr la premire variable de la liste "chest_pain_asympt_1". Il essaie de voir quelle serait la seconde meilleure variable qu'il pourrait lui adjoindre.
2. Pour ceux qui ne sont pas trs familiariss avec R, vous trouverez trs facilement de la documentation sur le web, entre autres, celles que j'ai rassembles sur mon site de cours http://eric.univ-lyon2.fr/~ricco/cours glm() est la fonction qui permet de raliser une rgression logistique
Page: 118 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
119
Fig. 7.1.
3. C'est reparti pour un tour. Il teste tous les modles deux variables, sachant que "chest_pain_asympt_1" ne peut plus tre remis en cause heart = f(chest_pain_asympt_1,exercice_angina_yes_1) AIC = 183.59 heart = f(chest_pain_asympt_1,max_rate) AIC = 208.85 ... Le meilleur modle 2 variables prsentant un AIC (183.59) plus faible que le prcdent 1 variable (211.86), la variable "exercice_angina_yes_1" est accepte. 4. Le processus se poursuit tant que l'on rduit le critre AIC. Ds que le critre stagne ou repart la hausse, le processus de recherche est stopp. Au nal, 5 variables explicatives sont slectionnes. Dans le modle qui en dcoule, nous constatons avec surprise que 2 d'entre elles (chest_pain_asympt_1 et blood_sugar_f_1) ne sont pas signicatives au sens du test de Wald 5% (Figure 7.2). Cela rejoint la remarque que nous avions formule plus haut : une variable peut tre intgre au sens du critre AIC, sans pour autant tre signicative au sens du test de Wald ou du rapport de vraisemblance.
Page: 119
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
120
7 La slection de variables
Fig. 7.2.
Slection BACKWARD
La slection backward agit exactement l'inverse du forward : R part du modle incluant toutes les variables, il les enlve au fur et mesure tant que le critre AIC dcrot. Le processus est stopp ds que l'AIC stagne ou augmente. Voici les commandes pour R
modele <- glm(paste("heart",str_full), data = donnees, family = binomial) modele.backward <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "backward") #affichage summary(modele.backward)
Dtaillons les premires tapes (Figure 7.3) : 1. Le modle incluant les 10 variables propose un AIC = 186.48. 2. R teste le retrait de chaque variable explicative. Elles sont aches selon un AIC croissant (le meilleur est celui qui propose l'AIC le plus faible) Si on retire restecg_normal_1, le modle 9 variables qui en rsulte prsentera un AIC de 184.49. Si on retire restbpress, nous aurons AIC = 184.53 Etc. Celle qui faudrait supprimer est restecg_normal_1, l'AIC du modle 9 variables est plus faible que le modle prcdent 10 variables. Le retrait est entrin. 3. A partir de la conguration 9 variables, R teste tous les modles 8 variables en retirant tour tour chaque explicative. Il apparat que la suppression de restbpress amliore encore le rsultat avec
121
Fig. 7.3.
4. Etc. Finalement, un modle 4 variables explicatives est mis en avant (Figure 7.4). Nous noterons plusieurs choses : nous n'obtenons pas le mme sous ensemble de variables, il y en 4 pour l'option backward, il y en avait 5 pour le forward, chest_pain_asympt_1 a disparu (corps et biens) ; et pourtant l'AIC de backward (175.77) est meilleur que celui de forward (177.69) ; enn, parmi les variables retenues, certaines s'avrent non-signicatives au sens du test de Wald.
Slection BOTH
L'option BOTH est a priori plus performante que les deux prcdentes parce qu'elle les mixe justement. Voyons ce qu'il en est avec R. Les commandes utilises sont les suivantes
Page: 121
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
122
7 La slection de variables
Fig. 7.4.
#dpart modele avec la seule constante + slection both modele <- glm(heart ~ 1, data = donnees, family = binomial) modele.both <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full), trace = TRUE, data = donnees, direction = "both") #affichage summary(modele.both)
La recherche est un peu plus complexe dans ce cas. Nous ne rentrerons pas dans les dtails. Allons directement sur le modle nal. Nous constatons que le sous-ensemble de variables retenu par l'option both (Figure 7.5) est le mme que celui de l'option backward. Bref, avant de nous exciter inutilement sur les mrites de telle ou telle approche, prendre du recul par rapport aux rsultats est toujours salutaire.
123
Fig. 7.5.
le montrent bien, des pistes alternatives en relation directe avec les tests de signicativit des coecients peuvent tre explores. Un autre aspect important est le cot, en termes de temps de calcul, ncessaire la slection. Si l'on s'en tient la procdure
la seconde ; etc. Dans le pire cas o toutes les variables sont nalement retenues, il aura ralis R est particulirement rapide, ce n'est pas tenable sur de trs grandes bases de donnes.
rgressions (et autant d'optimisation de la fonction de log-vraisemblance). Mme s'il faut reconnatre que Dans ce section, nous tudions les techniques de slection exclusivement fondes sur les tests de signi-
forward et backward. L'norme avantage est que nous construisons J rgressions dans le pire des cas : retenir toutes les variables pour forward, supprimer toutes les variables pour backward. Commenons par l'option la plus facile, la slection backward
cativit. Le stratgies d'exploration sont toujours les mmes, base sur le test de Wald.
124
7 La slection de variables
Fig. 7.6.
Modle slectionn par stepAIC - Critre BIC avec k = ln(n) = 5.34 - Option Both
3. Dtecter parmi les coecients celui qui prsente la statistique de Wald la plus faible. 4. Vrier s'il est non signicatif en comparant la p-value du test avec le risque de premire espce que l'on s'est choisi. Si p-value , la variable est conserve. C'est l'arrt du processus, l'ensemble de variables courant est la solution. Si p-value > , la variable est retire de l'ensemble courant et, si ce dernier n'est pas vide, retour en [2], sinon c'est l'arrt du processus, aucune variable n'aura t slectionne. Quelques remarques concernant la dmarche et les rsultats obtenus : Il n'y a rien que l'on ne connaisse dj dans tous les lments qui composent ce processus. Nous ne sommes pas dpayss. Toutes les variables retenues sont signicatives au sens du test de Wald dans la rgression nale. Il n'y a pas d'incohrences comme nous avions pu le constater lors l'optimisation de l'AIC. Dans le pire des cas, il n'y a que J rgressions oprer. Le temps de calcul est ( peu prs) connu l'avance. Par rapport au forward, la stratgie backward propose une proprit intressante : elle prend mieux en compte les combinaisons de variables. En eet, il arrive qu'une variable explicative ne soit vraiment dcisive qu'en prsence d'une autre. Comme
elle ne peut pas laisser passer ce type de situation [10] (page 64). A l'usage, on se rend compte qu'il n'y pas de dirences rellement agrantes entre ces deux stratgies sur des bases relles.
Page: 124 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
125
Lorsque le nombre de variables est trs lev (plusieurs centaines), les premires rgressions risquent d'tre problmatiques. Il y a, entre autres, l'inversion de la matrice hessienne qui est dlicate mener, source de plantage des logiciels. Ceci est d'autant plus dommageable que dans la pratique, on ne retient que les modles assez simples. Ils sont gnralement composs au maximum d'une dizaine de variables pour des questions d'interprtation et de dploiement. Enn, un statisticien vous dira tout de suite que le risque associ au test de signicativit l'tape [4] n'est certainement pas . Chaque test est prcd d'un processus de dtection de la variable la moins signicative. Il faudrait corriger le vritable risque comme il est d'usage de le faire en comparaisons multiples. Le raisonnement tient la route, c'est indniable. Mais je pense qu'il ne faut pas se tromper de cible. L'objectif n'est pas de forcer les donnes cracher la vrit (si tant est qu'il y ait une vrit cracher d'ailleurs), mais plutt de mettre en vidence des scnarios de solutions. Le risque joue le rle de tournevis qui traduit nos prfrences et que l'on adapte aux caractristiques de la base traite. Si l'on souhaite une solution avec peu de variables face un base trs bruite, on peut littralement serrer la vis (rduire ) pour tre plus exigeant avec le sousensemble nal et obtenir moins de variables. A contrario, sur une petite base, avec des variables qui ont t soigneusement choisies par le praticien, tre plus permissif parat plus judicieux (augmenter
).
W = 0.046 ; etc.
La moins bonne variable, restecg_normal_1, n'est pas signicative 1% avec une p-value du test de Wald gale 0.9398. Elle est retire. La rgression avec les 9 variables restantes est globalement signicative avec LR = 120.60 (p-value
< 0.0001) et AIC = 184.49. La moins bonne variable est restbpress, elle n'est pas signicative,
elle est donc retire.
Page: 125
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
126
7 La slection de variables
Fig. 7.7.
Ainsi de suite jusqu' la ligne no 8, nous constatons que la moins bonne variable au sens de la statistique de Wald, chest_pain_non_anginal_1, ne peut pas tre retire parce qu'elle est signicative (p-value = 0.0003).
Fig. 7.8.
Rgression sur les variables slectionnes - Backward bas sur le test de Wald
Page: 126
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
127
La rgression sur les 3 variables retenues nous donne un rsultat (Figure 7.8) que l'on pouvait dj
1. Construire le modle initial c.--d. raliser la rgression avec exclusivement la constante, sans aucune variable explicative. 2. Parmi les variables candidates, dtecter celle qui maximise une statistique lorsque nous la rajoutons au modle courant. 3. Vrier si elle est signicative c.-d. p-value . Si oui, intgrer la variable dans le modle puis estimer les paramtres de la rgression. S'il reste des variables candidates, retour en [2]. Si la variable n'est pas signicative, elle n'est pas slectionne. Fin du processus. L'tape no 2 est cruciale dans le processus. Si l'on voulait utiliser le test de Wald pour passer du modle p variables celui comportant p + 1 explicatives, il faudrait raliser J p rgressions et choisir celle qui maximise la statistique. Avec un temps de calcul qui peut se rvler prohibitif sur les grandes bases. Pour viter cet cueil, nous utilisons un autre test de signicativit des coecients : le test du score.
nous nous appuyons sur les rsultats de la rgression sous H0 portant sur p variables.
Les q variables pour lesquelles nous voulons tester la signicativit des coecients sont traites comme des variables supplmentaires.
La statistique de test s'crit :
S = U H 1 U
O U est le vecteur gradient de taille (p + q + 1) 1, avec pour la composante j
(7.4)
3. Les variables ne sont pas forcment conscutives dans le modle. Nous cherchons simplement simplier l'criture ici.
Page: 127 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
128
7 La slection de variables
Uj = [y() ()]xj ()
(7.5)
H(j1 , j2 ) =
(7.6)
Sous H0 , la quantit S suit une moi du 2 q degrs de libert. Le vecteur gradient U dans l'expression 7.4 peut paratre trange. En eet, les paramtres de la rgression ayant maximis la log-vraisemblance, toutes les composantes de U devraient tre nuls. De fait,
S devrait toujours tre gal 0. La rponse est non, U est non nul, parce que les
prdictions () sont
Reprenons le chier COEUR (Figure 0.1) pour illustrer la procdure. Nous ralisons
la rgression COEUR = f (TAUX MAX). Nous souhaitons savoir si l'adjonction de la variable AGE produirait un coecient signicatif. Dans un premier temps (Figure 7.9), nous optimisons la vraisemblance avec la variable TAUX MAX et la constante (en vert). AGE n'est pas utilise ce stade. Nous obtenons l'quation du LOGIT
C(X) = 8.7484 0.0627 taux max A partir de ce rsultat, nous obtenons la colonne C dans la feuille Excel, puis la colonne .
La formule 7.5 nous permet de complter le vecteur gradient, nous trouvons les composantes :
Uconst = 0 Utaux
max
=0
Uage = 22.6863
Les deux premiers termes sont nuls. En eet, ils ont particip la maximisation de la vraisemblance. Il est tout fait normal que les drives partielles premires soient nuls. Il en est tout autrement pour AGE. Il n'a pas particip l'optimisation. Lorsque nous calculons son score, nous obtenons une valeur dirente de 0, en l'occurrence Uage = 22.6863. A l'aide de la formule 7.6, nous calculons la matrice hessienne "
4. Nous avons utilis la forme matricielle dans la feuille Excel, H = X V X , o V est la matrice diagonale de taille (n n) de terme gnrique (1 ).
Page: 128 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
129
Fig. 7.9.
0.000 0.005
Page: 129
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
130
7 La slection de variables
(
43.461 0.200 0.265 0.0000 S = 0.0000 0.0000 22.6863 0.200 0.001 0.000 0.0000 = 2.3766 0.265 0.000 0.005 22.6863 )
Avec la fonction de rpartition du 2 1 degr de libert, nous obtenons une p-value = 0.1232. Le coecient de AGE n'est pas signicatif 10% si on l'ajoutait dans la rgression. A titre d'information, si on s'ingnie introduire quand mme la variable AGE dans la rgression, la statistique de Wald serait gale 2.0302 avec un p-value de 0.1542 (Figure 7.10). Le rsultat est cohrent avec le test du score. On montre dans la littrature qu'il existe une passerelle entre ces deux tests [7] (page 110).
Fig. 7.10.
H0 : ap+1 = 0 H1 : ap+1 = 0
Nous pouvons maintenant dtailler le processus complet # 1. p = 0. 2. tape courante, nous ralisons la rgression avec les p variables dj slectionnes (lorsque p = 0, il n'y a que la constante dans le modle).
` 3. Pour les J p variables candidates. Calculer, en intgrant la (p + 1)eme variable valuer comme
variable supplmentaire
5. Dans SPSS, cette procdure est dsigne par "METHOD - FORWARD : CONDITIONAL" dans les options de gestion des variables.
Page: 130 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
131
4. Choisir la variable qui maximise S . Vrier que nous rejetons H0 au risque que l'on s'est choisi c.--d. p-value < . Si oui, l'ajouter dans l'ensemble des explicatives slectionnes. S'il reste encore des variables candidiates, retour en [2]. Si non, le coecient associ n'est pas signicatif ou il n'y a plus de variables candidates, arrt de la procdure. Quelques remarques sur la stratgie
Premier avantage trs intressant, nous ne ralisons que J optimisations de la vraisemblance dans le pire des cas (toutes les variables sont nalement retenues). Il faut noter quand mme que l'valuation d'une variable induit une srie de calculs non ngligeables, notamment une inversion de matrice qui peut toujours tre problmatique. Il faut privilgier cette stratgie lorsque nous traitons une grande base de donnes, avec un grand nombre de variables candidates, alors que nous savons pertinemment que nous n'en retiendrons que quelques unes. Lors du test de signicativit de la variable que l'on souhaite introduire chaque tape, le vritable risque du test n'est pas vraiment gal au risque nominal que l'on a choisi. Il est un peu plus grand. En eet, nous avons d'abord slectionn la variable portant la statistique S la plus leve avant de la tester. Mais encore une fois, il faut plutt voir le paramtre comme un outil de contrle qui permet d'orienter l'algorithme vers les solutions qui conviennent compte tenu de nos objectifs et des caractristiques des donnes. Attention, le test du score et le test de Wald sont similaires mais ne sont pas totalement identiques. Il se peut qu'une explicative valide par le test du score, n'apparaisse pas signicative au sens du test de Wald lorsque nous ralisons la rgression avec le sous-ensemble de variables slectionnes.
2 variables seulement ont t slectionnes, les mmes que la stratgie de slection par optimisation avec le critre BIC (Figure 7.6). Nous disposons du dtail du processus dans le tableau. Le modle initial est le modle trivial compos uniquement de la constante. Bien videmment, la statistique du test du rapport de vraisemblance valuant le modle global est LR = 0, le critre AIC = 287.09.
6. Le logiciel Tanagra propose une option qui permet de limiter arbitrairement le nombre de variables slectionnes. Elle s'avre utile lorsque nous traitons des bases avec un trs grand nombre de variables et que nous souhaitons obtenir un modle volontairement simple.
Page: 131 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
132 ht]
7 La slection de variables
Fig. 7.11.
La meilleure variable que l'on pourrait introduire au sens du test du score est chest_pain_asympt_1 avec S = 72.126 ; la seconde est exercice_angina_yes_1 avec S = 70.111 ; etc. La premire est largement signicative avec une p-value < 0.0001. Elle est donc entrine. La rgression heart = f (chest_pain_asympt_1) est globalement signicative au sens du test du rapport de vraisemblance, avec LR = 77.23. Tanagra cherche introduire une seconde variable. La meilleure est exercice_angina_yes_1, avec une statistique du score = 32.078 et une p-value
Fig. 7.12.
Page: 132
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
133
A titre de curiosit, nous donnons la rgression fournie par Tanagra sur ces deux variables explicatives (Figure 7.12). Les coecients associs sont tous deux fortement signicatifs au sens du test de Wald.
Page: 133
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 134
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 135
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
136
Fig. 8.1.
Fig. 8.2.
137
les mettons en relation avec la matrice de confusion (Figure 8.2). Nous devons bien garder l'esprit cette
Y () = () + ()
() est l'erreur de modlisation, avec () = Y () (), elle peut prendre deux valeurs possibles :
E() = (1 ) + (1 )() = 0 V () = (1 )
La variance de l'erreur n'est pas constante, elle dpend des individus. Il y a htroscdasticit. Pour un individu , le rsidu de Pearson permet d'identier les points mal modliss
r() =
(8.2)
Le rsidu de Pearson prend une valeur d'autant plus leve que est proche de 0 ou de 1. Certains auteurs arment que la distribution de r est approximativement gaussienne N (0, 1). Ainsi, tout point en dehors de l'intervalle 2 (au niveau de conance 95%) sont suspects [10] (page 82). D'autres pensent que cette approximation n'est licite que dans le cadre des donnes groupes, lorsque un nombre susamment lev d'observations partagent la mme description [9] (page 175). Notre opinion est qu'il ne faut pas trop se focaliser sur des hypothtiques valeurs seuils. Il est plus important de dtecter les ventuels dcrochements, les observations qui prennent des valeurs inhabituelles par rapport aux autres. Un graphique est trs prcieux pour cela. Voyons ce qu'il en est du rsidu de Pearson sur nos donnes COEUR. Construisons les 2 graphiques des rsidus : (age, r) et (taux max, r). Pour obtenir les rsidus de Pearson, nous avons d'abord estim les paramtres de la rgression, puis calcul les projections C et . Nous avons form le terme d'erreur e = y . Enn, nous produisons le
Page: 137 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
138
Fig. 8.3.
Fig. 8.4.
rsidu de Pearson (Figure 8.3). Les graphiques des rsidus sont diants, surtout en les mettant en rapport avec le nuage de points dans l'espace de reprsentation : manifestement, le point no 5 pose problme. Il est particulirement mal modlis (Figure 8.4). Le rsidu r(5) = 3.757 prend une valeur d'autant plus extrme que (5) = 0.06. Le point no 11, qui lui aussi est mal modlis, se dmarque moins parce que
(11) = 0.70.
A partir du rsidu de Pearson, nous pouvons driver un indicateur, Plus faible sera sa valeur, meilleure sera la rgression.
la statistique 2 de Pearson.
Page: 138
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
2 =
139
(8.3)
Certains auteurs comparent sa valeur avec un seuil critique issu de la loi du 2 . Ce n'est pas trs conseill lorsque nous travaillons sur des donnes individuelles. L'approximation n'est pas trs bonne, les p-value sont fausses [9] (page 146). Il en sera autrement lorsque nous traitons des donnes groupes (chapitre 9).
Rsidus dviance
Le rsidu dviance pour un individu est dnie de la manire suivante
(8.4)
D=
d2 ()
(8.5)
Sur les donnes individuelles, la dviance ainsi calcule concide avec la dviance du modle DM que nous avons prsente plus haut, lorsque nous dcrivions les quantits optimiser lors du processus d'apprentissage (cf. page 17). Ici galement, les distributions approximes, loi normale pour d et loi du 2 pour D, ne sont vraiment prcises que dans le cadre des donnes groupes. On s'attachera avant tout dtecter les points qui "dcrochent" par rapport aux autres. Concernant le chier COEUR, le point no 5 mal modlis se dmarque encore dans les graphiques des rsidus (Figure 8.5), moins fortement nanmoins qu'avec le rsidu de Pearson.
(8.6)
o X ((n (J + 1)) est la matrice des descripteurs incluant la constante, et V est la matrice diagonale des (1 ).
Page: 139
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
140
Fig. 8.5.
Pour une observation , le levier est lu sur la diagonale principale. Il correspond la distance du point par rapport au barycentre du nuage, pondr par (1 ), nous avons
h() = ()(1 ())x()(X V X)1 x () x() est la description de l'individu c.--d. x() = (1, x1 (), . . . , xJ ()).
(8.7)
Attention, de par sa formule, h() est sur-estim lors () 0.5 ; il est sous-estim lorsque () 0 ou () 1. On montre facilement que [9] (page 169)
h=
h() J +1 = n n
h() 2 h
Mais comme d'habitude, mieux vaut surtout distinguer visuellement dans un graphique les points qui prennent des valeurs inusuelles. Dans le chier COEUR, on notera que les points no 6 et no 11 sont loigns des autres dans l'espace de reprsentation (Figure 8.6). Le levier les met en vidence avec des valeurs suprieures au seuil 2
o 2+1 20
0.3. Notons que le point n 5 qui tait si mal modlis (cf. rsidus de Pearson et rsidu dviance) ne ressort
pas particulirement avec cet indicateur. C'est tout fait normal. Il est noy au milieu des autres points, il n'est en rien atypique au sens des descripteurs
Page: 140 job: regression_logistique
141
Fig. 8.6.
y () =
h( , ) y( )
c.--d. dans la colonne no de la hat-matrix H, lorsque nous ralisons la somme du produit h(, )
h() = h(, ) =
h2 ( , )
Ainsi, la valeur lue sur la diagonale principale de la hat-matrix s'avre tre en ralit un indicateur de l'inuence globale du point sur la prdiction des valeurs de tout autre point de l'ensemble de donnes.
Page: 141 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
142
Fig. 8.7.
Vrions ce comportement sur le chier COEUR (Figure 8.7) : Dans un premier temps, nous avons ralis la rgression sur les n = 20 observations. Nous avons calcul les probabilits prdites , puis nous avons construit un graphique avec en abcisse le numro de point, en ordonne (courbe bleue). Nous avons ensuite calcul le levier de chaque point. On note par exemple que le point no 17 avec
h(17) = 0.0768 ne pse pas beaucoup sur la prdiction des probabilits des autres.
Pour le vrier, nous avons relanc la rgression sur n = 19 points en excluant l'observation no 17. Puis, de nouveau, nous avons calcul , nous avons report les valeurs dans notre graphique (courbe jaune). Pour le point no 17 nous avons pris la valeur initialement fournie par la rgression sur tous les points. On constate que les deux courbes (bleue et jaune) se superposent (presque) compltement. Manifestement, l'observation no 17 n'a aucune incidence sur les prdictions.
Page: 142 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
143
Tournons nous maintenant vers le point no 6 avec un levier lev h(6) = 0.3848. Nous ritrons les mmes oprations c.--d. retirer le point des donnes, relancer la rgression avec n = 19 observations, calculer les prdictions (courbe orange). La situation est tout autre. La courbe se dmarque des deux prcdentes. On notera entre autres les fortes dirences pour les points no 3, no 4, no 8, etc. L'observation no 6 pse normment dans la prdiction. Le levier met en vidence ce comportement.
r() rs () = 1 h()
et rsidu dviance standardise
(8.8)
d() ds () = 1 h()
(8.9)
Le rsidu des observations forte inuence (h 1) est exacerb ; l'inverse, celles qui ont une faible inuence (h 0) voient leur valeur du rsidu rduite. Sur le chier COEUR, nous constatons que les rsidus, du fait de la standardisation, sont un peu modis (Figure 8.8) : certes, le point no 5 particulirement mal modlis, mme s'il a un levier assez faible, se dmarque toujours ; le point no 11 se distingue trs nettement maintenant, il est mal class et il a un levier fort.
1. Il existe une manire plus "mathmatique" de justier les rsidus standardiss. On sait que la variance de l'erreur thorique du modle est V () = (1 ), c'est en ce sens que l'on a dni de rsidu de Pearson. En revanche, la variance du rsidu, l'erreur observe sur les donnes, s'crit
V () = (1 )(1 h)
D'o la nouvelle correction aboutissant au rsidu de Pearson standardis. Le mcanisme est identique en rgression linaire multiple. Voir R. Rakotomalala, Pratique de la Rgression Linaire Multiple - Diagnostic et Slection de Variables, http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf, pages 33 36.
Page: 143 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
144
Fig. 8.8.
C() =
(8.10)
2. Pour une discussion plus approfondie sur les direntes manires de voir la Distance de Cook et sur les rgles de dtection des points inuents associes, voir R. Rakotomalala, Pratique de la rgression linaire multiple - Diagnostic et slection de variables, http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_ la_pratique.pdf ; pages 41 43.
Page: 144 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
145
Une lecture rapide de la formule nous indique que la conjonction d'un rsidu et un levier levs produit
C()
Deux remarques essentiellement :
4 nJ 1
La distance de Cook peut tre dnie partir du rsidu dviance. Certains logiciels (SPSS) ne normalisent pas par le nombre de paramtres (J + 1). La rgle de dtection devient C() 1 (voir page 169).
Fig. 8.9.
Sur le chier COEUR (Figure 8.9), plusieurs points attirent notre attention : Le point no 11 rvle sa vraie nature. Avec ou sans lui, les paramtres estims de la rgression sont trs dirents. Il s'agit l d'un point rellement inuent. Il est mal modlis (mal class) et on notera via le levier qu'il est un peu loign des autres. Le point no 5 pse fortement aussi parce qu'il est mal modlis, avec un rsidu standardis trs lev. Le point no 6 pse essentiellement parce qu'il est loign des autres (levier lev). Il est bien modlis (class) par ailleurs, le rsidu reste raisonnable.
8.1.6 DFBETAS
Les DFBETAS sont complmentaires la distance de Cook. Ils permettent d'identier le coecient sur lequel pse la prsence/absence du point . Nous pouvons les voir sous l'angle d'un test de comparaison de coecients. Ils nous donnent des lments de rponse la question : de quelle manire le point est atypique ? Le DFBETAS du coecient aj est calcul comme suit
DF BET ASj () =
(8.11)
Page: 145
job: regression_logistique
date/time: 21-Jun-2011/16:10
146
Fig. 8.10.
Les rsultats sur le chier COEUR nous claire sur le rle des points incrimins jusqu' prsent (Figure 8.10) : Le point no 6 pse surtout sur le coecient associ AGE. Ce n'est gure tonnant vu le positionnement de ce point dans l'espace de reprsentation. Il a 35 ans lorsque la moyenne d'ge (sans lui) est de 52.63. Le point no 11 lui se distingue par sa faible valeur de TAUX MAX. L galement, l'individu porte une valeur qui semble plutt faible (115) par rapport la moyenne du reste de l'chantillon (153.37). Il pse donc sur le coecient de TAUX MAX c.--d. il modie la pente de la droite sparatrice des positifs et ngatifs, mais aussi sur la constante, il dcale la frontire (voir section 11.3 pour apprcier pleinement ce commentaire). Enn, le point no 5 est un vrai problme Que fait ce positif au milieu de tous ces ngatifs ? Si on le retire de l'chantillon d'apprentissage, rien ne serait pareil. Il existe une version non standardise de cet indicateur : les DFBETA. Elles se justient surtout lorsque les variables sont mesures sur une mme chelle, ou lorsqu'elles sont exclusivement composes d'indicatrices (voir les "covariate pattern", section 9.4.3). Lorsque les explicatives sont quantitatives et dnies sur des units direntes, passer une mesure standardise (DFBETAS, divise par l'cart-type du coecient aj ) nous autorise comparer les valeurs d'une variable l'autre.
147
cette ide lors de l'interprtation du coecient associe une variable explicative continue (section 5.2.2). Comme nous avions pu le dire dj, cette contrainte est assez forte. En eet, comment peut-on imaginer qu'une variation de 10 ans ait le mme impact sur une ventuelle maladie cardiaque que l'on ait 20 ans ou 40 ans. Il nous faut donc, d'une part, vrier que la variation du LOGIT ne dpend pas de la valeur de X , et si l'hypothse de linarit ne tient pas la route, proposer des mthodes pour prendre en compte la non-linarit dans le modle nal.
4. Si le LOGIT est linaire par rapport X , le nuage de points forme une droite. 5. Le seconde caractristique vrier est l'volution monotone ou non du LOGIT par rapport X . Cette procdure peut poser problme lorsque tous les individus sont positifs (resp. ngatifs) dans un intervalle. Il est conseill dans cas de mettre arbitrairement = 0.99 (resp. = 0.01) ([10], page 70). L'norme avantage de cette mthode est qu'elle nous renseigne non seulement sur le caractre linaire ou non du LOGIT, mais aussi sur la forme de la relation dans le cas o elle ne serait pas linaire.
148
Fig. 8.11.
Fig. 8.12.
nous lisons le coecient de la manire suivante : lorsque le BODYMASS augmente d'une unit, l'individu a 1.1079 fois plus de chances d'avoir du diabte, ceci quel que soit son poids (Figure 8.11). Voyons maintenant si l'hypothse de linarit est susceptible d'tre remise en cause en construisant notre graphique d'identication. Nous avons labor notre tableau de calcul de la manire suivante (Figure 8.12) : 1. La premire colonne no sert uniquement numroter les intervalles. 2. La seconde correspond aux dciles. 3. Nous avons les eectifs cumuls. 4. Par direnciation nous avons les eectifs dans chaque intervalle. Ils ne sont pas gaux parce que n n'est pas divisible par 10, et il y a parfois des ex-aequo. 5. Nous comptabilisons galement les eectifs cumuls des positifs. 6. Nous obtenons par direnciation le nombre de positifs dans chaque intervalle. 7. Nous en dduisons la proportion de positifs . 8. L'odds
1 . 9. Et le log-odds ou le LOGIT ln 1 .
Il ne nous reste plus qu' construire le graphique en prenant en abcisse la moyenne de X dans chaque intervalle, et en ordonne le LOGIT (Figure 8.13). Plusieurs commentaires nous viennent immdiatement :
Page: 148 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
149
Fig. 8.13.
Manifestement, la relation n'est pas linaire. Elle est nanmoins monotone et volue par paliers. Nous pouvons visuellement dtecter les seuils o l'volution s'acclre ou ralentit. Nous avons mis en couleur les direntes zones dans le tableau de calcul (Figure 8.12). Cette information est importante car nous pourrons nous en servir pour recoder correctement la variable X dans la rgression logistique.
fractional polynomials ;
[9], pages 100 et 101). L'ecacit de ces mthodes n'est pas mise en doute, mais elles sont assez fastidieuses mettre en oeuvre. D'autant plus qu'il faudra par la suite interprter le coecient associ la variable transforme. Une solution simple est la discrtisation c.--d. le dcoupage en intervalles (ou le regroupement en classes) de la variable explicative. A partir de X , nous drivons une srie d'indicatrices D1 , D2 , . . . destines matrialiser chaque intervalle. Nous devons rpondre une srie de questions pour produire un codage ecace : 1. Combien d'intervalles devons-nous produire ? La question est d'importance, il s'agit de ne pas les multiplier inutilement. Il importe surtout que dans chaque groupe, le comportement de la variable dpendante Y , ou plus prcisment du LOGIT, soit cohrent. Dans notre exemple (Figure 8.13 ), nous dtectons visuellement 4 paliers. On peut envisager un dcoupage en 4 classes.
Page: 149
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
150
2. Seconde question corollaire la premire, comment dnir les bornes de dcoupage ? La rponse est
3. Dernier point important, quel type de codage des indicatrices adopter ? Si la relation est monotone, nous avons tout intrt adopter un codage 0/1 embot pour relater le caractre monotone de l'volution du LOGIT. Les coecients de la rgression traduisent alors le surcrot de risque en passant d'un niveau (un intervalle) celui qui lui succde. Dans le cas contraire, la relation est non monotone, cette contrainte fausse les calculs, nous devons adopter un codage disjonctif simple. La lecture devient moins aise cependant. Il faut avoir une ide prcise sur la modalit (l'intervalle) de rfrence pour que l'interprtation des coecients tienne la route.
Fig. 8.14.
Nous matrialisons dans le graphique mettant en relation le LOGIT et BODYMASS ces indicatrices (numro) et les bornes de discrtisation (en rouge pointills) (Figure 8.14). Il ne nous reste plus qu' relancer la rgression logistique avec ces nouvelles variables (Figure 8.15) :
Page: 150 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
151
Manifestement, un changement de palier de BODYMASS induit un surcrot de risque de diabte Le premier palier est le plus important. On s'en serait dout la vue du graphique des LOGIT en fonction de BODYMASS. Apparemment, les individus ont OR(1/0) = e1.585178 = 4.8802 fois plus chances d'avoir le diabte lorsque nous passons du palier no 0 au no 1. Les autres changements de paliers sont moins spectaculaires. Ils n'en sont pas moins signicatifs :
Fig. 8.15.
overtting ) avec un degr de libert qui baisse dangereusement. A force de multiplier les
indicatrices, nous aboutirons un modle qui marche trs bien eectivement sur le chier de donnes, mais qui s'eondre totalement ds que nous le dployons dans la population. La discrtisation n'est donc certainement pas la panace. C'est un outil qu'il faut savoir utiliser avec discernement, comme tous les outils. Dans certaines situations, il est plus judicieux de passer par des transformations de X l'aide de fonctions mathmatiques pour rpondre la non-linarit.
152
pour dtecter automatiquement les situations de non-linarit, quitte revenir par la suite sur le graphique pour tudier de manire approfondie la forme de la relation. Le principe du test de Box-Tidwell est le suivant : 1. Pour une variable X que l'on souhaite valuer ; 2. Nous crons la variable transforme Z = X ln X ; 3. Que nous rajoutons parmi les explicatives. Nous conservons toutes les autres variables, y compris X ; 4. Si le coecient de Z est signicatif, cela indique que la variable X intervient de manire non linaire sur le LOGIT ; 5. Il reste alors identier la forme de la relation, l'outil graphique reste le moyen privilgi dans ce cas. Avec les logiciels proposant un langage de programmation (le logiciel R par exemple), implmenter cette procdure est trs facile. Nous pouvons tester un grand nombre de variables. On note nanmoins une faible puissance du test. Il dtecte mal les faibles carts la linarit ([10], page 70). De plus, il ne nous donne aucune indication sur la forme de la relation.
Fig. 8.16.
Page: 152
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
153
Fig. 8.17.
o aj est le coecient estim relatif la variable Xj dans la rgression incluant toutes les variables. Si la relation est linaire, le nuage (Xj , ) ne doit pas prsenter de forme particulire. Ou si on utilise une forme de lissage des points, la courbe lisse doit former une droite ! . Concernant notre exemple ctif, on se rend compte dans le graphique des rsidus partiels que X entretient bien une relation de type X 2 avec la variable dpendante (Figure 8.18). Nous passons donc la rgression Y = b0 + b1 X + b2 Z et nous souhaitons savoir si cette transformation est susante. Nous estimons les paramtres l'aide des donnes. Nous formons ensuite les rsidus partiels tels que nous les avons dnis ci-dessus " .
3. Nous reviendrons sur cet aspect lorsque nous prsenterons les rsidus partiels dans le cadre de la rgression logistique. 4. Une autre possibilit serait d'utiliser les rsidus partiels "augments" pour lesquels nous introduisons tous les coecients et formes de la variable
= (y y ) + 1 X + 2 Z b b
Page: 153
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
154
Fig. 8.18.
Rsidus partiels = (y y) + a1 X
Fig. 8.19.
Rsidus partiels = (y y) + 1 X + 2 X 2 b b
Nous crons le graphique nuage de points (X, ). Si les bonnes transformations ont t introduites, le graphique ne doit plus prsenter de "formes" particulires (ou le graphique liss doit avoir la forme d'une droite). C'est le cas pour notre exemple (Figure 8.19).
rj =
y + aj xj (1 )
(8.13)
Nous laborons la forme lisse du nuage de points (xj , rj ). Si elle forme une droite, on peut conclure la linarit du LOGIT par rapport la variable Xj . Sinon, en nous inspirant de la forme de la courbe, nous introduisons la variable transforme dans la rgression, puis nous calculons de nouveau les rsidus partiels. Deux lments important doivent attirer notre attention :
Page: 154
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
155
1. Nous utilisons la courbe lisse et non pas le nuage de points brut pour valuer la forme de la relation. En eet, la disposition des observations est trop erratique dans le repre. Nous voulons avant tout dgager une tendance. Dans notre support, nous utilisons une procdure de lissage trs fruste qui consiste dcouper Xj en L intervalles pour lesquelles nous calculons les moyennes xj,l ; puis les moyennes des rsidus rj,l ; pour tracer enn une suite de segments reliant les L points (j,l ; rj,l ). x Dans les logiciels tels que R (package Design), le graphique est ralis via un lissage de type loess (locally
weighted regression ). La procdure consiste dnir une srie de points quidistants sur l'axe
des abcisses ; de calculer une rgression pondre dans le voisinage de ces points ; puis d'utiliser les quations de rgression pour calculer la coordonne en ordonne. Il ne reste plus qu' relier les points par des segments # . Il faut avouer que le graphique a nettement plus d'allure avec cette procdure. 2. Certains logiciels (R avec le package Design pour ne pas le nommer encore) utilisent un autre formulation des rsidus partiels
rj =
y + a0 + aj xj (1 )
Cela induit un simple dcalage sur l'axe des ordonnes. Il n'y a aucune incidence sur les conclusions que l'on pourrait tirer du graphique des rsidus partiels.
Un exemple d'application
Nous reprenons le chier PIMA, nous utilisons 3 variables explicatives maintenant : BODYMASS, PLASMA et AGE. La rgression sour Tanagra nous indique que les 3 explicatives sont toutes trs signicatives (Figure 8.20). L'AIC (critre Akaike) du modle est AIC = 732.958. On pourrait s'en satisfaire et s'en tenir l. Essayons quand mme de voir comment sont disposs les rsidus de la rgression partiellement la variable AGE . Nous dtaillons la dmarche dans une feuille Excel (Figure 8.21) : Nous avons reports les coecients estims de la rgression dans le feuille Excel. Nous en tirons le LOGIT prdit
c = 9.03238 + 0.089753 BODY M ASS + 0.035548 P LASM A + 0.028699 AGE 1 c 1 + e A partir de ces informations, nous formons les rsidus partiels (nous utilisons la constante comme =
dans R pour rendre les rsultats comparable) et la probabilit prdire
rage =
rage =
5. Pour une description approfondie de loess, voir W.G. Jacoby, Statistical Graphics for Univariate and Bivariate Data, Quantitative Applications in the Social Sciences no 117, Sage Publications, 1997 ; pages 64 83.
Page: 155 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
156
Fig. 8.20.
31 40, etc.) et, dans chaque bloc, nous calculons la moyenne de l'ge et celle des rsidus partiels rage .
Il ne nous reste plus qu' former le graphique (Figure 8.21). On notera que la relation n'est absolument pas linaire mais quadratique en AGE. Il serait tout fait judicieux de rajouter la variable synthtique AGE2 = AGE 2 parmi les explicatives. Nous avons calcul la nouvelle rgression (Figure 8.22). Nous notons que la variable AGE2 est trs signicative dans la rgression $ et, surtout, nous constatons que le modle ainsi labor est nettement meilleur que le prcdent. Le critre Akaike est pass de AIC = 732.958 AIC = 701.998 (idem pour le critre BIC qui baisse fortement en passant de 751.449 725.111). Il fallait bien cette transformation. Lorsque nous recalculons les rsidus partiels par rapport AGE dans le nouveau modle. Nous constatons maintenant que les point sont (sagement) aligns sur une droite (Figure 8.23). L'adjonction de AGE 2 nous a permis de mieux prendre en compte la contribution de l'ge dans l'explication de la variable dpendante.
6. On notera que la contribution de AGE a t modie aussi, sa signicativit est plus forte. 7. Avec un peu de recul, on se rend compte que la procdure que nous utilisons sous Excel est une version trs fruste de LOESS, sauf que : nous ne pondrons pas les points dans le voisinage ; nous utilisons un polynme
Page: 156 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
157
Fig. 8.21.
Fig. 8.22.
de degr zro pour estimer la position du point sur l'ordonne. D'o des graphiques qui sont assez similaires nalement.
Page: 157 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
158
Fig. 8.23.
DIABETE = f(BODYMASS, PLASMA, AGE, AGE 2 ) - Rsidus partiels par rapport AGE
pour construire la courbe des rsidus partiels. Comme nous le disions plus haut, elle a quand mme plus d'allure, elle est moins heurte. Le code utilis est le suivant
#rgression avec lrm modele <- lrm(DIABETE ~ BODYMASS + PLASMA + AGE, x=T, y=T, data=donnees) print(modele) #graphique des rsidus partiels par(mfrow=c(2,2)) plot.lrm.partial(modele) #construire le carr de AGE et le rajouter aux donnes age2 <- donnees$AGE^2 donnees <- cbind(donnees,age2) #rgression avec lrm modele.bis <- lrm(DIABETE ~ BODYMASS+PLASMA+AGE+age2, x=T, y=T, data=donnees) print(modele.bis) #nouveau graphique des rsidus partiels par(mfrow=c(2,2)) plot.lrm.partial(modele.bis)
Nous retrouvons la trame ci-dessus (Tanagra + Excel). Voyons les principaux rsultats :
Page: 158
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
159
Fig. 8.24.
Les coecients de la rgression sont bien videmment les mmes que ceux de Tanagra. La grande nouveaut ici est que nous disposons automatiquement des rsidus partiels par rapport toutes les variables explicatives (Figure 8.24). Un seul coup d'oeil sut dtecter les congurations problmes. On y constate que PLASMA est pris en compte correctement avec une relation linaire ; nous savions dj quoi nous en tenir par rapport BODYMASS (voir section 8.2.1) ; la relation par rapport AGE est manifestement quadratique. Nous avons donc cr la variable AGE 2 , nous l'avons insre dans la rgression, puis nous avons de nouveau demand les rsidus partiels (Figure 8.25). C'est quand mme beau la science. Avec cette nouvelle variable, le rle de l'ge est parfaitement pris en compte dans la dtermination du diabte chez les indiens PIMA. Les rsidus partiels par rapport AGE et AGE 2 suivent une droite presque parfaite. A titre de vrication, nous achons les 10 premires valeurs des rsidus partiels pour le 1er et le
2nd modle (Figure 8.26). Il faut comparer les valeurs de la colonne AGE avec ceux produits sous Excel
(Figure 8.22 et 8.23). La correspondance est exacte. C'est toujours rassurant.
Page: 159
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
160
Fig. 8.25.
DIABETE = f(BODYMASS, PLASMA, AGE, AGE 2 ) - Rsidus partiels pour chaque explicative
Fig. 8.26.
Page: 160
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Fig. 9.1.
Prenons un exemple pour illustrer notre propos. Le chier HYPERTENSION est compos de n = 399 observations. La variable dpendante HYPERTENSION prend 2 valeurs possibles {high : +, normal :
} ; les variables explicatives sont SURPOIDS (3 valeurs possibles, {1, 2, 3}) et ALCOOL (3 valeurs
possibles, {1, 2, 3}). Dans le chier, il y a 3 3 = 9 combinaisons distinctes des variables explicatives. On dit qu'il y a
M = 9 "covariate pattern" (ou groupes). A chaque combinaison sont associs nm individus, dont une
partie sont positifs. Nous notons ym le nombre d'observations positives dans le groupe m, fm est la proportion observe de positifs, et m la probabilit a posteriori d'tre positif que l'on veut modliser l'aide de la rgression logistique. Nous avons rsum ces informations dans un tableau (Figure 9.1) :
Page: 161
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
162
= 0.34.
Nous pouvons faire de mme pour chaque groupe. Nous disposons n = 399 observations. Et le nombre total de positifs dans le chier est n+ = 228. La prvalence des positifs (si le chier est issu d'un tirage alatoire simple dans la population) est donc estim avec p =
228 399
= 0.57.
Pourquoi s'intresser cette conguration qui n'est qu'un cas particulier nalement ? La premire dirence est dans la modlisation de la variable alatoire ym , elle suit une loi binomiale B(nm , m ), la varisemblance et la log-vraisemblance s'crivent diremment [23] (pages 435 et 436). En pratique, les cas des donnes groupes nous emmne considrer 2 nouveaux lments : 1. Nous disposons de nouvelles statistiques d'valuation de la rgression bases sur les rsidus. 2. Nous pouvons analyser nement le rle de chaque groupe pour dtecter ceux qui prsentent des caractristiques particulires ou qui psent de manire exagre sur les rsultats. Lorsque les donnes sont issues d'exprimentations, cette fonctionnalit nous permet de situer le rle de chaque groupe exprimental dans la rgression.
hm = nm m (1 m )xm (X V X)1 x m
(9.1)
n observations individuelles (voir section 3.3.1) (Figure 9.2). Mais nous pouvons galement la calculer
partir des donnes rduites aux "covariate pattern". Dans ce cas, la matrice X comporte M lignes et
J + 1 colonnes ; V est une matrice diagonale de terme gnrique nm m (1 m ) (Figure 9.3). Sur
les donnes HYPERTENSION, on notera que la matrice X comporte les 9 combinaisons de valeurs que nous pouvons former avec les variables explicatives, la premire colonne tant toujours la constante. La matrice V est de taille (9 9). La matrice de variance covariance obtenue concorde avec celle calcule sur les donnes individuelles produite par le logiciel R.
Page: 162
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
163
Fig. 9.2.
Fig. 9.3.
5% (Figure 9.4).
A partir d'ici, nous pouvons produire le LOGIT pour chaque "covariate pattern" et en dduire la quantit m . Voyons ce qu'il en est pour le premier prol de coordonnes (alcool = 1, surpoids = 1) :
= 0.3365
1 (1 1 ) = 0.2233
0.15655 0.04066 0.03370 1 0.04066 0.01775 0.00288 1 = 0.4811 h1 = 47 0.2233 1 1 1 0.03370 0.00288 0.01449 1 ( )
Nous avons complt le tableau des leviers (Figure 9.5). Essayons d'en analyser le contenu :
Page: 163
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
164
Fig. 9.4.
Fig. 9.5.
puisque 0.4811 + 0.1865 + 0.4991 + + 0.3513 = 3. Dans le cadre des "covariate pattern", les donnes sont souvent binaires ou correspondent des chelles (notre conguration), essayer de dtecter des points atypiques l'aide du levier n'a pas trop de sens. Le levier prend des valeurs leves essentiellement lorsque la conjonction de 2 vnements survient : l'eectif du groupe nm est lev, il est mal modlis c.--d. m 0.5. Pour les donnes HYPER TENSION, nous distinguerons les covariate pattern no 1, no 3 et surtout le no 7. Ils psent fortement sur les rsultats de la rgression. Souvent un histogramme des leviers permet de reprer facilement ces groupes (Figure 9.6).
Page: 164
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
165
Fig. 9.6.
Ils mettent
Les statistiques de tests qui en sont drives, sous l'hypothse de l'adquation du modle aux donnes, suivent une loi du 2 . Nous pouvons ainsi vrier si le modle est correct. Notons que l'approximation de la loi statistique n'est plus valable ds que nous nous rapprochons de la conguration des donnes individuelles, avec M n.
groupes avec M n.
Ce qui limite l'utilisation de ces tests aux seuls cas des donnes
ym ym rm = nm m (1 m )
(9.2)
o ym = nm m est le nombre prdit de positifs dans le groupe m, estime par la rgression logistique. Le rsidu de Pearson sera d'autant plus grand que : 1. La prdiction ym est mauvaise ; 2. Les eectifs nm sont faibles ; 3. La probabilit estime m est proche de 0 ou de 1.
Page: 165
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
166
2 =
2 rm
(9.3)
Si le modle tudi est exact, et si nm est assez grand quel que soit m, alors la statistique de Pearson suit une loi du 2 (M J 1) degrs de libert. Nous pouvons utiliser ce test pour vrier l'adquation du modle au donne. Nous rejetons le modle si la p-value du test est plus petit que le risque de premire espce que nous nous sommes xs. Attention, dans le cas des donnes individuelles, avec M n, ce test n'est plus valable. Il ne faut surtout pas l'utiliser [9] (page 146). On appelle rsidu standardis de Pearson la quantit [9] (page 173)
rm rsm = 1 hm
Enn, on appelle "contribution la statistique de Pearson" [9] (page 174),
(9.4)
2 = m
2 rm 2 = rsm 1 hm
(9.5)
Elle indique (une approximation de) la diminution du 2 de Pearson si on supprime le prol m de la rgression. Elle est base sur une approximation linaire d'une courbe qui ne l'est pas [9] (page 174). Il n'en reste pas moins, nous le verrons dans l'exemple ci-dessous, qu'elle donne une ide assez prcise de la variation.
Fig. 9.7.
Nous appliquons les direntes formules ci-dessus pour obtenir les rsidus et la statistique de Pearson (Figure 9.7) :
Page: 166 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
167
Pour rappel, pour le groupe no 1, nous avons obtenu le LOGIT estim avec C1 = 1.673659 + = 0.3365
L'eectif estim y1 = n1 1 = 47 0.3365 = 15.8. Nous pouvons ds lors former les rsidus pour chaque groupe. Pour le premier, nous r1 = 1615.8 = 0.057. Nous obtenons la statistique de Pearson en faisant la somme des carrs des rsidus individuels
470.3365(10.3365)
no 3 des donnes (c.--d. tous les individus correspondant au prol no 3) et que nous relanons la
rgression, la statistique de Pearson que nous obtiendrons devrait tre aux alentours de (7.0711
3.716) = 3.355. Avec une loi du 2 (5), nous obtiendrions une p-value de 0.6454. La compatibilit des
donnes avec le modle serait renforce. Bien entendu, empressons-nous de vrier cela en ralisant les calculs sans le covariate pattern incrimin.
168
Fig. 9.8.
dm
[ ] ym nm y m = signe(ym ym ) 2 ym ln + (nm ym ) ln ym nm y m
(9.6)
dm =
et pour ym = nm
2nm | ln(1 m )|
dm =
On en dduit la dviance
2nm | ln(m )|
D=
M m=1
d2 m
(9.7)
Cette statistique quantie l'cart entre les probabilits estimes et les probabilits observes. Dans les mmes conditions que pour le rsidu de Pearson (nm assez grand, m ; M n), sous l'hypothse d'exactitude du modle, D suit une loi du 2 (M J 1) degrs de libert. A l'usage, on se rend compte, non sans raisons [23] (page 437), que la dviance est trs proche de la statistique de Pearson. Comme prcdemment, nous pouvons calculer la contribution d'un prol la dviance
2 Dm = d2 + rm m
hm 1 hm
(9.8)
Elle indique la rduction de la dviance si on retire le prol m de la rgression. Ici galement, nous pouvons la comparer avec un seuil critique dnie l'aide d'une loi du 2 (1) pour dtecter les carts signicatifs ( 5%, le seuil est 3.84).
Page: 168 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
169
Fig. 9.9.
Comme dans la section prcdente (section 9.3.1), le point de dpart est l'estimation des paramtres de la rgression. Nous numrons les grandes tapes de calcul (Figure 9.9) : Avec les paramtres estims, nous sommes en mesure de produire le LOGIT, la probabilit d'tre positif et les eectifs prdits pour chaque groupe. Ainsi, pour le groupe no 1, y1 = 15.8. Nous pouvons calculer le rsidu dviance (quation 9.6), par exemple [ ] 16 47 16 d1 = + 2 16 ln + (47 16) ln = 0.057 15.8 47 15.8 Il reste faire la somme des carrs des rsidus, soit D = (0.057)2 + (0.719)2 + (1.390)2 + +
D3 = (1.390)2 + (1.364)2
En comparant cette valeur avec le seuil de 2 10.05 (1) = 3.84, le prol mrite vraiment que l'on s'y penche srieusement. Si l'on retire ce prol des donnes et que nous r-estimons le modle, nous obtiendrons une dviance de (7.0690 3.787) = 3.28. Avec maintenant un 2 (5), la p-value serait de 0.6565. La conclusion est la mme qu'avec le rsidu de Pearson, le retrait du prol no 3 renforce la qualit du modle.
170
sont prsentes ou non dans les donnes. Elle est trs utilise en rgression linaire multiple pour dtecter les points inuents. La distance de Cook pour le prol m s'crit [9] (page 173)
2 ()m = rm a
hm hm 2 = rsm (1 hm )2 1 hm
(9.9)
La distance de Cook est dsigne sous cette appellation dans le logiciel R. Nous montrons un exemple d'application dans la section suivante.
(9.10)
hm (1 hm )2
(9.11)
Par rapport CBAR, le critre C rend plus fort l'eet du levier mesure que ce dernier augmente.
C1 = (0.057)2
et
C1 = (0.057)2
Manifestement, il y a des choses dire sur les prols no 3 et no 7 : nous savons que le no 3 pose problme parce qu'il est mal modlis ; le no 7 pse parce qu'il prsente un levier lev (on le voit bien, C7 > C3 alors que dans le mme temps C7 < C3 , l'indicateur C accentue le rle du levier), il est de plus assez mal modlis si l'on se rfre aux contributions au 2 de Pearson et la dviance.
Page: 170 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
171
Fig. 9.10.
Agrmenter la prsentation d'un graphique simple permet de dtecter rapidement les prols considrer avec attention. De manire gnrale, il est possible de dnir toute une srie de graphiques qui permettent de dtecter visuellement les prols tudier en priorit (un nuage de points entre m en abcisse et
2. Voir [9], pages 176 182 pour plusieurs propositions de graphiques. Certains sont particulirement judicieux, notamment lorsque les auteurs proposent de rendre la taille des points proportionnels . a
Page: 171 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
172
ym ym (9.12) 1 hm DFBETAS mesure un cart normalis par l'cart-type du coecient estim, il est surtout intressant DF BET Aj,m = (X V X)1 x m
lorsque les variables sont mesures sur des chelles direntes
(9.13)
Ici galement, ces indicateurs ont t principalement dvelopps dans le cadre de la rgression linaire. Il s'agit donc d'approximations pour la rgression logistique. Nous le verrons cependant pour nos donnes, ils sont relativement prcis. Lorsque les variables explicatives sont (1) mesures sur la mme chelle (ex. mmes units), ou (2) directement des chelles de valeurs (cf. l'exemple Hypertension), ou (3) exclusivement des indicatrices, nous avons intrt utiliser directement le DFBETA. L'interprtation n'en sera que plus aise. Dans le cas des donnes groupes, nous sommes souvent dans les situations (2) ou (3).
Comment interprter la valeur d'un DFBETA relatif un coecient d'une variable explicative ?
Si l'on supprime le prol m des donnes et que l'on estime le modle sur les donnes restantes, le nouveau coecient estim pour la variable Xj s'crira
(9.14)
Nous disposons du nouveau coecient sans avoir relancer explicitement l'estimation par le maximum
Fig. 9.11.
Toutes les informations ncessaires aux calculs ont t produites au fur et mesure que nous avancions dans ce chapitre consacre aux "covariate pattern". Nous produisons le tableau recensant les DFBETA pour chaque prol (Figure 9.11), nous dtaillons le calcul pour le prol no 7 :
Page: 172
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
173
38 33.7 ym ym = = 10.05410 1 hm 1 0.576 0.00088 0.009 ym ym (X V X)1 x = 0.01548 10.05410 = 0.156 m 1 hm 0.106 0.01055
Ce sont les valeurs que nous retrouvons pour le covariate pattern no 7 dans notre tableau rcapitulatif (Figure 9.11, les valeurs ont t transposes en ligne). Voyons maintenant comment lire ces informations. Lorsque nous retirons le prol no 7 de nos donnes, Le coecient de ALCOOL va tre diminu de 0.156 (quation 9.14) ; Le coecient de SURPOIDS va tre augment de 0.106. Moralit : le prol no 7 a tendance exacerber le rle de l'ALCOOL et attnuer le rle du SURPOIDS dans la dtermination du risque d'hypertension. A bien y regarder, on comprend le mcanisme. Il s'agit d'une population "d'alcolos maigrichons". L'ALCOOL prend une valeur leve (ALCOOL = 3), SURPOIDS faible (SURPOIDS = 1), et il y a f7 =
38 63
= 60.3% de positifs dans ce prol. Il n'est gure tonnant que le rle de l'ALCOOL soit
si dcri partir de ce prol. On remarquera par ailleurs que le prol no 3 joue exactement le rle contraire. Ce sont des gros (SURPOIDS = 3) sobres (ALCOOL = 1), et il y a une majorit de positifs f3 = prol no 7.
39 55
des DFBETA dans le tableau rcapitulatif sont sans surprises, il vont dans le sens contraire de celles du
174
Fig. 9.12.
non-signicative
retirant le prol
o
no 7 ,
totalit des donnes. En conclusion de cette section, nous dirons que ces outils nous permettent de caractriser les prols d'individus en identiant leur rle dans la dtermination des rsultats de la rgression. Ils s'avrent particulirement prcieux lorsque nous souhaitons valider ou faire valider par un expert les rsultats. Ils concourent nous prmunir de
lorsque nous traitons des donnes l'aide de techniques avant tout numriques.
nous travaillons sur des donnes individuelles, cette condition est naturellement satisfaite. Lorsque nous
2 travaillons sur des donnes groupes, la variance devrait tre Ym = nm m (1 m ). Cette caractristique
peut ne pas tre respecte pour plusieurs raisons [10] (page 89) : une variable explicative importante n'est pas prsente ; un ou plusieurs groupes se dmarquent fortement des autres ; les donnes sont organises par blocs, autres que les covariate pattern ; ou tout simplement parce que le modle ne convient pas. On parle de sur-dispersion (resp. sous-dispersion) lorsque la variance Y est plus grande (resp. plus petite) que prvue. La principale consquence est une mauvaise estimation des carts-type des paramtres [7] (page 90). Lorsqu'il y a sur-dispersion, les tests de Wald ont tendance tre exagrment signicatifs car les carts-type sont sous valus (inversement pour la sous-dispersion). Le mme commentaire est valable pour les tests de rapport de vraisemblance. Toute la statistique infrentielle est donc fausse. Pour estimer la dispersion, on propose d'utiliser l'indicateur
D M J 1
(9.15)
o D est la dviance (section 9.3.2, on aurait pu utiliser la statistique de Pearson aussi) ; M J 1 reprsente le degr de libert.
Page: 174
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
175
Lorsque 1, tout va bien ; lorsque > 1 (resp. < 1), il y a sur-dispersion (resp. sous-dispersion). Bonne nouvelle, il est possible de corriger les carts-type estims en introduisant le facteur comme suit :
aj = aj
(9.16)
Fig. 9.13.
Nous avions calcul la dviance pour les donnes HYPERTENSION plus haut, D = 7.0690, avec
Il y a une lgre sur-dispersion dans cette modlisation. Nous introduisons le facteur de correction = 1.178 = 1.0854 dans l'estimation des carts-type des coecients et dans la dnition des tests de signicativit individuels (Figure 9.13). La correction des carts-type est relle. Mais la signicativit des coecients n'est pas modie par rapport au modle originel (Figure 9.4).
Page: 175
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 176
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
que l'chantillon n'est pas reprsentatif. On suppose que nous pouvons connatre p par d'autres moyens, ou tout du moins nous pouvons faire des hypothses crdibles sur sa vritable valeur. Plusieurs questions se posent lorsque nous lanons les calculs sur un chantillon non reprsentatif : Est-ce que nous pouvons retrouver les "vrais" coecients que l'on aurait estim si nous avions travaill sur un chantillon reprsentatif ? Quelle est la nature des corrections introduire pour produire la prdiction y de la classe d'appar tenance d'un individu ? Quelle est la nature des corrections introduire lors du calcul de sa probabilit a posteriori d'tre positif ? Dans quel cadre pouvons-nous utiliser tels quels les rsultats de la rgression sans introduire de correction ? Cette question est trs importante car l'obtention de p peut parfois poser problme. Est-ce que nous sommes totalement dmunis dans ce cas ? Dans ce chapitre, nous privilgions l'approche analytique parce que la rgression logistique s'y prte merveille. Pour certaines mthodes supervises, ce n'est pas possible. On doit alors se tourner vers les approches empiriques, plus gnriques, et adaptes tous les contextes, que le score soit mal calibr ou
Page: 177 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
178
pas (les probabilits sont agglutines autour de certaines valeurs), qu'il corresponde une probabilit ou non (un score peut prendre des valeurs en dehors de [0; 1], qu'importe s'il arrive ordonner les individus selon leur propension tre positif) .
10.1.1 Donnes
Nous utiliserons des donnes simules pour illustrer ce chapitre. Nous voulons prdire les valeurs d'une variable binaire Y en fonction de deux prdictives continues X1 et X2 . Nous disposons de 3 chiers : 1. Un chier d'apprentissage non reprsentatif avec n+ = 30 et n = 40 (ANR70). Nous l'utiliserons pour construire le modle de prdiction. 2. Un premier chier test non reprsentatif avec toujours 30 positifs et 40 ngatifs (TNR70). Il nous servira montrer comment calculer le taux d'erreur sur un chantillon non reprsentatif. 3. Un second chier test reprsentatif avec 10.000 positifs et 50.000 ngatifs (TR60K). On considrera que la vraie prvalence est p =
1 6
= 0.1667.
Dans les tudes relles, nous disposons de ANR70, ventuellement de TNR70, jamais de TR60K.
10.1.2 Correction du logit pour les chantillons non reprsentatifs Correction du logit via le taux de sondage
On note C le logit obtenu sur les donnes d'apprentissage non reprsentatives, C celui que l'on obtiendrait si on travaillait sur un chantillon reprsentatif. Ils sont lis par la relation suivante ([9], pages 205 210 ; [23], pages 431 434 ; [2], pages 67 et 68 ; [3], pages 79 82)
C = ln
+ +C
(10.1)
o + (resp. ) est le taux de sondage chez les positifs (resp. ngatifs). Comment pouvons nous ramener cette expression la prvalence p ? Mettons qu'il y a N observations dans la population, dont N+ positifs. La prvalence est p = la prvalence avec
N+ N .
Le taux de sondage + =
n+ N+
correspond
la proportion d'individus que l'on a extrait dans le groupe des positifs. Nous pouvons nous ramener
+ =
n+ n+ = N+ pN
1. Voir R. Rakotomalala, Redressement - Aectation optimale dans le cadre du tirage rtrospectif - Approches analytiques et empiriques, http://eric.univ-lyon2.fr/~ricco/cours/slides/affectation_optimale_
et_redressement.pdf
Page: 178 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
179
ln
C = ln
Commentons tout cela :
n+ p + ln +C n 1p
(10.2)
En partant des rsultats fournis pas les logiciels sur les donnes non reprsentatives, il sut de connatre la prvalence p pour produire les coecients corrigs.
explicatives ne sont pas modis. On peut aller plus loin mme : toute l'infrence statistique qui porte sur ces coecients est valable (intervalle de conance, test de signicativit), il en est de mme en ce qui concerne les interprtations (odds-ratio). C'est un rsultat trs important.
Dans les contextes o le principal objectif est de classer les observations selon leur degr de positivit (scoring, construction de la courbe ROC, etc.), les rsultats obtenus sur les donnes non reprsentatives peuvent tre utilises tels quels, sans correction. En eet,
que l'on corrige ou pas, les individus seront ordonns de la mme manire.
Il est possible d'obtenir les probabilits a posteriori corriges avec des calculs simples.
a = a0 ln 0
180
Fig. 10.1.
a0 a1 a2
1.805766
-
On notera principalement (1) que la constante calcule sur l'chantillon non reprsentatif est clairement surestime ; (2) la correction va dans le bon sens ; (3) les coecients associs aux variables sont (assez) similaires sans qu'il soit ncessaire d'introduire un ajustement.
L'ajustement n'est pas anodin. Sans, la probabilit d'tre positif attribue l'individu serait exagre. On remarquera galement que si l'on s'en tient au seuil usuel de 0.5, dans le 1er cas, l'individu est class positif, dans le 2nd , ngatif. Dans ce qui suit, nous allons tudier les implications de la correction sur la construction des prdictions y .
Page: 180 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
181
10.1.3 Modication de la rgle d'aectation pour le classement Aectation base sur le logit
La rgle usuelle base sur le logit est
Si C() > ln
n+ p ln Alors y () = + Sinon y () = n 1p
Quoiqu'il en soit, il faut utiliser une des deux procdures ci-dessus. Utiliser directement les sorties du logiciel, sans modications, dgrade indment les performances en classement comme nous allons le voir sur nos donnes. Nous allons appliquer les classieurs corrigs et non corrigs sur le chier test reprsentatif de 60.000 observations (TR60K).
Page: 181
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
182
Fig. 10.2.
corrig
Fig. 10.3.
ln
La rgle de prdiction devient
n+ p 30 1 ln = ln ln = 1.3218 n 1p 40 5
183
Si >
1 1+
n+ n
p 1p
Alors y = + Sinon y =
De par sa construction, elle produit un classement totalement quivalent celle base sur le logit pour lequel nous avons ajust le seuil d'aectation.
Remarque : le cas des chantillons quilibrs. Lorsque l'chantillon a t volontairement quilibr c.--d. n+ = n , une pratique largement rpandue, la rgle est grandement simplie. Elle devient
10.1.4 valuation sur un chantillon non reprsentatif Mesures drives de la matrice de confusion
Nous avons la chance de disposer d'un chantillon test reprsentatif. Nous pouvons valuer les modles sans se poser des questions sur la transposition des rsultats dans la population. Dans les tudes relles, ce luxe est inaccessible. Le chier test, s'il existe, est lui aussi non reprsentatif. Plusieurs questions se posent : est-ce que nous pouvons quand mme laborer la matrice de confusion dans ces conditions ? Y a-t-il des corrections faire ? Sur tous les indicateurs ou sur quelques-uns seulement ? A la premire question, la rponse est oui. Rien ne nous empche de construire la matrice de confusion. Nous disposons d'individus pour valuer la prdiction, nous aurons tort de nous en priver. Aprs, selon les indicateurs, nous aurons besoin de la vraie prvalence p pour caler les estimations. Nous appliquons le classieur sur l'chantillon test non reprsentatif comportant 70 observations (TNR70). Nous obtenons une matrice de confusion, nous calculons directement les indicateurs habituels (Figure 10.4) :
Page: 183 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
184
Fig. 10.4.
valuation du modle corrig sur l'chantillon test non reprsentatif (70 obs.)
Taux d'erreur = 0.1714 Sensibilit = Se = 0.6333 Prcision = VPP = 0.9500 Taux de faux positifs = TFP = 0.0250 Spcicit = Sp = 0.9750 Que faut-il en penser ? Nos rfrences sont les valeurs obtenues sur l'chantillon reprsentatif (Figure 10.3), aux uctuations d'chantillonnage prs bien sr. On se rend compte que certains indicateurs sont trs loin du compte (taux d'erreur, prcision), d'autres en revanche se rapprochent des "bonnes" valeurs (sensibilit, TFP, spcicit). Et ce n'est pas tonnant. Tous les indicateurs correspondant des prols lignes dans la matrice de confusion sont insensibles la proportion des positifs dans le chier test. Ainsi, la sensibilit, le taux de faux positifs et la spcicit peuvent tre adopts tels quels sans avoir se poser des questions sur la reprsentativit de l'chantillon. Les autres par contre (taux d'erreur, prcision) doivent tre corrigs en fonction de la prvalence
1 6.
p =
Nous utilisons les expressions que nous avons mis en avant dans la section 2.1.2, lorsque nous
r-crivons les dirents indicateurs en fonction de la sensibilit et de la spcicit. Elles prennent toute leur saveur ici. Indicateur Sensibilit (Se ) TFP Spcicit (Sp ) Taux d'erreur Prcison (VPP) Ech. reprsentatif Ech. non reprsentatif Avec Ajustement -
= 0.8352
Les valeurs obtenues sont autrement plus crdibles lorsque nous introduisons les ajustements pour le taux d'erreur et la prcision.
Page: 184
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
185
Courbe ROC
La courbe ROC est un autre outil d'valuation des classieurs (section 2.5). Elle prsente un double avantage dans le cadre des donnes non reprsentatives : 1. Elle repose uniquement sur l'ordonnancement des individus selon le score. Il n'est donc pas ncessaire de corriger le modle avant de la construire. En eet, corriger la constante, c.--d. retrancher ou rajouter la mme valeur pour tous les logit, ne modiera en rien les positions relatives des individus. 2. Elle est construite partir de la confrontation du taux de faux positifs (1 Sp ) et du taux de vrais positifs (Se ), deux prols lignes des matrices de confusions successives (pour chaque seuil d'aectation) utilises pour produire les points qui la constituent. De fait, nous obtiendrons la mme courbe ROC, qu'elle soit labore partir d'un chantillon reprsentatif ou non. A aucun moment, nous n'avons besoin de la "vraie" prvalence p pour introduire une quelconque correction. Ces deux proprits font de la courbe ROC un outil extrmement prcieux (et populaire) dans les tudes relles. Souvent, nous ne savons pas vraiment si le chier manipul est reprsentatif ou non. Obtenir des informations sur la vraie prvalence est parfois trs dicile, voire impossible. La courbe ROC nous aranchit de ces contraintes. Sur notre chier de donnes, nous avons construit le modle de prdiction sur les donnes d'apprentissage non reprsentatif (ANR70). Puis nous avons construit deux courbes ROC : l'une sur l'chantillon test non reprsentatif de 70 observations (TNR70) ; l'autre sur l'chantillon reprsentatif avec 60.000 observations (TR60K). Nous les avons placs dans le mme repre (Figure 10.5).
Fig. 10.5.
Les deux tracs sont trs proches, ce qui accrdite l'ide avance ci-dessus : quelle que soit la rpartition des modalits de la variable dpendante dans le chier de donnes, la courbe ROC reste imperturbable.
Page: 185 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
186
La courbe labore sur l'chantillon T R60K est moins heurte, mieux lisse, parce que les eectifs sont nettement plus levs. Concernant l'aire sous la courbe, nous obtenons galement des valeurs similaires (aux uctuations d'chantillonnage prs) avec AUC(TNR70) = 0.915 et AUC(TR60K) = 0.927.
Quantier les consquences d'un bon ou mauvais classement appartient aux experts du domaine. Il n'est pas question pour nous statisticiens de s'immiscer dans cette phase. En revanche, nous
devons la prendre en compte lors du processus d'extraction de connaissances. L'intgration des cots lors de l'valuation ne pose pas de problmes particuliers. Il s'agit de faire le produit terme terme entre la matrice de cot et la matrice de confusion. Nous obtenons ainsi un " cot moyen de mauvais classement " (ou d'un gain moyen si nous multiplions le rsultat par -1). Son interprtation n'est pas trs aise. Il vaut surtout pour comparer des modles concurrents. La prise en compte des cots lors de l'laboration du modle de classement est moins connue. Nous tudierons une approche trs simple, mais dj ecace. Il s'agit d'estimer les paramtres a sans tenir compte des cots, puis d'utiliser une rgle d'aectation qui minimise le cot moyen lors du classement de nouveaux individus. Concrtement, on s'appuie sur les probabilits conditionnelles fournies par le modle pour calculer la perte associe chaque dcision. On choisit la dcision qui minimise la perte espre. C'est une gnralisation de la rgle de classement classique qui cherche minimiser le taux d'erreur. Le principal intrt de cette correction par les cots est que nous pouvons exploiter, sans modications spciques, les rsultats fournis par les logiciels courants.
Page: 186 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
187
Il existe d'autres techniques, plus ou moins sophistiques, dcrites dans la littrature. Nous citerons, L'intgration des cots de mauvais classement dans le processus d'apprentissage. Peu de mthodes permettent cela. Nous citerons en particulier les arbres de dcision qui peuvent utiliser explicitement la matrice de cots lors du post-lagage. L'utilisation de systmes de pondration d'individus. L'ide est de donner plus de poids aux individus "coteux" de manire orienter en priorit l'apprentissage vers leur bon classement. L'utilisation des schmas d'agrgation de modles, bass sur des r chantillonnages plus ou moins adaptatifs (bagging ou boosting). Mme si elles sont pour la plupart performantes, elles prsentent un inconvnient majeur : nous disposons d'une srie de modles, l'interprtation des rsultats devient dicile, voire impossible. R-tiqueter les individus c.--d. modier articiellement les valeurs de la variable dpendante, toujours de manire orienter l'apprentissage vers les individus problme, ceux qui vont induire un cot lev s'ils sont mal classs (ex. la mthode Metacost de Domingos 1999). Pour intressantes qu'elles soient, ces mthodes sont peu rpandues, peu prsentes dans les logiciels usuels ! . Nous nous en tiendrons donc la mthode trs simple de correction de la rgle d'aectation dans ce document.
Dans le cadre de la prdiction binaire, nous allons simplier l'criture de la matrice de cots (Tableau 10.1). Nous devons la prendre en compte lors de l'valuation des classieurs, en la mariant au mieux (et non pour le pire) avec la matrice de confusion. Le taux d'erreur qui ignore la structure de cots n'est plus adapt dans ce contexte. Le cot moyen de mauvaise aectation pour un modle M est dni de la manire suivante :
(M ) =
1 (a + b + c + d ) n
(10.3)
Son interprtation n'est pas toujours facile, d'autant que les cots sont exprims dans des units imprcises (qui
2. A propos des direntes mthodes, voir R. Rakotomalala, Intgrer les cots de mauvais classement en apprentissage supervis, http://eric.univ-lyon2.fr/~ricco/cours/slides/couts_en_apprentissage_supervise.
pdf
3. Pour la prise en compte des cots dans les logiciels R, Tanagra et Weka, voir http://eric.univ-lyon2.fr/
~ricco/tanagra/fichiers/fr_Tanagra_Cost_Sensitive_Learning.pdf
Page: 187 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
188
sain chez les malades ? ). Quoiqu'il en soit, cet indicateur intgre bien la structure de cots, il permet de
comparer les performances des dirents modles. C'est dj pas mal.
Un exemple - L'attrition
Nous sommes dans un problme de dtection automatique de clients faisant dfection pour un fournisseur d'accs internet. On parle d'attrition (en anglais "churn") " . Les responsables de l'entreprise proposent d'utiliser la matrice de cots suivante
Y Y + 5
+ 1
10 0
Laisser passer un client la concurrence cote c(+, ) = 10 ; Aller tarabuster, et lui donner de mauvaises ides, un client qui ne pensait pas partir, c(, +) = 5 ; Soigner juste titre un client sur le point de partir "cote" c(+, +) = 1 ; Laisser tranquille le gars bien install, c(, ) = 0. Encore une fois, xer les cots est l'aaire des experts. Il n'appartient pas au data miner de se lancer dans des lucubrations sur le cot de telle ou telle conguration. Dans la pratique, on teste d'ailleurs dirents scnarios de cots. Deux modles de prdiction (M1 et M2 ) sont en concurrence. Nous voulons savoir quel est le meilleur. Nous disposons des matrices de confusion (Figure 10.6).
Fig. 10.6.
Si l'on s'en tient au taux d'erreur, les deux modles sont quivalents, en eet
4. Bon, mme si j'en meurs d'envie, je ne dirai pas cause de qui j'ai t priv d'ADSL pendant 2 mois cet t, c'est comme si on me privait d'air... un vrai retour au moyen ge. Moralit, je suis all la concurrence bien sr. Voil un bel exemple d'attrition. Comme quoi le data mining fait partie intgrante de notre vie de tous les jours.
Page: 188 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
189
1 (40 (1) + 10 10 + 20 5 + 30 0) = 1.6 100 1 (M2 ) = (20 (1) + 30 10 + 0 5 + 50 0) = 2.8 100 (M1 ) =
Et ce n'est pas tonnant : il se trompe peu l o c'est le plus coteux c(+, ) = 10 ; il classe bon escient l o c'est le plus avantageux c(+, +) = 1. Avec cette structure de cots, nous avons tout intrt choisir le modle M1 qui est nettement plus performant.
+ 0 1
1 0
(M1 ) =
Le cot moyen de mauvais classement est une "vraie" gnralisation. Il y a donc des hypothses implicites dans le taux d'erreur : bien classer ne cote rien, mais ne gagne rien non plus ; mal classer cote 1, quelle que soit l'erreur.
190
1. Nous estimons les paramtres du logit en utilisant la rgression logistique usuelle. 2. Lors du classement d'un nouvel individu , nous nous appuyons sur la probabilit estime () et la matrice c(k, l) pour lui assigner la classe yl qui minimise les cots. Cette stratgie est possible parce que la rgression logistique fournit une estimation able (bien calibre) de (). Ce n'est pas le cas de certaines les mthodes supervises (ex. support vector machine, bayesien naf). Nous pouvons utiliser les logiciels habituels de rgression logistique. C'est un avantage non ngligeable. Nous verrons que malgr sa simplicit, elle est performante. Le classieur ainsi dni se dmarque nettement du modle de rfrence, celui qui ignore les cots. Pour modier la procdure d'aectation de la rgression logistique, il nous faut revenir sur les fondamentaux et intgrer la structure de cots dans la rgle de Bayes dcrite prcdemment (section 1.1.3). Nous crivons [3] (page 4)
(10.4)
(yl ) =
P (Y = yk /X) c(k, l)
(10.5)
L'ide est nalement trs sense : nous choisissons la prdiction la moins coteuse en moyenne. Pour un classement binaire, la rgle est simplie
(10.6)
(yl ) = =
k=l k=l
P (Y = yk /X) 1 P (Y = yk /X)
= 1 P (Y = yl )
Nous retrouvons une rgle d'aectation que nous connaissons bien
Page: 190
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
191
Y Y +
+ 5 2
10 0
Le gain est lev lorsque nous soignons une personne malade [c(+, +) = 5] ; la perte est particulirement importante lorsque nous ne la diagnostiquons pas la maladie chez une personne en mauvaise sant [c(+, ) = 10].
(M ) =
1 (3 (5) + 3 10 + 1 2 + 13 0) = 0.85 20
Si l'on corrige la rgle d'aectation lors de la prdiction, nous devrions obtenir de meilleures performances c.--d. un cot moyen plus faible. Vrions cela.
Page: 191
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
192
Total
Tableau 10.3.
Fig. 10.7.
Total
Tableau 10.4.
Page: 192
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
193
(M c) =
1 (6 (5) + 0 10 + 7 2 + 7 0) = 0.8 20
Le modle M c est nettement meilleur que M [(M c) = 0.8 vs. (M ) = 0.85]. Pourtant ils s'appuient sur les mmes paramtres estims aj . Conclusion : la rgle d'aectation qui tient compte des cots permet d'orienter la prdiction dans le sens de la rduction du cot moyen de mauvais classement. Les calculs supplmentaires demands sont ngligeables face l'amlioration spectaculaire des performances.
Page: 193
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 194
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
196
Fig. 11.1.
Fig. 11.2.
points (Figure 11.1) que c'est faux : les deux variables prises ensembles sont capables de produire un classieur parfait. Dans le mme contexte, l'analyse discriminante produit les rsultats adquats : la discrimination est excellente, les deux variables y contribuent (Figure 11.3, A et B).
Page: 196
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
197
Fig. 11.3.
Page: 197
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
198
4. et utiliser les stratgies de slection de variables propres la rgression linaire, on cite souvent
5. Le meilleur sous-ensemble de variables ainsi dtect sera prsent la rgression logistique qui produira le modle dnitif. Dans ce qui suit, nous dcrivons les formules qui permettent d'obtenir les estimations a partir des moindres carrs. Nous dtaillons tout cela sur un exemple numrique en utilisant la fonction, on ne peut plus standard, DROITEREG d'Excel.
Moyenne de Y probabilit de Y Par hypothse des MCO Par hypothse, les X sont non alatoires, indpendants de
V (()) = V (Y ())
= E{[Y () E(Y ())]2 } = E(Y ()2 ) E(Y ())2 = () ()2 Y 2 = Y puisque dni dans {0, 1}
Il y a htroscdasticit
Pour obtenir les bonnes estimations, nous devrons donc pondrer chaque individu par
1 1 () = = 2 () () ()(1 ())
(11.2)
Concernant la variable dpendante, pour qu'il y ait quivalence entre la rgression logistique et la rgression linaire, nous devons utiliser la transformation suivante [9] (page 130)
1. Mhode de sparation et d'valuation, voir par exemple D. de Werra, T. Liebling, J.F. Hche, Recherche oprationnelle pour ingnieurs - I, Presses polytechniques et universitaires romandes, 2003 ; pages 340 346. 2. Pour une prsentation plus dtaill du critre Cp de Mallows dans le cadre de la rgression linaire, voir Y. Dodge, V. Rousson, Analyse de rgression applique, Dunod, 2004 ; pages 147 149.
Page: 198 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
199
(11.3)
En passant une notation matricielle, nous retrouvons l'expression de l'estimateur des moindres carrs gnraliss aM CG qui produit les mmes paramtres que l'estimateur aM M V du maximum de vraisemblance de la rgression logistique ([11], pages 109 et 110)
aM M V = aM CG = (X V X)1 X V z
o X est la matrice des donnes, avec la constante en premire colonne ; V est la matrice diagonale des ()(1 ()) ; z = X + V 1 r est la transformation de la variable dpendante ; a r = y est le vecteur des rsidus.
(11.4)
A priori, si l'on veut mettre en oeuvre la mthode, il faudrait que l'on construise la variable z puis que l'on dispose d'un logiciel capable de prendre en compte le poids . Ils ne sont pas nombreux. En pratique, il s'avre que nous pouvons utiliser les logiciels usuels qui implmentent les moindres carrs ordinaires (MCO) en estimant les paramtres de la rgression !
z 1 X1 XJ = a0 + a1 + + aJ
(11.5)
Enn, la formulation ci-dessus nous fournit bien les estimations a. Mais il faut introduire une autre correction pour obtenir une estimation correcte des carts-type. On dnit s2 la variance estime des rsidus de la manire suivante "
s2 =
1 2 () (y() ())2 nJ 1
(11.6)
aj (M M V ) =
aj (M CG) s
(11.7)
3. Attention, il faudra spcier une rgression sans constante dans les logiciels. En eet, () est dirent d'un individu l'autre, le terme associ a0 n'est plus constant. 4. On ne manquera pas de noter la similitude avec la variance des erreurs en rgression linaire = 2 somme des carrs des rsidus . degrs de libert
Page: 199 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
200
a0
1.779 1.504
0.064 0.040
Nous produisons les prdictions partir de ces coecients. Nous pouvons raliser les calculs pour obtenir aM CG (Figure 11.4) :
Fig. 11.4.
Tout d'abord, nous avons la colonne de obtenue partir de la rgression logistique. Par exemple,
201
= 3.066.
Nous transformons maintenant les variables explicatives, de la constante (const., qui prenait systmatiquement la valeur 1 initialement) angine. Nous divisons simplement les valeurs initiales par le poids. Par exemple, const(1) = etc. Pour la variable dpendante, nous travaillons en deux temps : tout d'abord, nous construisons la variable z en utilisant la formule ci-dessus (quation 11.3), puis nous la divisons par le poids . Pour ( ) le 1er individu qui porte la valeur y(1) = 1, nous avons : z(1) = ln puis
z(1) (1) 0.879 10.879 10.879 + 0.879(10.879) = 3.12, 1 3.066
= 0.33, const(2) =
1 2.027
50 3.066
= 16.31,
3.12 3.066
= 1.02.
Nous pouvons lancer la rgression via la fonction DROITEREG d'Excel. Attention, il faut demander une rgression sans constante. Nous visualisons les rsultats partir de la ligne 35 dans la feuille Excel. Eectivement, les coecients obtenus concordent avec ceux de la rgression logistique aM CG =
aM M V
En revanche les carts-type ne concident pas. Si l'on prend la variable
a3 (M CG) = 1.523
Il faut introduire la second correction (quation 11.7). Pour cela, nous calculons la quantit s (quation 11.6) (dernire colonne dans la feuille Excel)
1 16.407 = 1.013 20 3 1 Nous pouvons corriger les carts-type. Pour la variable angine, nous avons s= a3 (M M V ) =
L'quivalence est totale.
Page: 201
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
202
Fig. 11.5.
Fig. 11.6.
taux max =
Nous pouvons reporter cette droite dans le nuage de points. Nous visualisons la frontire utilise par le classieur pour distinguer les positifs des ngatifs (Figure 11.7).
Page: 202 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
203
Fig. 11.7.
Nuage de points (Age vs. Taux Max) - Frontire sparant les positifs et les ngatifs
Fig. 11.8.
Pour analyser nement ces rsultats, nous donnons galement le tableau des donnes complt des LOGIT et prdits par le modle (Figure 11.8). Quelques remarques viennent par rapport la lecture croise du graphique et du tableau de donnes : Certains individus sont bien classs mais la lisire de la frontire. L'individu no 3 avec (age = 46, taux max = 144) est "positif". Si on s'intresse son LOGIT, nous avons C(46, 144) = 0.120
1 1+e(0.018)
D'autres sont bien classs de manire sre c.--d. en tant trs loigns de la frontire. Considrons l'individu no 17, avec (age = 57, taux max = 168), qui est "ngatif". Son LOGIT est gal
Page: 203
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
204
sont cohrents : il est trs loign de la frontire, et la probabilit d'aectation associe est proche
Fig. 11.9.
Partie III
Page: 205
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 206
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
logistique polytomique. Dans ce partie, nous considrons qu'elle est nominale c.--d. il n'y a pas de relation
d'ordre entre les modalits, ou tout du moins nous souhaitons ne pas en tenir compte si elle existe. On parle de
Lorsque la variable dpendante prend K (K > 2) modalits, nous sommes dans le cadre de la rgression
rgression logistique binaire. Nous devons rpondre plusieurs questions pour laborer une stratgie d'apprentissage viable : Quelle forme de logit modliser l'aide d'une combinaison linaire de variables, puisque nous devons rester dans le canevas de la rgression linaire gnralise ? Question corollaire : combien d'quations logit devons crire ? Une fois le problme correctement pos, comment estimer les paramtres, tant entendu que nous passerons par la maximisation de la vraisemblance ? Question corollaire : comment s'crit la (log)-vraisemblance ? Enn, dernire question, comment valuer la pertinence de la rgression ? Nous traitons uniquement de validation en rapport direct avec les caractristiques de la rgression pour l'instant. Pour l'heure, intressons la distribution de la variable dpendante Y .
k () = P (Y () = yk /X()]
Avec la contrainte .
k () = 1
Page: 207
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
208
[1 ()]y1 () [K ()]yK ()
(12.2)
{ yk () =
1 si Y () = yk 0 sinon
Il s'agit bien d'une gnralisation. En eet, nous retombons sur la loi binomiale si Y est binaire. Quelle stratgie de modlisation utiliser pour parvenir nos ns c.--d. obtenir des estimations de
category logits ) ([1], pages 307 317 ; [9], pages 260 287).
La catgorie de rfrence s'impose souvent naturellement au regard des donnes analyses : les nonmalades vs. les dirents type de maladies ; le produit phare du march vs. les produits outsiders ; etc. Si ce n'est pas le cas, si toutes les modalits sont sur un pied d'galit, nous pouvons choisir n'importe laquelle. Cela n'a aucune incidence sur les calculs, seule l'interprtation des coecients est dirente. Par convention, nous dcidons que la dernire catgorie YK sera la modalit de rfrence dans cette partie. Le logit pour la modalit yk s'crit
Ck = ln
(12.3)
k =
1+
eCk K1
k=1
eCk
(12.4)
K =
1+
K1
k=1
eCk
=1
K1 k=1
(12.5)
k () = 1
Y () = yk yk = arg max k ()
k
(12.6)
Page: 208
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
209
LL =
y1 () ln 1 () + + yK () ln K ()
(12.7)
via l'algorithme de Newton-Raphson. Pour ce faire, nous avons besoin des expressions du vecteur gradient et de la matrice hessienne. Le
(12.8)
gk,j =
Concernant la
xj () [yk () k ()]
(12.9)
(12.10)
Hi,j =
(12.11)
X() = (1, X1 (), . . . , XJ ()) est le vecteur de description de l'observation , incluant la constante.
et
{ i,j () =
1 si i = j 0 si i = j
1. A vrai dire, ces formules sont surtout mises en avant pour ceux qui souhaiteraient programmer la mthode. J'ai eu un mal fou les retrouver pour les implmenter dans Tanagra, autant les dtailler une fois pour toutes dans un document. Il ne sera pas question de les reproduire la main dans Excel. Non, non, restons raisonnables.
Page: 209 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
210
Fig. 12.1.
Dans un premier temps, nous mettons arbitrairement les coecients des variables 0, et les constantes 1. La modalit C est la catgorie de rfrence. Dcrivons la feuille de calcul (Figure 12.1) : Dans la partie haute, nous distinguons les coecients.
211
Nous formons les logit. Pour le premier logit C1 opposant A C , pour la premire observation
1 (1) =
e1 1 + (e1.00 + e1.00 )
= 0.42
Pour les autres probabilits, nous avons 2 (1) = 0.42 et 3 (1) = 1 (0.42 + 0.42) = 0.16 Dans les 3 colonnes qui suivent, nous avons les indicatrices de modalits de la variable dpendante
Y.
Ainsi, nous pouvons former la fraction de la log-vraisemblance associe au premier individus = 1
D = 2 LL = 71.720
Nous lanons le solveur d'Excel ! . Nous souhaitons maximiser la vraisemblance (ou minimiser la dviance, c'est quivalent). Les cellules variables correspondent aux coecients de la rgression. La feuille prend une autre tournure (Figure 12.2) : La log-vraisemblance optimise est maintenant gale
LL = 9.191
La dviance
D = 2 (9.191) = 18.382
Nous avons les deux quations logit
C1 = 21.165 0.471 age + 0.170 sexe 0.935 rev.tete C2 = 26.328 + 0.286 age 4.966 sexe + 1.566 rev.tete
3. tonnamment, il faut le lancer 2 fois avant de parvenir une solution stable dnitive.
Page: 211 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
212
Fig. 12.2.
Une premire lecture rapide des coecients estimes - nous reviendrons plus loin sur les interprtations - nous donne les indications suivantes (tout ceci sous rserve de la signicativit des coecients) : Plus le client est g, moins il est enclin prendre le crdit A (par rapport au C). Ou autrement, les personnes qui prennent le crdit A sont moins gs que ceux qui prennent le C. Les hommes ont plus tendance prendre A (par rapport C). Enn, un revenu par tte plus lev dans le mnage n'incite pas prendre A (par rapport C). Bref, la principale ide retenir est que toute la lecture doit se faire par rapport la modalit de rfrence C. Pour la seconde opposition B vs. C, nous constatons contrario que une augmentation de l'ge incite prendre B (par rapport C) ; il semble que les femmes ont plus de chances de prendre la formule B (par rapport C) ; plus son revenu est lev, plus le client se dirigera volontiers vers B (par rapport C). Concernant le logit et la probabilit a posteriori, voici le dtail des calculs pour le premier individu
=1
Pour le premier logit
213
1 (1) =
Pour les 3 modalits, nous avons
12.3.3 Estimation des coecients avec Tanagra et R (packages nnet et VGAM) Tanagra. Il s'utilise comme n'importe quel composant d'apprentissage supervis. Il faut bien entendu que
les explicatives soient numriques, quantitatives ou qualitatives codes 0/1. Pour notre exemple "Formules de Crdit", nous retrouvons les coecients estims l'aide du tableur. Tanagra prend automatiquement la dernire modalit "C" comme rfrence. C'est exactement ce qu'il fallait dans notre conguration (Figure 12.3). La rgression multinomiale est disponible via le composant Multinomial
Fig. 12.3.
Deux outils (entres autres, il est impossible de tous les connatre) sont disponibles pour estimer les paramtres de la rgression logistique multinomiale dans R. La premire est la fonction package
nnet
multinom du
qu'elle
(Figure 12.4). Il faut abaisser fortement les seuils de tolrance pour obtenir un rsultat
prcis, conformes ceux produits par les autres logiciels. L'immense avantage de "multinom" est de signicativit (chapitre 14). La seconde fonction est
sait nous fournir la matrice hessienne. Nous en aurons l'usage lorsqu'il s'agira de mettre en place les tests
vglm
du package
VGAM
prcdente concernant la rgression multinomiale. Son intrt rside surtout dans l'intgration de la rgression polytomique (nominale ou ordinale) dans un environnement unique. Nous l'utiliserons plus intensivement lorsqu'il s'agira de traiter la rgression variable dpendante ordinale (partie IV).
4. (ln 0.00) devrait produire une erreur. La valeur est en ralit trs petite mais non nulle. L'achage est arrondi 2 chires aprs la virgule.
Page: 213 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
214
Fig. 12.4.
Fig. 12.5.
logiti,j = ln
i j i /K = ln j /K i j = ln ln K K = Ci Cj
Par simple direnciation, nous obtenons le logit (logarithme de l'odds) entre 2 modalits quelconques de la variable dpendante. Le choix initial de la modalit de rfrence n'est pas restrictif.
Page: 214 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
215
Formule de crdit
Essayons de caractriser la modalit A par rapport B dans notre exemple des formules de crdit. Par direnciation des logit, nous obtenons
logitA,B = C1 C2 = (21.165 + 26.328) + (0.471 0.286) age + (0.170 + 4.966) sexe + (0.935 1.566) rev.tete = 47.493 0.758 age + 5.136 sexe 2.501 rev.tete
Tous les eets sont exacerbs dans (A vs. B) par rapport (A vs. C). Les coecients conservent leur signes, mais sont plus levs en valeur absolue : plus l'ge augmente, moins les clients choisissent A (par rapport B) ; les hommes sont plus enclins prendre la formule A (par rapport B) ; et les revenus levs les dissuadent de prendre A (par rapport B).
a0,k = ln
nk nK
nk n
Puisque dans le modle trivial, la prvalence constate dans l'chantillon pk = la probabilit a posteriori k , nous pouvons crire facilement la log-vraisemblance
LL0 = = =
k k k
yk () ln(k ) yk () ln(k ) p nk n
nk ln
Page: 215
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
216
LL0 = 10 ln
10 10 10 + 10 ln + 10 ln 30 30 30 10 = 30 ln 30 = 32.958
LLM LL0
Le pseudo-R2 de McFadden varie entre 0 (modle pas meilleur que le trivial) et 1 (modle parfait). Concernant les donnes "Formule de crdit", nous obtenons
2 RM F = 1
Le modle semble bon. Nous verrons dans la section suivante s'il est globalement signicatif.
LR = D0 DM
Elle suit une loi du 2 , reste dterminer les degrs de libert. Les degrs de libert des modles opposer s'crivent
(12.13)
Page: 216
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
217
Nous obtenons ceux du rapport de vraisemblance par direnciation, ils correspondent l'cart entre le nombre de paramtres estims dans les deux modles
(12.14)
La rgion critique du test au risque correspond aux grandes valeurs de la statistique de test c.--d.
LR > 2 (ddl) 1
Nous pouvons aussi dcider via la p-value. Si elle est plus petite que , le modle est globalement signicatif.
d'valuation globale de la rgression (Figure 12.6). Le calcul n'est pas directement ralis avec multinom de R. Le plus simple est d'estimer explicitement le modle trivial pour obtenir la dviance D0 = 65.91674 (Figure 12.7). Nous pouvons reproduire les calculs ci-dessus pour obtenir les indicateurs adquats.
Page: 217
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
218
Fig. 12.6.
Fig. 12.7.
Page: 218
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
modalits nominales
De nouveau, nous travaillons principalement avec les prdictions y et les probabilits prdites four nies par la rgression dans ce chapitre. Les outils prsents dpassent donc le simple cadre de la rgression logistique. Ils sont applicables pour tous types de classieurs, pourvu qu'ils sachent fournir ces quantits. La majorit des indicateurs de performances sont extraits de la matrice de confusion qui est une gnralisation K (K > 2) modalits de celle prsente dans le cadre binaire. Il y a quand mme une petite particularit. Dans le classement binaire, une des catgories revtait une importance accrue par rapport l'autre (positif vs. ngatif). Certains ratios en tenaient compte (sensibilit, prcision, etc.). Dans le cadre multi-classes , les modalits de Y sont mises sur un mme pied d'galit. Cela ne pose aucun problme pour certains (taux d'erreur). D'autres en revanche, ceux qui s'appuient sur le schma "une catgorie contre les autres", doivent procder (une sorte de) moyenne sur l'ensemble des catgories pour parvenir un indicateur caractrisant le comportement global du modle (micro-averaging, macroaveraging pour la combinaison rappel et prcision). Bien entendu, les informations obtenues seront d'autant plus ables que nous travaillons sur un chier test n'ayant pas particip l'estimation des paramtres du modle.
Y () = yk yk = arg max k ()
k
Reprenons le premier individu du tableau de donnes "Formules de crdit" (Figure 12.2). Il est dcrit par (age = 29 ; sexe = 0 ; rev.tete = 7.09). Nous avions calcul les deux logit C1 = 0.87 et C2 = 6.93. Nous en avions dduit 1 = 0.70, 2 = 0.00 et 3 = 0.30. La prdiction du modle est donc Y (1) = y1 = A puisque c'est la modalit qui maximise la probabilit d'appartenance au groupe.
Page: 219
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
220
Total
n1. = n1 ... nk. = nk ...
Total
Tableau 13.1.
nkl = #{, Y () = yk et Y () = yl }
Le taux d'erreur est l'estimation de la probabilit de mal classer, il correspond au rapport entre le nombre total d'observations mal classes et l'eectif total dans la chier
=
k l=k
nkl
=1
nkk n
(13.1)
Si le modle classe parfaitement les observations, nous avons = 0. L'autre rfrence est le taux d'erreur du classieur par dfaut. Celui qui n'utilise pas les informations en provenance des explicatives. Nous avions vu plus haut comment le dnir et comment en dduire un indicateur d'intrt du modle (section 2.1.4). Le taux de succs est toujours le complment 1 du taux d'erreur, il indique la probabilit de bien classer
=1=
nkk n
1. Terme couramment utilis en apprentissage automatique pour indiquer que Y prend plus de 2 modalits.
Page: 220 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
221
Fig. 13.1.
(13.2) (13.3)
Pour un nouveau gogo (un client dans la terminologie des crdits revolvers) qui se prsente au guichet des emprunts, il y a 83.3% de chances qu'on l'aiguille vers la formule approprie si nous utilisons le modle issu de la rgression logistique.
rk =
et la prcision (accuracy en anglais)
Page: 221 job: regression_logistique
nkk nk.
(13.4)
macro: svmono.cls
date/time: 21-Jun-2011/16:10
222
Pour notre exemple "Formule de crdit", nous aurions ainsi pour chaque modalit de la variable prdire (Figure 13.1) Catgorie Rappel A B C Prcision
rA = rB = rC =
9 10 9 10 7 10
Les informations sont prcieuses. Nous pouvons caractriser la prdiction pour chaque classe. Nous notons dans notre chier que la modalit C est moins bien dtecte que les autres, et lorsque nous la prdisons, la prcision est moindre. Cela est intressant, mais manipuler simultanment plusieurs indicateurs est toujours dlicat. Il nous faut un indicateur synthtique pour quantier les performances globales du modle. Dans le cadre de la recherche d'information, plus prcisment la catgorisation automatique de textes, des propositions ont t faites .
macroaveraging (macro-moyenne) est une moyenne non-pondre o l'on accorde le mme poids
aux catgories. Nous pouvons le produire directement via les rappels et prcisions obtenues pour les catgories. Lorsque les prvalences des modalits de la variable dpendante sont trs direntes, ces deux ratios peuvent diverger assez fortement. A nous de choisir le bon selon les objectifs de l'tude. La micro-moyenne met l'accent sur les modalits frquentes, la macro-moyenne accorde plus d'importance celles qui sont peu frquentes.
r = a =
k=1
rk ak
K K
k=1
Microaveraging et macroaveraging
Les dnitions numriques sont rsumes dans le tableau 13.2. Nous noterons que les micro-moyennes pour le rappel et la prcision produiront la mme valeur : le taux de succs. Leur intrt est trs limit. Appliques sur le chier "Formules de crdit", nous obtenons
2. F. Sebastiani, Text Categorization, in A. Zanasi (ed.), Text Mining ans its Applications, WIT Press, 2004.
Page: 222 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
223
Macroaveraging
= 0.8333
r =
= 0.8333 a =
0.9+0.9+0.7 = 3 0.8182+0.9+0.7778 3
0.8333 = 0.8320
La situation est un peu particulire. En eet, les prvalences des catgories sont strictement identiques dans notre chier (nk =
n K,
pk (1 rk )
(13.6)
par l'analyste. Nous savons par ailleurs que les "vraies" proportions des formules demandes dans la population est (pA = 0.15; pB = 0.25; pC = 0.6). Pour obtenir le vritable taux d'erreur du classieur, nous formons partir des valeurs fournies par la matrice de confusion (Figure 13.1)
= 0.15 (1
Par rapport au taux d'erreur mesur sans prcautions particulires sur un chier volontairement quilibr (0.167), nous constatons que la "vraie" probabilit de se tromper avec le modle serait plutt de 0.22. La valeur est plus leve parce que la pondration (pC = 0.6) met l'accent sur la catgorie la moins bien reconnue (rC = 0.7) dans notre exemple.
par pk =
nk. n ,
voyons
Page: 223
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
224
pk (1 rk ) (1
nk.
(M ) =
1 nkl c(k, l) n
K K k=1 l=1
(13.7)
o c(k, l) est le cot associ la prdiction yl alors que la vraie classe d'appartenance de l'individu est yk (section 10.2.1). comme suit dans notre problme d'aectation automatique de formules de crdit !
yA yB yC yA 5 3 10 yB 4 6 10 yC 0 8 1
En faisant la somme des produits croiss entre la matrice de confusion (Figure 13.1) et cette matrice de cots, nous obtenons
(M ) =
Remarque : Dans le cadre multi-classes galement, si nous utilisons une matrice de cots symtrique
et unitaire (c(k, l) = 1, k = l ; c(k, k) = 0), nous retrouvons le taux d'erreur.
3. Les chires ont t mis un peu au hasard, il s'agit d'un simple exemple illustratif. Pour une dnition un peu plus circonstancie des cots dans un problme rel, voir J.H. Chauchat, R. Rakotomalala, M. Carloz, C. Pelletier, Targeting Customer Groups using Gain and Cost Matrix : a Marketing Application, http://www. informatik.uni-freiburg.de/~ml/ecmlpkdd/WS-Proceedings/w10/chauchat_workshop.pdf ; voir aussi un de nos tutoriel relatif au concours Data Mining Cup - 2007, http://tutoriels-data-mining.blogspot.com/2009/
01/cots-de-mauvais-classement-en.html
Page: 224 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
Les tests sur les coecients consistent avant tout prouver leur signicativit. Par rapport la rgression binaire, l'analyse est plus complique car nous pouvons multiplier les possibilits : tester la nullit de q coecients dans un logit, dans un ensemble de logit ou dans les K1 logit. Les consquences ne sont pas les mmes. Si une variable n'est pas signicative dans l'ensemble des logit, nous pouvons l'exclure de l'tude. Si elle est signicative dans un logit au moins, son rle est avr dans la caractrisation d'une des modalits de la variable dpendante. La variable ne peut pas tre exclue. Autre aspect intressant, nous pouvons tre amens tester l'galit des coecients pour plusieurs (ou l'ensemble des) quations logit. Cela ne prjuge en rien de leur signicativit. Si l'hypothse est vrie, on dira simplement que la variable joue un rle identique dans la caractrisation des direntes modalits de la variable dpendante. Comme pour la rgression binaire, nous disposons de deux outils pour raliser les tests. La statistique du rapport de vraisemblance correspond toujours la comparaison des dviances des rgressions sous H0 et H1 . Elle suit une loi du 2 sous l'hypothse nulle. Les degrs de libert sont obtenus par direnciation du nombre de paramtres estims. Pour rappel, dans notre exemple "Formules de crdit", la dviance du modle complet, celui o tous les coecients sont estims, est DM = 18.382 avec un degr de libert de
ddl = 30 2 8 = 22.
La statistique de Wald exploite la normalit asymptotique des estimateurs du maximum de vraisemblance. Nous devons au pralable calculer la matrice de variance de covariance des coecients qui est un peu plus complexe puisque nous en manipulons simultanment (K 1) (J + 1). La statistique suit une loi du 2 , le nombre de degrs de libert est gal au nombre de contraintes que l'on pose sur les coecients sous l'hypothse nulle. Cela apparat clairement lorsque nous nous pencherons sur l'criture gnralise. Enn, les commentaires mis sur ces tests prcdemment (section 3.4) restent valables : le test du rapport de vraisemblance est plus puissant, il dtecte mieux l'hypothse alternative lorsqu'elle est vraie, il est prfrable sur les petits eectifs ; le test de Wald est trs conservateur ; les deux se rejoignent lorsque le nombre d'observations devient lev.
Page: 225
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
226
La matrice de variance covariance correspond l'inverse de la matrice hessienne. Elle est aussi
symtrique par blocs. Il faut bien faire attention pour discerner les informations importantes qu'elles comportent : nous avons la variance des coecients pour chaque quation logit, les covariances entre coecients de la mme quation logit, et les covariances des coecients relatives des quations logit direntes. On peut s'y perdre rapidement.
Fig. 14.1.
Pour le chier "Formules de crdit", la matrice hessienne est accessible via un des champs de l'objet fourni par la fonction
1) (K 1) (J + 1)], soit 8 8. Nous calculons son inverse (Figure 14.2). Essayons d'y discerner les
informations importantes :
Page: 226
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
227
Fig. 14.2.
Fig. 14.3.
Les variances des coecients, pour chaque quation logit sont lues sur la diagonale principale de la matrice. En prenant la racine carre, nous obtenons les carts-type fournis par les logiciels : ceux de
1. Les estimations sont trs lgrement direntes, c'est normal puisque les techniques d'optimisation utilises ne sont pas les mmes.
Page: 227 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
228
H0 : aj,k = 0
Un coecient dans un des logit est-il signicatif ? Si la rponse est non, il ne l'est pas, nous pouvons supprimer la variable associe dans le logit concern. Nous ne pouvons rien conclure en revanche concernant les autres logit. Nous ne pouvons donc pas exclure la variable de l'tude.
rev.tete dans la premire quation logit (A vs. C). Nous lanons le solveur dans
"Formule de crdit",
Excel, aprs avoir x sa valeur 0 et en l'excluant des cellules variables pour l'optimisation. Nous obtenons un nouveau jeu de coecients et DH0 = 24.839, avec un degr de libert ddl = 30 7 = 23 (Figure 14.4). Nous en dduisons la statistique de test
Page: 228
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
229
Fig. 14.4.
Wk,j =
Elle suit une loi du 2 1 degr de libert.
a2 k,j ak,j
Toujours concernant rev.tete dans le premier logit, nous formons partir des rsultats glans tout au long de ce chapitre (coecient, gure 14.3 ; variance, gure14.2)
W1,rev.tete =
Avec un 2 1 degr de libert, nous avons une p-value = 0.103. Nous sommes la lisire de la rgion critique. Il n'en reste pas moins qu'au risque 10%, nous ne pouvons pas rejeter l'hypothse nulle. Encore une fois, le test de Wald s'avre conservateur en comparaison du test du rapport de vraisemblance o l'hypothse nulle tait clairement rejete.
H0 : ak,j = 0, k
Il va plus loin que le prcdent. Il cherche savoir si les coecients d'une variable explicative sont simultanment nuls dans l'ensemble des logit. Si les donnes sont compatibles avec H0 , nous pouvons la retirer du modle.
Page: 229
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
230
Fig. 14.5.
Test du rapport de vraisemblance - Tester la signicativit de rev.tete dans l'ensemble des logit
Wj = a j aj j 1 aj est le vecteur des coecients valuer, de dimension (K 1) 1 ; j est leur matrice de variance covariance. Tout l'enjeu est de savoir lire correctement la matrice de variance covariance globale pour y "piocher" les valeurs de j .
Pour notre exemple rev.tete,
( arev.tete =
) 0.935 1.566
Page: 230
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
) 0.329 0.002
231
0.002 1.114
1 Wrev.tete = a rev.tete rev.tete arev.tete ( ) ( ) ( ) 0.329 0.002 1 0.935 = 0.935 1.566 0.002 1.114 1.566 ( )( ) ( ) 3.037 0.004 0.935 = 0.935 1.566 0.004 0.898 1.566 = 4.845
Avec un 2 (2), nous avons une p-value de 0.089. Nous rejetons l'hypothse nulle au risque 10%. Ce rsultat doit nous interpeller. En eet, tests individuellement dans chaque quation logit, les coecients de rev.tete ne sont pas signicatifs, comme en attestent les rsultats fournis par Tanagra (Figure 12.3). En revanche, tests simultanment, nous rejetons l'hypothse nulle. Un test simultan ne peut pas tre rduit en une succession de tests individuels.
H0 : a1,j = = aK1,j
Lorsqu'elle est compatible avec les donnes, cela veut dire que la variable a le mme impact dans tous les logit. Il n'est pas question en revanche de la supprimer de la rgression si elle est par ailleurs signicative : son impact est le mme, mais il n'est pas nul.
Page: 231
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
232
Fig. 14.6.
Test du rapport de vraisemblance - galit des coecients de rev.tete dans l'ensemble des logit
H4),
=H3.
log-vraisemblance, cette contrainte est bien prise en compte . La dviance du modle contraint est DH0 = 30.797, avec un degr de libert gal ddl = 30 7 = 23, le 8e coecient tant simplement dduit du 7e . La statistique du test est gal
a1,rev.tete = a2,rev.tete peut s'crire drev.tete = a1,rev.tete a2,rev.tete = 0. La statistique de test est drev.tete = a1,rev.tete a2,rev.tete
Elle d'esprance nulle sous H0 , et de variance [9] (page 268)
d2 rev.tete (drev.tete ) V
suit une loi du 2 1 degr de libert.
2. Une autre stratgie aurait t de mettre tous les coecients en cellules variables, puis d'ajouter la contrainte
H3=H4
Page: 232
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
233
( ) M = 0 0 0 1 0 0 0 1
Avec
Nous retrouvons exactement la mme valeur qu'avec l'approche directe. Heureusement, le contraire eut t inquitant. Bien videmment, les conclusions sont identiques.
Page: 233 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
234
Fig. 14.7.
Test de Wald - Approche gnrique - galit des coecients de rev.tete dans l'ensemble des logit
de rfrence. Voyons dans un premier temps comment calculer les odds-ratio partir d'un tableau de
= 1.24 fois plus de chances de choisir la rfrence que la marque "petit prix",
115 = 0.80 143 Elles sont 1.45 fois plus de chances de choisir la marque "enseigne" que la rfrence, car odds(1/3; 1) = odds(2/3; 1) = 208 = 1.45 143
date/time: 21-Jun-2011/16:10
Page: 234
job: regression_logistique
macro: svmono.cls
235
Fig. 14.8.
Nous pouvons faire de mme du ct des hommes. Ainsi, nous constatons qu'ils ont 1.18 fois plus de chances de choisir la marque "petit prix" (par rapport la rfrence)
odds(1/3; 0) =
Il faut faire le rapport des odds pour obtenir les
92 = 1.18 78
OR(1/3) =
Les femmes ont
1 0.68
= 1.47 fois plus de chances de choisir la marque de rfrence (par rapport "petit
prix") que les hommes. La lecture n'est pas trs aise. En clair, places devant l'alternative "petit prix" - "rfrence", les femmes ont plus tendance choisir la marque de rfrence que les hommes. De mme
OR(2/3) =
Les femmes ont tendance prfrer la marque enseigne la rfrence par rapport aux hommes. L'enjeu maintenant est de pouvoir retrouver ces coecients avec la rgression logistique.
236
Fig. 14.9.
Si nous prenons les exponentielles des coecients associs la variable sexe = f emme
ea1,f emme = e0.38299 = 0.68 = OR(1/3) ea2,f emme = e0.13628 = 1.15 = OR(2/3)
Nous retrouvons les odds-ratio calculs partir du tableau de contingence. En conclusion, nous dirons : Les interprtations en termes de surcrot de risque (log odds-ratio) des coecients de la rgression logistique restent valables dans le cadre multinomial. Mais ils sont comptabiliss par rapport la catgorie de rfrence. Il ne faut jamais l'oublier. Si nous souhaitons la modier, il faut procder par direnciation des logit (section 12.3.4). Les nouveaux coecients se liront en relation avec la nouvelle rfrence. Avec les rsultats de la rgression, nous savons si les odds-ratio sont signicatifs ou pas. Dans notre exemple, au risque 10%, nous avons que OR(1/3) est signicativement dirent de 1 parce que
a1,f emme est signicativement dirent de 0 (p-value = 0.0536) ; pas OR(2/3) (p-value = 0.4646).
Pour les autres types de variables explicatives (nominale + de 2 modalits, ordinale, quantitative), les interprtations vues pour la rgression logistique binaire restent valables, elles doivent tre lues simplement par rapport la catgorie de rfrence toujours. Les exponentielles des constantes se lisent comme des odds de la modalit complmentaire de la variable explicative binaire. Pour notre exemple, nous avons les odds chez les hommes (femme = 0)
Page: 236
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
La rgression logistique binaire propose une srie d'outils pour diagnostiquer, valider, explorer des solutions (analyse des rsidus, slection de variables, etc.). Ils pourraient tre transposs sans aucune dicult la rgression multinomiale. Pourtant, curieusement, ils ne sont pas implments dans les logiciels usuels. Ne serait-ce que la slection de variables. Nous devrions pouvoir valuer la pertinence des explicatives dans l'ensemble des logit pour les retirer unes unes pour un processus backward bas par sur le test de Wald. L'ide est simple, sa ralisation galement, pourtant nous la retrouvons pas dans les logiciels les plus rpandus [9] (page 277). Dans ce contexte, on se demande s'il n'est pas possible de dcomposer la rgression multinomiale en une srie de rgressions binaires indpendantes o l'on opposerait chaque modalit (k = 1, . . . , K 1) de
Y la modalit de rfrence yK [1] (page 310). Bien entendu, nous n'obtiendrons pas les mmes rsultats
(coecients). Le tout est de cerner jusqu' quel point ils seront dirents . L'avantage de passer par cette solution est de pouvoir ainsi bncier des outils sus-mentionns implments dans la trs grande majorit des logiciels de statistique. Aprs il faut savoir quoi faire des rsultats. En procdant une slection de variables dans chaque rgression binaire, il est tout fait possible que nous nous retrouvons avec des quations logit comportant des sous-ensembles solutions trs dissemblables. De mme, une observation peut tre atypique pour une quation logit, mais pas pour les autres. Il faut savoir interprter correctement ces lments sans perdre de vue que nous souhaitons valider le modle global expliquant simultanment les K valeurs de Y [9] (page 279). On sait que dcomposer la rgression multinomiale en K 1 rgressions binaires est moins ecace. Elle le sera d'autant moins que la prvalence de la catgorie de rfrence est faible. En l'absence de contraintes fortes sur les interprtations, nous avons intrt choisir une modalit de rfrence qui soit la plus frquente dans la population, celle dont la prvalence pk = P (Y = yk ) est la plus leve [1] (page 312). De manire gnrale, il apparat que les coecients obtenus via les deux stratgies sont assez proches [9] (page 278).
1. Cette situation n'est pas sans rappeler les problmes poss par les mthodes binaires par essence en apprentissage automatique (ex. les support vector machine). Pour traiter les variables dpendantes multi-classes, des stratgies ont t dveloppes pour combiner les prdicteurs binaires : une modalit contre les autres "1 vs. all", traitement par paires "1 vs. 1", etc. Voir S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, Elsevier, 2009 ; pages 127 et 128.
Page: 237 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
238
adjoint la variable age. La rgression s'crit brand = f (f emme, age). Nous avons ralis la rgression multinomiale sur les n = 735 observations. Puis nous avons isol les clients portant les modalits "Petit prix" (resp. "Enseigne") et "Reference". Le chier comporte 428 (resp. 528) observations. Puis nous avons lanc les rgressions binaires. Voici le code R correspondant
#rgression logistique multinomiale - vgam modele <- vglm(brand ~ femme + age, data = donnees, family = multinomial()) print(modele) #dcomposition en rgrssions individuelles #1 vs. 3 donnees.1 <- donnees[(donnees$brand == "M__PetitPrix" | donnees$brand == "M_Reference"),] donnees.1$brand <- as.factor(unclass(donnees.1$brand)) modele.1 <- glm(brand ~ femme + age, data = donnees.1, family = binomial) print(modele.1) #2 vs. 3 donnees.2 <- donnees[(donnees$brand == "M_Enseigne" | donnees$brand == "M_Reference"),] donnees.2$brand <- as.factor(unclass(donnees.2$brand)) modele.2 <- glm(brand ~ femme + age, data = donnees.2, family = binomial()) print(modele.2)
Aprs rorganisation des signes, nous pouvons comparer les coecients produits de la rgression multinomiale et les rgressions binaires (Tableau 15.1).
logit Petit prix vs. Rfrence Enseigne vs. Rfrence Rgressions Reg.Multinomiale Reg.Binaire Reg.Multinomiale Reg.Binaire constante 22.72 19.43 10.95 11.38 femme 0.47 0.39 0.06 0.04 age 0.69 0.59 0.32 0.33
Tableau 15.1.
Indniablement, il y a une similitude entre les coecients. Mais les carts entre les valeurs sont nanmoins sensibles, du moins en ce qui concerne notre exemple. Enn, il reste un problme pineux : comment exploiter ces modles en prdiction ? Nous n'avons plus la garantie que k k () = 1. Il faut dnir une stratgie approprie pour combiner les ou les y fournis par les K 1 classieurs binaires. Il n'y a pas de solution bien tablie vrai dire.
Page: 238
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Partie IV
Page: 239
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 240
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 241
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 242
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 243
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 244
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
La premire version (version 1.0) de ce fascicule a t nalise et mis en ligne le 13 septembre 2009. Il comprend 10 chapitres : 1. Rgression Logistique Binaire - Principe et estimation 2. valuation de la rgression 3. Tests de signicativit des coecients 4. Prdiction et intervalle de prdiction 5. Lecture et interprtation des coecients 6. Analyse des interactions 7. La slection de variables 8. Diagnostic de la rgression logistique 9. "Covariate pattern" et statistiques associes 10. Redressement pour les chantillons non-reprsentatifs 11. Quelques lments supplmentaires Les parties ddies la rgression multinomiale et la rgression polytomique ordinale ne sont pas commences. Ce sera l'objet de la version 2.xx de ce document.
Page: 245
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
246
Page: 246
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Pour que tout un chacun puisse reproduire l'identique les exemples illustratifs, il faut que les donnes et les logiciels soient accessibles librement. C'est une rgle laquelle que j'astreindrai toujours. C'est valable pour les documents destins l'enseignement. Mais a devrait l'tre galement pour les publications scientiques. S'agissant de ce fascicule de cours, les chiers de donnes sont accessibles l'adresse suivante http://
eric.univ-lyon2.fr/~ricco/cours/cours/pratique_regression_logistique.zip. L'archive comporte une srie de chiers XLS (Excel). Le plus souvent un chier est associ un chapitre.
Les logiciels Tanagra (1.4.32) et R (2.9.0) sont accessibles via leur site de distribution respectifs. Ainsi, le lecteur pourra reprendre pas pas les exemples qui maillent ce document. La comprhension des techniques n'en sera que meilleure.
Page: 247
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 248
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Janvier 2004. La rgression logistique a t implmente ds la premire version, elle a t constamment amliore en termes de prcision et de robustesse. Plus rcemment, la rgression logistique multinomiale a t programme.
Page: 249
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
250
La matrice de confusion.
(Figure C.1). Le taux d'erreur en resubstitution est ach. Nous disposons aussi du rappel et de (1-prcision) pour chaque modalit de la variable prdire. Si on souhaite subdiviser les donnes en deux parties, construire le modle sur la partie apprentissage et valider sur la partie test, une procdure commune toutes les mthodes supervises est propose (cf. Tutoriels - http://eric. univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_TOW_Predefined_Test_Set.pdf)
Fig. C.1.
L'valuation globale.
(Figure C.2). Les critres AIC (Akaike), BIC (SC pour Schwartz) et -2LL (Dviance) du modle trivial (Intercept) et tudi (Model) sont confront dans "Model Fit Statistics". Ensuite, nous avons le test du rapport de vraisemblance, avec LR (2 ), le degr de libert et la p-value. Enn, plusieurs pseudo-R2 sont proposs.
1. C'est mme de la btise pour tre honnte. Les biais de reprsentation et d'apprentissage ne sont absolument pas les mmes. C'est comme napper de chantilly un rti de veau, c'est peut tre joli, mais srement infect.
Page: 250 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
251
Fig. C.2.
Fig. C.3.
La description dtaille des sorties des composants est disponible dans la section consacre la slection de variables (section 7.3.1, page 123).
Page: 251
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
252
Fig. C.4.
C.3 Didacticiels
Bien entendu, la rgression logistique, mthode populaire s'il en fut, est trs prsente dans les didacticiels recenss sur notre site ddi http://tutoriels-data-mining.blogspot.com. Elle apparat dans les comparaisons de mthodes, le scoring et la construction de la courbe de gain (gain chart ou lift curve), la construction de la courbe ROC,... Pour les consulter, le plus simple est d'explorer la section consacre la rgression logistique ou de faire une recherche par mots-cls sur le site.
Page: 252
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Plus le temps passe, plus j'apprcie R. C'est pour cela que j'cris maintenant des tutoriels qui lui sont ddis . Bien sr, il reste l'apprentissage du langage de programmation qui est une vraie barrire l'entre pour les rfractaires l'ide de taper des instructions (ah bon ? et on fait quoi avec la souris monsieur ?), quant les enchaner n'en parlons mme pas. R rpond un type de besoin dirent de celui de Tanagra. Pour ma part, j'utilise les deux outils simultanment pour mes enseignements, avec le sacro-saint tableur bien entendu. On ne doit pas tre dpendant d'un logiciel. Un scientique se doit de contrler les formules, croiser les rfrences, recouper les rsultats proposs par dirents logiciels.
La commande glm() implmente la rgression linaire gnralise. La rgression logistique en est une dclinaison. Il sut de spcier la distribution de l'erreur avec l'option family. L'achage initial est assez succinct. Tout l'intrt de R est que nous pouvons accder un certain nombre de champs internes dont la liste est obtenue avec attributes(). Elle est longue. Par exemple, le champ fitted.values nous donne accs aux (Figure D.1).
D.1.2
summary
de glm()
La commande summary() permet d'obtenir de plus amples informations sur la rgression. L'achage est dj plus riche, avec les signicativits individuelles des coecients. Mais surtout, l'objet propose d'autres champs encore. Nous pouvons accder la matrice de variance covariance des coecients entre autres (Figure D.2).
1. Comme j'en cris pour d'autres logiciels libres d'ailleurs : Knime, Orange, RapidMiner, Weka, ...
Page: 253 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
254
Fig. D.1.
2. En reproduisant les calculs, je me suis rendu compte que R ne fournit pas les dfbetas que j'ai calcul sous Excel, qui sont les mmes que ceux de SAS et SPSS. J'y ai vraiment pass beaucoup de temps. J'avoue ne pas avoir pu reconstituer la formule utilise par R. Pour ceux qui savent, un petit e-mail serait vraiment le bienvenu. Merci !
Page: 254 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
255
Fig. D.2.
ce qui concerne la construction des rsidus partiels. Toutes les combinaisons sont immdiatement fournies. Bien sr, nous pourrions les reconstituer facilement en utilisant les fonctions spcialises adquates (loess, etc.), mais les obtenir facilement sans manipulations sotriques reste un atout fort (voir section 8.2.4).
Page: 255
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Page: 256
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10
Littrature
1. A. Agresti, Categorical Data Analysis, Chapter 4, "Models for Binary Response Variables", pages 79-129, Wiley, 1990. 2. M. Bardos, Analyse discriminante - Application au risque et scoring nancier, Chapitre 3, "Discrimination logistique", pages 61-79, Dunod, 2001. 3. G. Celeux, J.P. Nakache, Analyse Discriminante sur Variables Qualitatives, Polytechnica, 1994. 4. J. Jaccard, Intercation Eects in Logistic Regression, Series : Quantitative Applications in the Social Sciences, n0 135, Sage Publications, 2001. 5. D. Garson, Logistic Regression, http://www2.chass.ncsu.edu/garson/PA765/logistic.htm 6. R. Giraud, Economtrie, Collection "Que sais-je", no 1423, PUF, 1993. 7. P.L. Gonzales, "Modles rponses dichotomiques", in Modles statistiques pour donnes qualitatives, Droesbeke, Lejeune et Saporta Editeurs, Chapitre 6, pages 99-136, Technip, 2005. 8. T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning - Data Mining, Inference and Prediction, Springer, 2001. 9. D.W. Hosmer, S. Lemeshow, Applied Logistic Regression, Second Edition, Wiley, 2000. 10. S. Menard, Applied Logistic Regression Analysis (Second Edition), Series : Quantitative Applications in the Social Sciences, n0 106, Sage Publications, 2002. 11. J.P. Nakache, J. Confais, Statistique Explicative Applique, Partie 2, "Modle Logistique", pages 77-168, Technip, 2003. 12. A.A. O'Connell, Logistic Regression Models for Ordinal Response Variables, Series : Quantitative Applications in the Social Sciences, n0 146, Sage Publications, 2006. 13. R. Rakotomalala, Apprentissage Supervis, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_
mining.html
14. R. Rakotomalala, Rgression logistique - Une approche pour rendre calculable P (Y /X), http://eric.
univ-lyon2.fr/~ricco/cours/supports_data_mining.html
15. R. Rakotomalala, Rgression logistique polytomique - Variable dpendante K (K > 2) modalits, http:
//eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html
16. R. Rakotomalala, Normalisation des scores - Proposer une estimation able de P (Y = +/X) dans un problme de discrimination, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html 17. R. Rakotomalala, Estimation de l'erreur de prdiction - Les techniques de r-chantillonnage, http://eric.
univ-lyon2.fr/~ricco/cours/supports_data_mining.html
Page: 257 job: regression_logistique macro: svmono.cls date/time: 21-Jun-2011/16:10
258
Littrature
19. R. Rakotomalala, Courbe ROC (Receiving Operating Characteristics - Une autre manire d'valuer un modle de prdiction, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html 20. R. Rakotomalala, tude des dpendances, Variables qualitatives - Tableau de contingence et mesures d'association, http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html#mesures_association 21. G. Saporta, Probabilits, Analyse de donnes et Statistique, Section 18.6, "Rgresion logistique binaire (deux groupes)", pages 475-480, Technip, 2006. 22. A. Slavkovic, STAT 504 - Analysis of discrete data, http://www.stat.psu.edu/online/development/
stat504/06_logreg/01_logreg_intro.htm
23. M. Tenenhaus, Statistique - Mthodes pour dcrire, expliquer et prvoir, Chapitre 11, "La rgression logistique binaire", pages 387-460 ; Chapitre 12, "Rgression logistique multinomiale : rponses polytomique et ordinale", pages 461-499, Dunod, 2007. 24. R. Tomassone, M. Danzart, J.J. Daudin, J.P. Masson, Discrimination et classement, Chapitre 6, pages 91-103, Masson, 1988. 25. Wikipedia, Rgression Logistique, http://fr.wikipedia.org/wiki/Rgression_logistique
Page: 258
job: regression_logistique
macro: svmono.cls
date/time: 21-Jun-2011/16:10