Test chi quadrato di Pearson
Il test chi quadrato di Pearson (o della bontà dell'adattamento) è un test non parametrico applicato a grandi campioni quando si è in presenza di variabili nominali e si vuole verificare se il campione è stato estratto da una popolazione con una predeterminata distribuzione o che due o più campioni derivino dalla stessa popolazione.
Fa parte di un'ampia classe di test detti test chi quadrato in quanto hanno in comune le formule e la variabile casuale Chi Quadrato ma non necessariamente anche le ipotesi di base o le finalità.
Test della bontà dell'adattamento
[modifica | modifica wikitesto]Questa variante del test utilizza i dati di un solo campione e verifica l'ipotesi nulla che il campione sia stato estratto da una popolazione di cui è nota la distribuzione.
Sia
dove
- è il numero di casi osservati nel campione per la i-esima modalità
- è il numero di casi attesi nel caso l'ipotesi nulla fosse vera
- g è il numero di modalità nella quale si esprime la variabile nominale
- è la numerosità del campione.
Allora X² è distribuita approssimativamente come una variabile casuale Chi Quadrato con (g-1) gradi di libertà .
Si richiede però che tutte le frequenze attese raggiungano un valore minimo (a seconda delle esigenze, almeno pari a 5 oppure almeno pari a 10). Qualora ci siano delle frequenze attese troppo piccole, bisogna procedere ad un raggruppamento di modalità.
Test per due campioni indipendenti
[modifica | modifica wikitesto]Questa variante del test, per molti versi uguale alla precedente, verifica l'ipotesi nulla che due campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).
Organizzati i dati in una tabella di contingenza g x 2, sia
dove
- è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
- è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
- g è il numero di modalità nella quale si esprime la variabile nominale
- è la numerosità dei due campioni messi insieme.
per via dell'ipotesi di indipendenza dei campioni si ha che
essendo
- , la numerosità di ciascun campione
- , la frequenza marginale per ciascuna della g modalità
Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1) gradi di libertà ()
Test per k campioni indipendenti
[modifica | modifica wikitesto]Questa variante del test, praticamente uguale alla precedente, verifica l'ipotesi nulla che k campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).
Organizzati i dati in una tabella di contingenza g x k, sia
dove
- è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità
- è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera
- g è il numero di modalità nella quale si esprime la variabile nominale
- è la numerosità di tutti i campioni messi insieme.
per via dell'ipotesi di indipendenza dei campioni si ha che
essendo
- , la numerosità di ciascuno dei k campioni
- , la frequenza marginale per ciascuna della g modalità
Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1)(k-1) gradi di libertà ()
Test alternativi
[modifica | modifica wikitesto]Qualora la variabile nominale sia dicotomica, allora si può fare ricorso al test binomiale, valido anche nel caso di piccoli campioni.
Nel caso di un solo o al massimo due campioni, qualora la variabile sia stata all'origine ordinale (e possibilmente continua) allora si può fare ricorso al test di Kolmogorov-Smirnov, per il quale non si pone il problema di valori attesi piccoli e dunque, non necessitando di raggruppare le classi, sfrutta meglio le informazioni presenti nei dati.
Nel caso di due campioni e una variabile dicotomica, si può ricorrere al test esatto di Fisher che sfrutta tutte le informazioni disponibili nei dati, qualora si tratti di variabili intrinsecamente dicotomiche.