Inferenza bayesiana

L'inferenza bayesiana è un approccio all'inferenza statistica in cui le probabilità non sono interpretate come frequenze, proporzioni o concetti analoghi, ma piuttosto come livelli di fiducia nel verificarsi di un dato evento. Il nome deriva dal teorema di Bayes, che costituisce il fondamento di questo approccio.

Il teorema di Bayes prende a sua volta il nome dal reverendo Thomas Bayes. Ad ogni modo non è chiaro se Bayes stesso sottoscriverebbe l'interpretazione della teoria della probabilità che oggi chiamiamo bayesiana.

Principi e strumenti dell'approccio bayesiano

Evidenza empirica e metodo scientifico

Gli statistici bayesiani sostengono che i metodi dell'inferenza bayesiana rappresentano una formalizzazione del metodo scientifico, che normalmente implica la raccolta di dati (evidenza empirica), che corroborano o confutano una data ipotesi. In questo senso, non si possono mai avere certezze riguardo a un'ipotesi, ma con l'aumentare della disponibilità di dati il grado di fiducia cambia; con sufficiente evidenza empirica, diventerà molto alto (per esempio, tendente a 1) o molto basso (tendente a 0).

Il sole è sorto e tramontato per miliardi di anni. Il sole è tramontato anche stanotte. Con un'elevata probabilità, il sole domani sorgerà.

Questo esempio è ripreso da una nota argomentazione di Pierre Simon Laplace, che pare sia giunto in maniera indipendente al risultato del teorema di Bayes.

Gli statistici bayesiani sostengono inoltre che l'inferenza bayesiana costituisca la base più logica per discriminare tra ipotesi alternative/in conflitto. Tramite tale approccio, si usa una stima del grado di fiducia in una data ipotesi prima dell'osservazione dei dati, al fine di associare un valore numerico al grado di fiducia in quella stessa ipotesi successivamente all'osservazione dei dati. Dal momento che si fonda su livelli di fiducia soggettivi, per contro, l'inferenza bayesiana non è interamente riducibile al concetto di induzione; si veda anche metodo scientifico.

Teorema di Bayes

In termini più semplici, il teorema di Bayes fornisce un metodo per modificare il livello di fiducia in una data ipotesi, alla luce di nuova informazione. Denotando con $H_{0}$ l'ipotesi nulla, e con $E$ il dato empirico osservato, il teorema di Bayes può essere enunciato come:

P(H_{0}|E)={\frac {P(E|H_{0})P(H_{0})}{P(E)}}.

Tralasciando l'origine dell'ipotesi nulla (che potrà essere stata formulata ab initio, o dedotta da precedenti osservazioni), essa dovrà comunque essere formulata prima dell'osservazione $E$ . Nella terminologia della statistica bayesiana, inoltre:

$P(H_{0})$ è detta probabilità a priori di $H_{0}$ ;
$P(E|H_{0})$ è detta funzione di verosimiglianza, ed è ciò su cui si fonda l'inferenza classica, o frequentista;
$P(E)$ è detta probabilità marginale, la probabilità di osservare $E$ , senza alcuna informazione pregressa; è una costante di normalizzazione;
$P(H_{0}|E)$ è detta probabilità a posteriori di $H_{0}$ , dato $E$ .

Il fattore di scala $P(E|H_{0})/P(E)$ può essere interpretato come una misura dell'impatto che l'osservazione di $E$ ha sul grado di fiducia del ricercatore nell'ipotesi nulla, rappresentato a sua volta dalla probabilità a priori $P(H_{0})$ ; se è altamente inverosimile che $E$ sia osservato, a meno che $H_{0}$ non sia proprio vera, il fattore di scala sarà elevato. La probabilità (fiducia) a posteriori, di conseguenza, combina le convinzioni che il ricercatore ha a priori con quelle derivanti dall'osservazione del dato empirico.

È facile mostrare che $P(H_{0}|E)$ è sempre minore o al più uguale a 1, così che le consuete proprietà della probabilità sono soddisfatte; infatti:

P(E)\geq P(E\wedge H_{0})=P(E|H_{0})P(H_{0}),

dunque se $P(E)=P(E\wedge H_{0})$ , $P(H_{0}|E)=1$ , e in qualunque altro caso la probabilità a posteriori sarà strettamente minore di 1.

Probabilità oggettiva e soggettiva

Alcuni statistici bayesiani ritengono che se fosse possibile assegnare alle probabilità a priori un valore oggettivo, il teorema di Bayes potrebbe essere impiegato per fornire una misura oggettiva della probabilità di un'ipotesi. Per altri, tuttavia, non sarebbe possibile assegnare probabilità oggettive; in effetti, ciò sembrerebbe richiedere la capacità di assegnare probabilità a tutte le possibili ipotesi.

In alternativa (e più spesso, nel contesto della statistica bayesiana), le probabilità si considerano una misura del grado soggettivo di fiducia da parte del ricercatore, e si suppone che restringano le potenziali ipotesi a un insieme limitato, inquadrato in un modello di riferimento. Il teorema di Bayes dovrebbe allora fornire un criterio razionale per valutare fino a che punto una data osservazione dovrebbe alterare le convinzioni del ricercatore; in questo caso tuttavia la probabilità rimane soggettiva: dunque è possibile usare il teorema per giustificare razionalmente una qualche ipotesi, ma alle spese di rifiutare l'oggettività delle affermazioni che ne derivano.

È inoltre improbabile che due individui muovano dallo stesso grado di fiducia soggettiva. I sostenitori del metodo bayesiano argomentano che, anche con probabilità a priori molto differenti, un numero sufficiente di osservazioni possa condurre a probabilità a posteriori molto vicine. Ciò presuppone che i ricercatori non rifiutino a priori le ipotesi della loro controparte, e che assegnino probabilità condizionate (funzioni di verosimiglianza) simili.

La scuola della statistica italiana ha dato importanti contributi allo sviluppo della concezione soggettiva della probabilità, tramite il lavoro di Bruno de Finetti. Sulla distinzione tra probabilità oggettiva e soggettiva, si veda anche l'articolo sulla probabilità.

Rapporto di verosimiglianza

Spesso l'impatto dell'osservazione empirica può essere sintetizzato da un rapporto di verosimiglianza. Quest'ultimo può essere combinato con la probabilità a priori, per rappresentare il grado di fiducia a priori e qualunque precedente risultato empirico. Per esempio, si consideri il rapporto di verosimiglianza:

\Lambda ={\frac {L(H_{0}|E)}{L({\text{not }}H_{0}|E)}}={\frac {P(E|H_{0})}{P(E|{\text{not }}H_{0})}}

Si può riscrivere l'enunciato del teorema di Bayes come:

P(H_{0}|E)={\frac {\Lambda P(H_{0})}{\Lambda P(H_{0})+P({\text{not }}H_{0})}}={\frac {P(H_{0})}{P(H_{0})+\left(1-P(H_{0})\right)/\Lambda }}.

Sulla base di due risultati empirici indipendenti $E_{1}$ , $E_{2}$ , quanto sopra può essere sfruttato per computare la probabilità a posteriori sulla base di $E_{1}$ , e utilizzare quest'ultima come nuova probabilità a priori per calcolare una seconda probabilità a posteriori basata su $E_{2}$ . Questo procedimento è algebricamente equivalente a moltiplicare i rapporti di verosimiglianza. Dunque:

P(E_{1},E_{2}|H_{0})=P(E_{1}|H_{0})P(E_{2}|H_{0})\quad \wedge \quad P(E_{1},E_{2}|{\text{not }}H_{0})=P(E_{1}|{\text{not }}H_{0})P(E_{2}|{\text{not }}H_{0})

implica:

P(H_{0}|E_{1},E_{2})={\frac {\Lambda _{1}\Lambda _{2}P(H_{0})}{\Lambda _{1}\Lambda _{2}P(H_{0})+P({\text{not }}H_{0})}}.

Funzione di perdita

La statistica bayesiana presenta importanti collegamenti con la teoria delle decisioni; una decisione basata sul fondamento dell'inferenza bayesiana è determinata da una funzione di perdita ad essa associata. La funzione di perdita essenzialmente riflette le conseguenze negative associate alla decisione "sbagliata". Un esempio piuttosto comune, e che porta a risultati assai vicini a quelli dell'inferenza classica o frequentista, è quello della funzione di perdita quadratica.

Particolari distribuzioni a priori e a posteriori

La variabile casuale Beta nell'inferenza bayesiana

La variabile casuale Beta svolge un importante ruolo nell'ambito dell'inferenza bayesiana in quanto per alcune variabili casuali è sia la distribuzione a priori che la distribuzione a posteriori (con parametri diversi) dei parametri di tali variabili casuali.

Distribuzioni a priori coniugate e la variabile casuale binomiale

Se $X$ è distribuita come una variabile casuale binomiale con parametri $n$ e $\pi$

f(x|\pi )=\mathrm {Binom} (x|n;\pi )

e il parametro $\pi$ è distribuito a priori come una variabile casuale Beta con i parametri $a$ e $b$

g(\pi )=\mathrm {Beta} (\pi |a;b),

allora il parametro $\pi$ è distribuito a posteriori anch'esso come una variabile casuale Beta, ma con parametri $a+x$ e $b+n-x$

g(\pi |x)=\mathrm {Beta} (\pi |a+x;b+n-x).

Qualora la distribuzione a priori sia una variabile casuale rettangolare nell'intervallo $[0;1]$ (ossia ipotizzando a priori tutti i possibili valori di $\pi$ equiprobabili), e pertanto $a=1$ e $b=1,$ allora la distribuzione a posteriori è una Beta con parametri $x+1$ e $n-x+1$

g(\pi |x)=(n+1){n \choose x}\pi ^{x}(1-\pi )^{n-x}

che ha come valore modale $p$ (e dunque come valore più probabile)

p={\frac {x}{n}}

, che corrisponde alla stima usata in ambito frequentistico,

mentre il valore atteso, ossia la media, coincide con il valore che minimizza lo scarto quadratico: esso è

p={\frac {x+1}{n+2}}

, che per

x<n/2

è maggiore del valore modale

{\frac {x}{n}}.

Variabili casuali Beta, Binomiale e Beta-Binomiale

Nel caso di una variabile casuale binomiale $\mathrm {Binom} (n;\pi )$ con distribuzione a priori coniugata $\mathrm {Beta} (a,b)$ della $\pi$ , la variabile casuale che descrive la probabilità di ottenere $x$ eventi positivi su $n$ è distribuita come una variabile casuale Beta-Binomiale $\mathrm {BetaBin} (n;a;b)$ . La variabile casuale Beta-Binomiale entra così nella formula con la quale si determina in modo bayesiano la probabilità posteriori di un modello.

Distribuzioni a priori coniugate e la variabile casuale binomiale negativa

Se $X$ è distribuita come una variabile casuale binomiale negativa con parametri $m$ e $\theta$

f(x|\theta )=\mathrm {BinNeg} (x|m;\theta )

e il parametro $\theta$ è distribuito a priori come una variabile casuale Beta con i parametri $a$ e $b$

g(\theta )=\mathrm {Beta} (\theta |a;b)

allora il parametro $\theta$ è distribuito a posteriori anch'esso come una variabile casuale Beta, ma con parametri $a+m$ e $b+x$

g(\theta |x)=\mathrm {Beta} (\theta |a+m;b+x)

Qualora la distribuzione a priori sia una variabile casuale rettangolare nell'intervallo $[0;1]$ (ossia ipotizzando a priori tutti i possibili valori di $\theta$ equiprobabili), e pertanto $a=1$ e $b=1,$ allora la distribuzione a posteriori è una Beta con parametri $m+1$ e $x+1$ che ha come valore modale $t$ (e dunque come valore più probabile):

t={\frac {m}{m+x}}.

La variabile casuale Gamma nell'inferenza bayesiana

La variabile casuale Gamma svolge un importante ruolo nell'ambito dell'inferenza bayesiana in quanto per alcune variabili casuali è sia la distribuzione a priori che la distribuzione a posteriori (con parametri diversi) dei parametri di tali variabili casuali.

Distribuzioni a priori coniugate e la stessa variabile casuale Gamma

Se $X$ è distribuita come una variabile casuale Gamma con parametri $\alpha$ e $\theta$

f(x|\theta )=\mathrm {Gamma} (x|\alpha ;\theta )

e il parametro $\theta$ è distribuito a priori a sua volta come una variabile casuale Gamma con i parametri $a$ e $b$

g(\theta )=\mathrm {Gamma} (\theta |a;b),

allora il parametro $\theta$ è distribuito a posteriori anch'esso come una variabile casuale Gamma, ma con parametri $a+\alpha$ e $b+x$

g(\theta |x)=\mathrm {Gamma} (\theta |a+\alpha ;b+x).

Distribuzioni a priori coniugate e la variabile casuale di Poisson

Se $X$ è distribuita come una variabile casuale di Poisson con parametro $\lambda$

f(x|\lambda )=\mathrm {Poisson} (x|\lambda )

e il parametro $\lambda$ è distribuito a priori come una variabile casuale Gamma con i parametri $a$ e $b$

g(\lambda )=\mathrm {Gamma} (\lambda |a;b),

allora il parametro $\lambda$ è distribuito a posteriori anch'esso come una variabile casuale Gamma, ma con parametri $a+x$ e $b+n$

g(\lambda |x)=\mathrm {Gamma} (\theta |a+x;b+n).

Variabili casuali Poissoniana, Gamma e Poisson-Gamma

Nel caso che la distribuzione a priori coniugata di una variabile casuale di Poisson sia una variabile casuale Gamma, allora la probabilità che si realizzino $x$ eventi è distribuita come una variabile casuale Poisson-Gamma. La Poisson-Gamma entra così nella formula con la quale si determina in modo bayesiano la probabilità di un modello dopo aver conosciuto i dati.

Variabili casuali esponenziale, Gamma e Gamma-Gamma

Nel caso che la distribuzione a priori coniugata di una variabile casuale esponenziale sia una variabile casuale Gamma, allora la funzione di densità di probabilità è distribuita come una variabile casuale Gamma-Gamma.

Distribuzioni a priori coniugate e la variabile casuale normale

Variabile casuale Gamma come priori coniugati della variabile casuale normale

Se $X$ è distribuita come una variabile casuale normale con parametri $\mu$ e $1/\theta$

f(x|\lambda )=N(x|\mu ;1/\theta )

e il parametro $\theta$ è distribuito a priori come una variabile casuale Gamma con i parametri $a$ e $b$

g(\lambda )=\mathrm {Gamma} (\lambda |a;b),

allora il parametro $\theta$ è distribuito a posteriori anch'esso come una variabile casuale Gamma, ma con parametri $a+1/2$ e $b+(\mu -x)^{2}/2$

g(\theta |x)=\mathrm {Gamma} (\theta |a+1/2;b+(\mu -x)^{2}/2).

Distribuzioni a priori coniugate normali di una normale

Se $X$ è distribuita come una variabile casuale normale con parametri $m$ e $\sigma ^{2}$

f(x|m)=N(x|m;1/r^{2})

e il parametro $m$ è distribuito a priori come una variabile casuale normale con i parametri $\mu$ e $\sigma ^{2}$

g(m)=N(m|\mu ;1/\sigma ^{2}),

allora il parametro $m$ è distribuito a posteriori anch'esso come una variabile casuale normale, ma con parametri $(\sigma ^{2}\mu +r^{2}x)/(\sigma ^{2}+r^{2})$ e $(\sigma ^{2}r^{2})/(\sigma ^{2}+r^{2})$

g(m|x)=N(m|(\sigma ^{2}\mu +r^{2}x)/(\sigma ^{2}+r^{2});(\sigma ^{2}r^{2})/(\sigma ^{2}+r^{2})).

La variabile casuale Dirichlet come distribuzione a priori coniugata della multinominale

Se $X$ è distribuita come una variabile casuale multinomiale

f(x|\theta )=\mathrm {Multinomiale} _{k}(\theta _{1},\theta _{2},\ldots ,\theta _{k})

e la distribuzione a priori di $\theta$ è una variabile casuale di Dirichlet

g(\theta )=\mathrm {Dirichlet} (\alpha _{1},\alpha _{2},\ldots ,\alpha _{k}),

allora la distribuzione a posteriori di $\theta$ è anch'essa una variabile casuale di Dirichlet, ma con nuovi parametri

g(\theta |x)=\mathrm {Dirichlet} (\alpha _{1}+x_{1},\alpha _{2}+x_{k},\ldots ,\alpha _{k}+x_{k}).

L'uniforme discreta nel caso di estrazione semplice

Se $X$ è distribuita come in seguito ad una estrazione semplice di una popolazione dicotomica

f(x|\theta )=\theta /n

e il parametro $\theta$ è distribuito apriori come una variabile casuale uniforme discreta

g(\theta )=1/n,

allora la distribuzione a posteriori con la funzione di probabilità

g(\theta |x)=2\theta /(n+1).

Popolarità dell'inferenza bayesiana

L'inferenza bayesiana ha a lungo rappresentato una corrente minoritaria nella teoria della statistica. Ciò è in larga parte dovuto alle difficoltà algebriche che essa pone; la computazione delle probabilità a posteriori è basata sul calcolo di integrali, per i quali spesso non si hanno espressioni analitiche.

Queste difficoltà hanno fino a pochi anni fa limitato la capacità della statistica bayesiana di produrre modelli realistici della realtà. Al fine di evitare di incorrere in problemi algebrici, gran parte dei risultati erano basati sulla teoria delle coniugate, particolari famiglie di distribuzioni per cui la probabilità a posteriori risulta avere la stessa forma di quella a priori. Chiaramente un approccio di questo tipo non andava d'accordo con l'ambizione dei bayesiani di fare statistica a partire da ipotesi meno restrittive di quelle dell'inferenza classica.

Grazie alla maggiore disponibilità di risorse informatiche a partire dagli anni novanta, è stato possibile superare tali difficoltà. È infatti possibile risolvere gli integrali in via numerica, aggirando i problemi algebrici, nella maggior parte delle applicazioni su un qualsiasi personal computer. Questa possibilità ha inoltre stimolato l'applicazione alla statistica Bayesiana di metodi numerici sviluppati in altri contesti, come quelli basati sulla simulazione (metodo Monte Carlo, algoritmi del campionamento di Gibbs e Metropolis-Hastings), nonché lo sviluppo di metodi nuovi nell'ambito della statistica bayesiana stessa (ad esempio i popolari metodi basati sulla catena di Markov Monte Carlo, o MCMC). Ciò ha notevolmente incrementato la popolarità dell'inferenza bayesiana tra gli statistici; sebbene i bayesiani costituiscano ancora una minoranza, si tratta di una minoranza in rapida crescita.

Al di là delle difficoltà algebriche che hanno a lungo reso impopolare l'inferenza bayesiana o delle problematiche epistemologiche che i metodi bayesiani sollevano, l'approccio bayesiano ha il merito di aver stimolato, nella statistica come in altre discipline (un recente esempio è dato dall'economia), la riflessione su cosa sia un modello e su che lettura un ricercatore ne deve dare.

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su inferenza bayesiana

Collegamenti esterni

International Society for Bayesian Analysis, su bayesian.org.
(EN) Edward N. Zalta (a cura di), Bayesian Epistemology, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.
(EN) Edward N. Zalta (a cura di), Bayes' Theorem, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.
(EN) Edward N. Zalta (a cura di), Interpretations of Probability, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.
(EN) Edward N. Zalta (a cura di), Inductive logic, in Stanford Encyclopedia of Philosophy, Center for the Study of Language and Information (CSLI), Università di Stanford.
(EN) A.N. Shiryaev, Bayesian approach to statistical problems, in Encyclopaedia of Mathematics, Springer e European Mathematical Society, 2002.
(EN) L.N. Bol'shev, Bayesian approach, empirical, in Encyclopaedia of Mathematics, Springer e European Mathematical Society, 2002.

Controllo di autorità	Thesaurus BNCF 36249 · LCCN (EN) sh85012506 · GND (DE) 4144220-9 · J9U (EN, HE) 987007282424705171

Portale Filosofia

Portale Matematica

Portale Statistica