NotasBayesMR PDF
NotasBayesMR PDF
NotasBayesMR PDF
Manuel Mendoza R.
Pedro Regueiro M.
Departamento de Estadstica
Instituto Tecnolgico Autnomo de Mxico
2011
AM
IT
AM
Indice general
1. Introducci
on
1.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Problemas de decisi
on
10
12
13
13
14
. . . . . . . . .
15
15
16
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
IT
23
23
. . . . . . . . . . . . . . . . . . . . . . . .
26
3.3. Definici
on de probabilidad . . . . . . . . . . . . . . . . . . . . . .
27
28
3.5. Incorporaci
on de informacion adicional . . . . . . . . . . . . . . .
31
33
3.2. Definici
on de utilidad
Estadstica Bayesiana
ITAM
36
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4. Probabilidad y utilidad
41
41
AM
41
42
43
4.5. Asignaci
on de la utilidad . . . . . . . . . . . . . . . . . . . . . . .
44
44
4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
49
49
5.2. Estimaci
on puntual . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.3. Estimaci
on por regiones . . . . . . . . . . . . . . . . . . . . . . .
56
5.4. Predicci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.4.1. Pron
ostico puntual . . . . . . . . . . . . . . . . . . . . . .
59
5.4.2. Pron
ostico por regiones . . . . . . . . . . . . . . . . . . .
64
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
6. Inferencia Param
etrica Bayesiana
68
68
6.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
74
78
78
81
6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
IT
Bibliografa
88
AM
Captulo 1
Introducci
on
1.1.
Preliminares
IT
La Estadstica, tal como se presenta en los cursos mas convencionales, puede definirse como un conjunto de tecnicas cuyo proposito es la descripcion de
fen
omenos que se manifiestan a traves de datos que presentan variabilidad. Esta definici
on delimita el
ambito de accion de la disciplina -los fenomenos que
presentan variabilidad- y al mismo tiempo, establece su objetivo u
ltimo: la descripci
on. As, toda la Estadstica es descriptiva y, en particular, la Inferencia
Estadstica se ocupa del problema de descripcion en el caso en que solo es posible observar una fracci
on -o muestra- de la coleccion completa de datos que el
fen
omeno de interes puede producir (habitualmente denominada la poblacion).
En general, las descripciones que produce la Estadstica se llevan a cabo a traves
del c
alculo de res
umenes de la informacion disponible. Cuando se trata de un
problema de inferencia, la descripcion que se obtiene siempre es aproximada
puesto que se basa s
olo en una parte de toda la informacion que podra, al
menos potencialmente, ser utilizada. En esas condiciones, hay dos retos que es
necesario enfrentar. En primer lugar, idealmente, la muestra seleccionada debera reproducir exactamente las caratersticas de la poblacion entera. En los
terminos habituales en la literatura, la muestra debera ser representativa. En la
pr
actica, sin embargo, nunca es posible comprobar la representatividad de una
muestra ya que ello implicara el conocimiento de la poblacion completa. Por
tal raz
on, en el mejor de los casos, se cuenta con muestras que aproximan el
comportamiento de la poblacion y conducen, como ya se indico, a descripciones
aproximadas. El segundo reto consiste precisamente en proveer una medida del
grado de aproximaci
on que tienen las inferencias.
Para fortuna de los usuarios de los metodos estadsticos, estos dos retos han sido
razonablemente resueltos gracias a la introduccion de la selecci
on probabilstica
-por sorteo- de muestras. En su version mas simple, este esquema asigna a cada
uno de los elementos de la poblacion la misma probabilidad de aparecer en la
3
Estadstica Bayesiana
ITAM
AM
muestra y la extracci
on de cada elemento se realiza independientemente de la
de cualquier otro. Como consecuencia, los rasgos mas frecuentes en la poblacion
son los que aparecen con mayor probabilidad en la muestra. Adicionalmente,
se elimina cualquier sesgo intencional al remitir la decision de la seleccion a un
mecanismo ex
ogeno y, conceptualmente, se obtiene una muestra (aleatoria) que
est
a formada por una coleccion X (n) = {X1 , X2 , , Xn } de variables aleatorias independientes e identicamente distribudas de acuerdo con una funcion de
distribuci
on com
un F (x). En estas condiciones, la descripcion del fenomeno es
equivalente a la descripci
on de F (x).
Los problemas de inferencia que seran tratados en este texto pertenecen al
dominio de lo que se conoce como Inferencia Estadstica Parametrica. Este es
el entorno que se genera cuando la funcion de distribucion de interes pertenece
a una familia F de distribuciones donde todos los elementos tienen la misma
forma funcional, y se distinguen por el valor de un parametro (ndice) que
toma valores en un conjunto <k para un valor fijo de k. Esta simplificacion
es muy importante porque reduce la b
usqueda de un elemento, F (), en un
espacio de funciones de dimension infinita a la b
usqueda de un vector, , en un
espacio euclidiano de dimension finita. Una vez determinado el valor de , se
puede identificar el elemento F en F .
1.2.
IT
Finalmente, existe una importante coleccion de ejemplos en los que las tecnicas
estadsticas frecuentistas producen resultados que arrojan una sombra de duda
sobre el car
acter general de los conceptos en que se basan; en ocasiones estas
dudas sugieren precauci
on y modificaciones, pero en algunos casos extremos,
cuestionan la naturaleza misma de los conceptos. Algunos de estos ejemplos
pueden considerarse extremos o patologicos, pero otros son sorprendentemente
Estadstica Bayesiana
ITAM
AM
1.3.
El trabajo de un pu
nado de brillantes academicos, entre los que destacan Karl
Pearson (1857-1936), Ronald A. Fisher (1890-1962), Egon Pearson (1895-1980),
Jerzy Neyman (1894-1981), Harald Cramer (1893-1985), David Blackwell (19192010) y Calyampudi R. Rao (1920-) hizo posible que a lo largo de un periodo
de aproximadamente 30 a
nos que inicio alrededor de 1915, los metodos de la
Estadstica fuesen encontrando respaldo en los principios matematicos. Es entonces cuando propiamente nace la Estadstica Matem
atica.
Sin embargo, este notable avance de matematizacion que consolido la Estadstica
Frecuentista, no fructific
o en una Teora, en el sentido axiomatico del termino,
como s ocurri
o, en cambio, con la Probabilidad en 1933 cuando Andrei Kolmogorov (1903-1987) postulo un conjunto de axiomas o principios basicos que
encapsulan la naturaleza de la disciplina en su totalidad y a partir de los cuales
se pueden deducir todos sus resultados organizados en un cuerpo coherente de
conocimientos sin contradicciones ni paradojas.
IT
El surgimiento de una Teora Estadstica o una Teora de la Inferencia Estadstica, habra de aguardar un tiempo mas, hasta la decada de los a
nos 50 cuando
aparece el libro The Foundations of Statistics de Leonard J. Savage (1917-1971)
que recoge el fruto de su propio trabajo y el de otros estadsticos como Frank
Ramsey (1903-1930), Bruno de Finetti (1906-1985) y Dennis V. Lindley (1923). Ah se presentan los Postulados de la Teora de la Decisi
on Personal que
actualmente son mejor conocidos como Axiomas de Coherencia, y a partir de
esa base se establecen, como indica el ttulo del libro, los fundamentos de la Estadstica. En otras palabras, se construye una Teora Axiomatica de la Inferencia
Estadstica.
Probablemente, la consecuencia mas espectacular de este esfuerzo fue el hecho
de que la teora desarrollada, si bien incluye, como casos particulares, algunas
ideas, ciertos conceptos y determinados resultados especficos de la poderosa
Estadstica Frecuentista, en su gran mayora esta disciplina solo tiene cabida
en el nuevo marco como un caso lmite y, en una variedad de casos se puede
probar que sus procedimientos simplemente violan alguno de los axiomas de
coherencia. As, la nueva teora nacio en conflicto con la escuela predominante
de pensamiento estadstico. Mas a
un, retomo y revaloro ideas y conceptos que
haban evolucionado desde finales del siglo XVIII y hasta principios del siglo
XX para describir la naturaleza de los fenomenos inciertos.
El exponente m
as brillante de ese enfoque, con 150 a
nos de antiguedad, fue Pie5
Estadstica Bayesiana
ITAM
AM
Como un anotaci
on hist
orica curiosa es interesante consignar que Savage, en
los a
nos 50, desarrollaba su actividad academica en la Universidad de Chicago, donde fue contempor
aneo de distintos economistas que habran de ser muy
reconocidos, en particular por distintos trabajos relacionados con la Teora de
Elecci
on Racional que, en cierta forma, comparte orgenes con los axiomas de
coherencia. De su relaci
on con los economistas de la universidad dan cuenta,
por ejemplo, sus publicaciones conjuntas con Milton Friedman (1912-2006) sobre funciones de utilidad, y las anecdotas sobre su papel como profesor de Harry
Markowitz (1927-).
Recientemente se ha dado por llamar Neo Bayesiana a la Teora originada por
Ramsey, De Finneti, Lindley y Savage que ha tenido un crecimiento espectacular,
especialmente a partir de los ochenta. En una primera fase, la investigacion en
la materia se orient
o al refinamiento de los fundamentos; posteriormente, al
desarrollo de metodos Bayesianos para la aplicacion en la practica. Fue esta
segunda etapa en la que comprobo que la fortaleza metodologica con frecuencia
tena asociada el costo de la dificultad para obtener resultados con expresiones
analticas cerradas. La tercera etapa, que inicio en los 90, se ha caracterizado por
un crecimiento explosivo de las aplicaciones complejas en las mas diversas areas,
gracias a la incorporaci
on de tecnicas de aproximacion numerica va simulacion,
especialmente a traves de cadenas de Markov.
IT
El prop
osito de este texto es presentar una version simple pero actualizada de
los resultados de las dos primeras etapas y una revision general de las ideas
que gobiernan el desarrollo de la tercera fase. El enfasis se concentra en el
procedimiento de construcci
on de esta Teora de la Inferencia Estadstica (ahora
conocida como Bayesiana) as como en ilustrar las principales implicaciones
generales que tiene en la pr
actica.
1.4.
Ejercicios
Estadstica Bayesiana
ITAM
AM
Que opini
on le merecen estos estimadores?
Ejercicio 1.2. Suponga que cuenta con una muestra aleatoria de tama
no n para
una variable aleatoria X, cuya distribuci
on es Normal con media 1 y varianza
2 . Suponga que adem
as cuenta con una muestra aleatoria de tama
no m para
otra variable aleatoria Y, cuya distribuci
on es tambien Normal con media 2 y
la misma varianza.
vs.
H1 : = 1
IT
Estadstica Bayesiana
ITAM
AM
IT
Ejercicio 1.6. En el artculo: When Did Bayesian Inference Become Bayesian? Stephen E. Fienberg presenta una revisi
on hist
orica del desarrollo del
paradigma Bayesiano en la Inferencia Estadstica. Lea este artculo y redacte
un resumen crtico.
AM
Captulo 2
Problemas de decisi
on
Definici
on 2.0.1. Un problema de decisi
on es la situaci
on en la que un
personaje (tomador de decisiones) se enfrenta a un conjunto de decisiones, D,
de entre las cuales debe seleccionar una y s
olo una de ellas.
Principio b
asico. Una soluci
on (decisi
on) es mejor en la medida que produce
m
as satisfacci
on al tomador de decisiones. Las decisiones seran juzgadas por
sus consecuencias.
Considere los siguientes objetos:
IT
Un problema de decisi
on esta completamente caracterizado por (D, E, C, ).
Notar que:
Sni
j=1
Eij = i.
Estadstica Bayesiana
2.1.
ITAM
Problemas de decisi
on sin incertidumbre
AM
Definici
on 2.1.1. Un problema de decisi
on se dice que es sin incertidumbre
si para cada decisi
on la consecuencia respectiva es segura. Es decir si Ci consta
de un solo elemento para toda i.
d1
C1={c1}
d2
C2={c2}
dk
Ck={ck}
IT
s.a.
l2 + 4lh = S
10
Estadstica Bayesiana
ITAM
Cuya soluci
on, en terminos de
S, puede ser
obtenida por metodos est
andar de
S
S
?
?
c
alculo y est
a dada por l = 3 y h = 2 3 .
AM
IT
M
as a
un, dada la restrici
on que define a estos dise
nos, las consecuencias en C
se pueden expresar como funci
on de h (e implcitamente de l). Este hecho se
ilustra en la figura 2.3
Como se ver
a a continuaci
on, en la practica los problemas de decision mas
interesantes son aquellos que contienen incertidumbre.
11
Estadstica Bayesiana
2.2.
ITAM
Problemas de decisi
on con incertidumbre
AM
Definici
on 2.2.1. Un Problema de decisi
on se dice que es con incertidumbre cuando para al menos una decisi
on existe m
as de una posible consecuencia.
Es decir, si existe al menos una i tal que Ci consta de dos o m
as elementos.
E11
E12
d1
c11
c12
E1n1
c1n1
E21
E22
c21
c22
d2
E2n2
c2n2
Ek1
Ek2
dk
Eknk
ck1
ck2
cknk
IT
Bajo las condiciones de un problema de decision con incertidumbre, no es inmediato que se deba utilizar directamente el algoritmo de solucion descrito en la
secci
on 2.1. Una idea general que se ha ensayado para resolver un problema de
este tipo, es reducirlo a otro problema sin incertidumbre. Como veremos mas
adelante, esta idea ha inducido a diversos criterios para la solucion de problemas
de decisi
on.
Antes de presentar estos criterios, es interesante considerar la siguiente situaci
on. Suponga que las particiones Ei : i = 1, 2. . . . , k son todas iguales. Esto
significa que los eventos inciertos que condicionan las consecuencias de todas las
decisiones son los mismos. Esto no es el caso general, pero resulta, como se co12
Estadstica Bayesiana
ITAM
mentar
a en su momento, que esta estructura se puede adoptar conceptualmente
sin perdida de generalidad.
Si Ei = E i, entonces el problema de decision, ademas del arbol respectivo,
admite una representaci
on grafica tal como se muestra en la tabla 2.1.
E1
c11
c21
..
.
E2
c12
c22
..
.
...
...
...
..
.
En
c1n
c2n
..
.
dk
ck1
ck2
...
ckn
AM
d1
d2
..
.
En la tabla anterior surge una idea interesante Que sucede si al comparar dos
renglones (correspondientes a di y di0 ) ocurre que, elemento a elemento, por
columna, cij ci0 j ? Claramente, entonces no importa cual evento incierto se
presente, la decisi
on di produce consecuencias mas preferidas que di0 . Evidentemente di0 no puede ser la opcion optima para el tomador de decisiones, puesto
que al menos existe otra que, sin duda, es mejor (di ). Cuando se presenta esta
circunstancia, se dice que di domina a di0 , y que di0 es inadmisible. Por supuesto,
en un problema especfico es conveniente identificar las opciones inadmisibles y
eliminarlas de D.
Como ya se indic
o, en la pr
actica las particiones Ei : i = 1, 2. . . . , k no tienen
porque ser iguales, pero el problema de decision se puede reformular considerando una partici
on E ? donde cada elemento de esta nueva particion se construye
como la intersecci
on de k eventos, tomando uno de cada Ei . Es claro que algunos elementos ser
an iguales al vaco, pero en cualquier caso, por construccion,
el resultado es una partici
on com
un. Y en esos terminos se puede enunciar la
siguiente definici
on general.
IT
Definici
on 2.2.2. Una decisi
on d D se dice que es inadmisible si existe
d0 D tal que, para cualquier evento incierto en E sucede que d d0 y existe
un evento incierto Ei E para el cual d d0 . Se dice tambien que d0 domina a
d.
2.3.
2.3.1.
Criterio optimista
Estadstica Bayesiana
ITAM
c1
d2
c2o
AM
d1
cko
dk
2.3.2.
IT
d1
d2
dk
c1
c2
min
min
min
ck
14
Estadstica Bayesiana
2.3.3.
ITAM
Criterio de la consecuencia m
as probable
AM
c1p
c2p
d2
dk
ckp
2.3.4.
IT
Estadstica Bayesiana
ITAM
AM
u(c1)
u(c2)
d2
...
u(ck)
dk
2.3.5.
Observe que en este criterio, al igual que en el criterio anterior, sera necesario
contar con el concepto de utilidad, as como con una medida de credibilidad de
los eventos inciertos, tal como se describo en el criterio de la consecuencia mas
probable. En este caso, la nueva rama artificial tendra una utilidad que equivale
a la utilidad esperada del conjunto de consecuencias original.
IT
d1
d2
dk
16
Estadstica Bayesiana
ITAM
AM
As, si se definen:
el
arbol de decisi
on del problema resulta
-k+7/4*k
E2
P(E2)
-k
E1
P(E1)
-k
E2
P(E2)
-k+5/4*k
IT
dc
E1
P(E1)
dl
Estadstica Bayesiana
ITAM
-k+7/4*k
dl
-k+5/4*k
AM
dc
-k
dl
-k
-k+7/4*k
dl
-k
IT
-1/8*k
dl
-3/8*k
18
Estadstica Bayesiana
ITAM
k*[3/4*P(E1)-P(E2)]
dl
k*[-P(E1)+1/4*P(E2)]
AM
dc
u(p)
u(p)
uc
1/4
uc
1/4
5/12
1/5
5/12
4/7
-1
1/5
4/7
-1
ul
(a)
ul
(b)
Figura 2.16:
(a)Utilidad esperada en funcion de P (E1 ). Tomando k = 1.
(b)Estrategia
optima para el problema de las apuestas con D0 y k = 1.
IT
19
Estadstica Bayesiana
2.4.
ITAM
Ejercicios
AM
IT
20
Estadstica Bayesiana
ITAM
AM
Ejercicio 2.3. Considere el siguiente problema estadstico: Sea x(n) una m.a.
de una variable aleatoria X tal que E(X 2 ) < . Encontrar el Mejor Estimador
Lineal Insesgado (MELI) de E(X).
a) Formule este problema como uno de decisi
on.
IT
21
Estadstica Bayesiana
ITAM
AM
En cuanto a la final, se
nal
o que espera que no se defina por penales y ratific
o su optimismo al declarar que a diferencia de 1986, Maradona quiza ya
no es el n
umero uno del mundo y ha
perdido mucho en estos cuatro a
nos.
Sin embargo, coment
o que sigue siendo
uno de los mejores jugadores del mundo y deben marcarlo de cerca.
En su acostumbrada conferencia de
prensa, el entrenador declaro que en
Mexico cometieron el error de centrar
su atenci
on sobre Maradona y olvidaron a Burruchaga y Valdano, pero
aclar
o que ya aprendimos la leccion
y esta vez abordaremos el problema de
manera diferente, y ante la imposibilidad de controlar a Diego durante los 90
minutos, dijo que tratar
an de limitar
su radio de acci
on y que su probable
marcador saldr
a de Kohler, Berthold o
Buchwald.
Expres
o que las armas para el triunfo son la concentraci
on y agresividad,
factores que estuvieron en 86 con sus
rivales.
Pese a sus errores anteriores, los magos italianos insisten y ahora dicen que
Alemania ganara el Mundial. En tanto,
para los corredores de apuestas britanicos, el equipo aleman es solo favorito
por un margen mnimo: por cada 10 libras que se arriesguen se pagaran 11,
en caso de un triunfo aleman.
IT
No revel
o la alineaci
on de su equipo,
pero son probables los cambios en el
medio campo, para donde cuenta con
cuatro elementos como Haessler, Littbarski, Bein y Thon. Pero al parecer
ya se recuper
o el delantero Rudi Voeller. Acerca de la alineaci
on del rival,
declar
o tener mucha curiosidad por saber c
omo se las ingeniar
a Bilardo para
armar su equipo, ante las suspensiones
y lesionados.
22
AM
Captulo 3
Elementos de la Teora de
Decisi
on
3.1.
Cuando una Teora se desarrolla a partir de una base axiomatica, la idea fundamental es plasmar en los axiomas los principios basicos que dan sustento a
dicha Teora. As, todo resultado sera consecuencia de los axiomas y por tanto,
si alg
un resultado resultara inapropiado o controvertible el origen para ello debe
encontrarse en los propios axiomas. Ahora bien, en general, una misma Teora
se puede desarrollar a partir de distintos conjuntos de axiomas. Habitualmente,
la elecci
on de uno de estos conjuntos en particular se realiza en funcion de la
capacidad de sntesis que tenga, as como de su interpretabilidad.
IT
Los axiomas de coherencia que aqu se presentan, son una version simplificada
de los que aparecen en Bernardo y Smith (1994), y que fueron propuestos, por
ejemplo, en Bernardo (1981). Estos axiomas, constituyen una base para la Teora
de la Decisi
on, y describen los principios que debera cumplir un tomador de
decisiones que no quiere incurrir en errores sistematicos (quiere ser coherente).
Estos cuatro axiomas son especialmente faciles de interpretar y, como puede
observarse, tres de ellos se refieren a las caractersticas del orden de preferencias,
mientras que el cuarto establece un sistema de medicion de la incertidumbre en
terminos de preferencias.
Finalmente, si como es el caso en la Teora de la Decision que se discute aqu, de
los axiomas se sigue un procedimiento u
nico para la solucion de los problemas
que aborda la Teora, entonces cualquier otro procedimiento tiene solo dos posibilidades: o bien es equivalente al que establecen los axiomas, o se contrapone
con estos.
23
Estadstica Bayesiana
ITAM
AM
Adem
as, es posible encontrar c y c en C t.q. c c c
c C.
IT
Suponga por un momento que este axioma no se cumple. Esto es, suponga que
existen di , dj , dk en D tales que el tomador de decisiones considera que di dj
y que dj dk , pero que dk di . Si tal fuera el caso, usted podra ofrecerle
gratis cualquiera de las tres opciones. Si por ejemplo, el tomador de decisiones
eligiese dk , entonces usted podra ofrecerle la sustitucion por dj (que es mas
preferible que dk para el) a cambio de una suma S1 positiva pero muy peque
na,
de manera que la permuta a el le parezca conveniente. Acto seguido, Ud. puede
hacer lo mismo para sustituirle dj por di a cambio de una suma S2 . Por u
ltimo,
como el tomador de decisiones considera que dk di puede ofrecerle el cambio
de di por dk gratis. As, el tomador de decisiones vuelve a la posicion original
despues de haber pagado S1 + S2 . No importa que tan peque
nos sean S1 y
S2 , si son positivas usted puede repetir este procedimiento indefinidamente, y
habr
a convertido al tomador de decisiones en una maquina perpetua de regalar
dinero.
Axioma 3. Sustitubilidad: si di , dj D y A es un evento incierto t.q. di dj
cuando ocurre A y di dj cuando ocurre Ac entonces di dj . An
alogamente
si di dj cuando ocurre A y di dj cuando ocurre Ac entonces di dj .
24
Estadstica Bayesiana
ITAM
AM
Axioma 4. Eventos de referencia: Independientemente de los eventos inciertos relevantes, el tomador de decisiones puede imaginar un procedimiento para
generar puntos en el cuadrado unitario I de manera que para cualesquiera dos
regiones R1 Y R2 en I, el evento A1 = {z R1 } es m
as creble que el evento
A2 = {z R2 } Area(R
)
>
Area(R
).
1
2
Este cuarto axioma es de una naturaleza distinta a los tres anteriores. Simplemente define un patr
on de referencia, y establece un mecanismo para la medicion
cuantitativa de la incertidumbre. En terminos de irrefutabilidad, lo u
nico que
en realidad establece es que el tomador de decisiones sea capaz de imaginar
un mecanismo para simular observaciones de una distribucion Uniforme en el
cuadrado unitario de <2 .
As para cualesquiera dor regiones R1 , R2 en el cuadrado unitario, y las decisiones dR1 = {c |R1 c , c |R1 } y dR2 = {c |R2 c , c |R2 }, se cumplira necesariamente
IT
Como complemento de los primeros cuatro axiomas que son los que en realidad
definen la naturaleza de Teora de la Decision que se presenta en este captulo,
en este punto es conveniente introducir un axioma adicional cuya utilidad es
fundamentalmente tecnica. A partir de los axiomas 1 a 4, la medicion cuantitativa tanto las preferencias como de la incertidumbre puede llevarse hasta el
extremo de confinar su valor numerico en un intervalo arbitrariamente peque
no,
y en la pr
actica esta aproximacion puede ser suficiente. Sin embargo, para poder asignarle un valor preciso y u
nico, condicion que es conveniente para efectos
conceptuales, es necesario introducir el siguiente axioma.
on de decisiones DI = {dR |R I} es densa
Axioma 5. Densidad: La colecci
en D3 , i.e. d D3 R I t.q. d dR .
25
Estadstica Bayesiana
3.2.
ITAM
Definici
on de utilidad
Definici
on 3.2.1. Sea c C, se define la utilidad can
onica u0 (c) como el
una regi
de
on R I t.q. dc dR .
AM
Observe que, puesto que la utilidad canonica se define en terminos del area de
una regi
on en I, entonces necesariamente u0 (c) [0, 1] c C.
Demostraci
on. La existencia de u0 es consecuencia directa del axioma de densidad. Ahora,
c
y u0 0 (c) = Area(R
2 ) t.q. dc dR = {c |R2 , c |R2 }.
2
axioma 4
Area(R
1 ) = Area(R2 ) u0 (c) = u0 (c).
Demostraci
on. Sean c1 y c2 t.q. c1 c2 . Se sabe entonces que existen R1 y R2
tales que
u0 (c1 ) = Area(R
1 ) y u0 (c2 ) = Area(R2 )
Corolario. u0 (c ) = 0 y u0 (c ) = 1.
IT
Demostraci
on. Como c C, entonces u0 (c ) = Area(R)
donde dR dc . De
An
alogamente para c C se tiene que u0 (c ) = Area(S)
donde dS dc y
Observe que si E1 , E2 E y dE1 = {c |E1c , c |E1 }, dE2 = {c |E2c , c |E2 }, entonces dE1 dE2 E2 es mas creble que E1 . Esto es, dE1 dE2 si y solo
si E1 E2 . Donde se utiliza para definir una nueva relacion en E E que
establece el orden de credibilidad entre los eventos inciertos. Adicionalmente, si
E E es tal que dE = {c |E c , c |E} se sabe, por el axioma 5, que existe un R en
I tal que dE dR , lo que implica que E y R son igualmente crebles (E R).
26
Estadstica Bayesiana
3.3.
ITAM
Definici
on de probabilidad
Definici
on 3.3.1. Sea E E un evento incierto relevante, se define la proba
bilidad subjetiva de E en las condiciones H como P (E|H) = Area(R)
donde
R cumple que dR dE bajo las condiciones H.
AM
P (E|H) =Area(R)
t.q. dE dR = {c |Rc , c |R} y
P 0 (E|H) =Area(S)
t.q. dE dS = {c |S c , c |S}.
axioma 4
Area(R)
= Area(S)
P (E|H) = P 0 (E|H)
2. P (|H) = 0
3. P (|H) = 1
IT
Demostraci
on.
1. P (E|H) = Area(R)
donde R I 0 P (E|H) 1
3. La demostraci
on es analoga a la de la propiedad 2.
4. Para el caso en que E = o F = , la conclusion se sigue directamente
de la propiedad 2. En caso contrario, si E, F 6= , sean
P (E|H) =Area(R)
t.q. dE dR = {c |Rc , c |R} y
P (E F |H) =Area(S)
t.q. dEF dS = {c |S c , c |S}.
27
Estadstica Bayesiana
ITAM
que Area(S)
> Area(R).
As, es posible tomar R0 S I tal que
0
Area(R
) = Area(R),
de manera que dR0 dE (E R0 ).
AM
ende Area(S\R
) + Area(R
) = Area(S).
Ademas, es posible expresar la
siguientes relaciones:
dF ={c |F c , c |F },
c
y as P (F |H) = Area(S\R
), de donde se sigue la conclusion.
IT
3.4.
Como se discuti
o en el captulo previo, los metodos para resolver problemas de
decisi
on en ambiente de incertidumbre suelen recurrir a la idea de podar el
arbol de decisi
28
Estadstica Bayesiana
ITAM
AM
y considere la primera consecuencia involucrada, c1 C. Como ya se ha mostrado, debe existir R1 I tal que
c1 dR1 = {c |R1 c , c |R1 },
Procediendo an
alogamente para cada i en {1, 2, . . . , k} debe ocurrir que si
d(i) {dR1 |E1 , dR2 |E2 , . . . , dRi |Ei , ci+1 |Ei+1 , ci+2 |Ei+2 . . . , ck |Ek }
IT
i=1
En estas condiciones,
sean las decisiones
d1 , d2 D, y los conjuntos definidos
Sk1
Sk2
por A = i=1
(E1i R1i ) y B = i=1
(E2i R2i ), entonces
d1 dA y d2 dB
29
Estadstica Bayesiana
ITAM
AM
Por u
ltimo, observe que
k1
[
P (A|H) = P
!
k1
X
P (E1i R1i |H)
(E1i R1i ) H =
i=1
i=1
pero puesto que los eventos de referencia son independientes de los eventos
inciertos relevantes,
P (A|H) =
k1
X
i=1
k1
X
i=1
k2
X
i=1
En consecuencia,
d1 d2
k1
X
i=1
k2
X
i=1
IT
Es decir, la opci
on m
as preferible es la que produce la utilidad esperada maxima
y, por tanto, el u
nico criterio congruente con la axiomatica de Teora de la
Decisi
on es el de utilidad esperada. As, el resultado que se deriva de los axiomas
de coherencia se puede precisar en tres etapas:
Toda forma de incertidumbre debe y puede ser descrita con una medida
de probabilidad.
Para toda consecuencia en el problema se debe y puede asignar un valor
numerico de utilidad.
Una decisi
on es m
as preferible que otra si y solo si su utilidad esperada es
mayor a la utilidad esperada de la otra.
30
Estadstica Bayesiana
ITAM
De esta forma, la teora conduce a que cualquier problema de decision en ambiente de incertidumbre se pueda resolver con un algoritmo u
nico y general:
1. Se asignan las probabilidades de todos los eventos inciertos.
AM
Y la soluci
on es la opci
on d? D tal que EH {u0 (d? )} EH {u0 (d)} d D.
Por supuesto, aun resta la discusion sobre la manera de asignar las probabilidades y utilidades en un problema concreto. Este es un tema que se atendera en
el captulo siguiente.
3.5.
Incorporaci
on de informaci
on adicional
IT
Ahora bien, los cambios estructurales habitualmente ocurren independientemente de la voluntad del tomador de decisiones. Por lo que toca a los cambios en
preferencias, estos suelen presentarse de manera esporadica y, generalmente, sin
la intervenci
on consciente del tomador de decisiones.
El tipo de cambio que se distingue de los demas, porque suele ser mucho mas
cum
un y provocado en forma deliberada por el tomador de decisiones es el de
las creencias. Ya se ha discutido, con amplitud, que un problema de decision
31
Estadstica Bayesiana
ITAM
es mucho m
as complejo cuando involucra incertidumbre. En consecuencia, es
razonable que los tomadores de decisiones procuren eliminar, o al menos disminuir, la incertidumbre con la que se enfrentan a un problema de decision.
Entonces, el camino obvio es obtener informacion adicional sobre los eventos
inciertos relevantes.
AM
P (E Z|H)
P (Z|H)
P (Z|E, H) =
P (E Z|H)
,
P (E|H)
P (E|Z, H) =
r
X
P (Z|H, Ei )P (Ei )
i=1
IT
Observe que P (Ei |Z, H) tiene como argumento al evento incierto Ei y que,
puesto que E1 , E2 . . . , Er forman una particion del evento seguro, su suma debe ser igual a 1. Entonces, P (Z|H) puede ser tratado como una constante de
normalizaci
on, y es posible escribir
P (Ei |Z, H)P (Z|Ei , H)P (Ei |H)
La interpretaci
on de esta u
ltima expresion es reveladora. P (Ei |H) es la probabilidad que describe el estado de incertidumbre antes de la informacion Z, que se
conoce como la inicial o a priori. P (Ei |Z, H) es la probabilidad que describe el
estado de incertidumbre despues de conocer la informacion Z, y se le llama final
o a posteriori. As, resulta que la final es proporcional al producto de la inicial y
el factor P (Z|Ei , H) que, a su vez, se conoce como la verosimilitud de Ei dado
Z. Este nombre no es casual; como se vera mas adelante, en efecto P (Z|Ei , H)
coincide con la muy conocida funcion de verosimilitud que aparece en los textos
de Inferencia Estadstica.
32
Estadstica Bayesiana
ITAM
AM
Es importante observar tambien que el procedimiento de actualizacion o aprendizaje que transforma una inicial en una final, es de hecho, un proceso secuencial
que se puede repetir cuando despues de una primera pieza de informacion adicional Z se recibe otra m
as Z 0 . As, la inicial P (E|H) se transforma en la final
P (E|H, Z), que en el segundo ciclo juega el papel de inicial para actualizarse con
Z 0 , y poder llegar a la final P (E|H, Z, Z 0 ). Esto bajo las reglas de actualizacion
P (E|H, Z)P (Z|E, H)P (E|H) y
P (E|H, Z, Z 0 )P (Z 0 |E, H, Z)P (E|H, Z).
donde lo m
as notable es que, en general, la verosimilitud en el segundo caso
es condicional en la primera pieza de informacion. Por supuesto, si Z y Z 0 son
condicionalmente independientes dado E, entonces
P (E|H, Z)P (Z|E, H)P (E|H) y
P (E|H, Z, Z 0 )P (Z 0 |E, H)P (E|H, Z).
Finalmente, debe resultar evidente que, al igual que a priori una solucion de
Bayes ? es tal que
EP (E) {u0 (d, E)} EP (E) {u0 ( ? , E)}
d D,
an
alogamente, a posteriori una solucion de Bayes sera ? (Z) tal que
EP (E|Z) {u0 (d, E)} EP (E|Z) {u0 ( ? (Z), E)}
d D.
IT
3.6.
Reglas de decisi
on
Estadstica Bayesiana
ITAM
AM
IT
de manera que, si para cada Z fija en Z se elige la opcion d?Z en D tal que
Z
Z
u(d, E)P (E|Z)dE u(d?Z , E)P (E|Z)dE d D,
entonces, si se define ? (Z) = d?Z Z Z se tiene que
Z
Z
Z
Z
?
P (Z)
u(d(Z), E)P (E|Z) dE dZ P (Z)
u(dZ , E)P (E|Z) dE dZ.
Estadstica Bayesiana
ITAM
regla de decis
on ? se puede resolver encontrando, para cada Z, la mejor decision
?
dZ .
AM
Puesto que tanto d1 como d2 son optimas, la introduccion del volado no debiera
impactar la calidad del resultado. De hecho, esta idea se emplea en el ambito de
teora de juegos, en donde ademas de maximizar la utilidad se lograra que el
oponente no pueda anticipar con precision la jugada. En el caso de una decision
no hay un oponente, as que ese efecto no es un fin en s mismo pero, en cualquier
caso, la idea puede explorarse con otros propositos.
As, en el caso en que D es finito, puede definirse el concepto de una regla de
decisi
on de la siguiente forma:
Definici
on 3.6.2. Sea D un espacio de decision finito de cardinalidad k con
elementos d1 , d2 , . . . , dk , y sea P unaP
distribuci
on de probabilidad definida sok
bre {1, 2, . . . , k} tal que Pi 0 i y i=1 Pi = 1. Entonces, a un mecanismo
que selecciona la decisi
on di con probabilidad Pi se le conoce como regla de
decisi
on aleatorizada sobre D.
IT
k
X
Pi E{u(di , E)}.
i=1
35
Estadstica Bayesiana
ITAM
Ei1
Ei2
di
cin
AM
Ein
i
ci1
ci2
Algunas preguntas que son de interes cuando se consideran decisiones aleatorizadas son las siguientes: Es posible alcanzar una mayor utilidad esperada?
Es posible encontrar nuevas soluciones optimas al problema? Las respuestas a
estas preguntas se examinan en la lista de ejercicios al final de este captulo.
3.7.
IT
Si D es infinito, la b
usqueda del maximo de la utilidad esperada debe
contemplar el hecho de que la utilidad canonica esta acotada y en consecuencia la utilidad esperada tambien lo esta. As queda garantizada la
existencia de, al menos, un supremo de la utilidad esperada, y en el peor
de los casos, ser
a posible obtener una opcion cuya utilidad esperada sea
arbitrariamente cercana al correspondiente supremo. En este caso, dependiendo de si D es discreto o continuo, la funcion g(d) = E{u(d, E)} puede
maximizarse con metodos de optimizacion discreta, o incluso de calculo
diferencial si g satisface las propiedades necesarias.
Si la colecci
on de eventos inciertos relevantes E es infinita, la distribucion
P (E) puede corresponder a un modelo de probabilidad discreto con soporte numerable o bien a un modelo de probabilidad continuo. Aqu, de
nuevo, el hecho de que la utilidad canonica es acotada, garantiza que la
utilidad esperada existe para toda d D.
Evidentemente, la determinacion de la probabilidad de todos, y cada uno,
de los elementos de la coleccion de eventos relevantes no es factible. La
alternativa es identificar este valor para un reducido conjunto de eventos,
utilizando el mecanismo que se presentara en la seccion 4.2, y a partir de
esta informaci
on, proponer un modelo que produzca una aproximacion a
todas las probabilidades requeridas.
36
Estadstica Bayesiana
3.8.
ITAM
Ejercicios
AM
1
,
2
c12 =
1
+ ,
2
c21 =
1
2
2
c22 =
1
+ 3
2
Con una constante estrictamente positiva tal que todas las consecuencias son,
a su vez, estrictamente positivas. Si la utilidad de las consecuencias se mide con
la funci
on identidad (u(c) = c), entonces
a) Construya el
arbol de decisi
on correspondiente.
IT
e) En el caso del criterio de la utilidad esperada, demuestre que para diferentes valores de la decisi
on
optima puede variar o incluso pueden
ser las dos decisiones igualmente preferibles. Explique las causas de este
fen
omeno y la importancia de este resultado.
Estadstica Bayesiana
ITAM
AM
g) Cu
ales decisiones aleatorizadas podran ser soluciones de Bayes si se
agranda D para incluirlas junto con las decisiones originales? En d
onde
se localizaran dentro de su diagrama?
IT
Recompensa
2, 000
1, 000
1, 000
38
Estadstica Bayesiana
ITAM
b) Si resuelve decidir s
olo despues de observar la primera carta.
c) C
omo comparara los resultados de a) y b)?
Diga adem
as
AM
c) Encuentre la soluci
on de Bayes.
IT
Si ahora la funci
on de densidad de est
a dada por f () = (a + 1)a en (0, 1),
d) Cu
ales son los valores del exponente a que conducen a lanzar la campa
na
publicitaria con el criterio de Bayes?
Estadstica Bayesiana
ITAM
Ejercicio 3.7. Suponga que un usuario del Servicio Postal se encuentra con que
hay dos tipos de servicio que puede emplear para realizar sus envos: Ordinario
y Express. El costo para el paquete especfico que desea enviar es de 800
o 1, 000
pesos seg
un elija el servicio Ordinario o Express.
AM
Adem
as sabe que, de acuerdo a los registros del Servicio Postal, de cada 1000
envos que se realizan por servicio Ordinario, 301 llegan a su destino la ma
nana
siguiente, 299 lo hacen la tarde siguiente, 287 lo hacen la segunda ma
nana y
113 lo hacen la segunda tarde; de igual manera, conoce que los n
umeros para el
servicio Express son 451, 369, 140, y 40 respectivamente.
IT
Si en esta ocasi
on el usuario esta dispuesto a pagar hasta 2, 000 pesos si su
paquete llega con toda seguridad la ma
nana siguiente, hasta 1, 600 pesos si llega
con certeza la tarde siguiente, 1, 200 si lo hace la segunda ma
nana y 800 la
segunda tarde, describa el problema del usuario como uno de decisi
on y analcelo
para obtener una soluci
on
optima.
40
AM
Captulo 4
Probabilidad y utilidad
4.1.
Probabilidad subjetiva
A diferencia del punto de vista Frecuentista, en la Teora Bayesiana no es necesario que un evento sea aleatorio (en el sentido en que sus resultados se presentan
con variabilidad) para que se le pueda asignar una probabilidad; el aspecto que
es relevante es que exista incertidumbre sobre la eventual ocurrencia del evento.
Ejemplo 4.1.1. Considerar el evento E = Manuel Mendoza vive a m
as de
10Km del Instituto Tecnol
ogico Aut
onomo de Mexico (ITAM).
Asignaci
on de la probabilidad inicial
IT
4.2.
As, si adem
as ocurre que dE dp entonces, necesariamente P (E) = p. Esta
condici
on sugiere un algoritmo para la b
usqueda de P (E). Si se toma p = 12 y
ocurre que dp dE entonces, a partir de los axiomas de coherencia, se puede
41
Estadstica Bayesiana
ITAM
asegurar que
P (E)
1
, 1 .
2
AM
4.3.
Distribuciones no informativas
IT
Es interesante observar que, cuando en los juegos de azar, por ejemplo el lanzamiento de una moneda o un dado, se dice que la moneda o el dado son honestos,
lo que se supone es que sus resultados siguen una distribucion uniforme, es decir
no informativa.
42
Estadstica Bayesiana
4.4.
ITAM
Utilidad y p
erdida
AM
En la secci
on 3.2 se introdujo el concepto de utilidad canonica, esta funcion de
utilidad es sumamente conveniente pues provee al tomador de decisiones de una
forma para calcular la utilidad esperada de una decision, y por tanto encontrar
la soluci
on de Bayes para cualquiera que sea el problema al que se enfrente. Esto
es
r
X
E{u(d, E)} =
u0 (cj )P (Ej ).
j=1
Sin embargo, en la pr
actica existen algunos problemas en los que se podra
estar interesado en utilizar una funcion de utilidad distinta a la canonica. Un
resultado interesante, que ademas es facil de comprobar, es que se puede utilizar
cualquier transformaci
on lineal de u0 , es decir
E{u(d, E)} =
r
X
u(cj )P (Ej )
j=1
donde u(cj ) = au0 (cj ) + b con a, b <, y la solucion del problema sera afectada
exclusivamente por el valor de a en la siguiente manera:
Si a > 0 la soluci
on no cambia
Si a < 0 la soluci
on
optima se obtiene minimizando E{u(d, E)}
En el caso en que a < 0 a u(c) se le conoce como funcion de perdida y generalmente se denota por L(c). De hecho, en muchas ocasiones resulta mas facil o
pr
actico utilizar una funci
on de perdida en lugar de su correspondiente funcion
de utilidad.
IT
Estadstica Bayesiana
4.5.
ITAM
Asignaci
on de la utilidad
AM
Al igual que con las creencias, para determinar la funcion de utilidad canonica
del tomador de decisiones, es posible someter a este a un proceso interrogatorio
mediante loteras que genere un proceso de biseccion. As, para toda consecuencia c C tal que c c c , se puede enfrentar al tomador de decisiones a
la elecci
on entre dr = {c |Rc , c |R} y dc = {c|Rc , c|R}, donde R es un evento
de referencia que inicialmente cumple que Area(R) = r. De esta manera, si
originalmente se toma r = 21 y sucede que dr dc entonces, necesariamente se
cumple que
1
u(c)
,1
2
Continuando con la misma idea, se puede modificar R para que cumpla con
alogamente hasta que se acote el valor de u(c) en un
que r = 34 y proceder an
intervalo suficientemente peque
no para ser u
til en la practica. Finalmente, se
puede tomar u(c) igual al punto medio del intervalo obtenido.
4.6.
IT
Sin embargo, en la pr
actica se ha observado que esta forma de asignar la utilidad
no es, en general, apropiada. Si efectivamente este fuera el caso, todos los tomadores de decisi
on tendran la misma actitud de preferencia frente al dinero. Y
en particular, si a cada uno se le sometiera al proceso descrito en la seccion anterior, el resultado sera una lnea recta que pasa por los puntos (c , 0), y (c , 1),
donde c y c son las cantidades mnima y maxima de dinero involucrado.
Estadstica Bayesiana
ITAM
tras algunos prefieren la cantidad segura, otros prefieren arriesgarse con d 12 con
la esperanza de obtener c e incluso, posiblemente unos mas sean efectivamente
indiferentes entre estas opciones.
AM
M
as a
un, un mismo tomador de decisiones coherente puede preferir c, d 12 , o
incluso ser indiferente entre ambos si los valores de c y c se modifican lo suficiente.
De hecho, cuando un tomador de decisiones prefiere sistematicamente las opciones seguras, se le llama adverso al riesgo; cuando por el contrario prefiere
la incertidumbre con la ilusion de alcanzar una recompensa mayor, se dice que
es amante al riesgo; y si es indiferente en situaciones como la descrita se le
denomina neutral al riesgo.
En la gr
afica 4.1a se exhiben tres posibles formas de la utilidad del dinero. En
estas, cada una tiene un tipo distinto de preferencia por el dinero. En un caso
general, incluso estos patrones se pueden combinar en una misma funcion de
utilidad como la presentada en la grafica 4.1b
Amante al riesgo
Adverso al riesgo
Neutral al riesgo
Amante al riesgo
Neutral al
riesgo
U(c)
IT
U(c)
Adverso al riesgo
0.0
0.4
0.6
(a)
(b)
45
1.0
Estadstica Bayesiana
4.7.
ITAM
Ejercicios
AM
d) Utilizando la informaci
on de los apartados a) y b) encuentre una distribuci
on Normal que se asigne a sus asignaciones. Cu
antas existen?
e) Confrontando c) con d), Encuentra concordancia? En caso negativo,
Cu
al cree que sea la causa?
IT
Ejercicio 4.3. Considere el siguiente juego de azar: una moneda se lanza tantas
veces como sea necesario hasta que aparece un sol por primera vez. Entonces,
se registra el n
umero r de lanzamientos que se han efectuado y el jugador, a
cambio de un boleto de entrada, recibe como premio la cantidad de 2r pesos.
a) Calcule el premio esperado del juego.
b) Si se plantea el problema de decidir si compra el boleto (d1 ) o no lo compra
(d2 ) para participar en este juego, y la utilidad se mide exclusivamente en
terminos monetarios, diga cu
al sera su decisi
on en funci
on del precio del
boleto.
Estadstica Bayesiana
ITAM
AM
c) C
omo explica que pr
acticamente ninguna persona est
a dispuesto a pagar
m
as all
a de una peque
na suma de dinero por el boleto?
Ejercicio 4.5. Luis Enrique contempla la posibilidad de viajar a Belo Horizonte, Brasil, donde espera entrevistarse con la Dra. Rosangela Loschi, una exitosa
mujer de negocios radicada en esta ciudad, para proponerle la compra de una
plataforma para el desarrollo de aplicaciones de an
alisis estadstico Bayesiano.
Si consigue su objetivo, ganar
a una comisi
on de 60, 000 pesos.
Ahora bien, la Dra. Loschi viaja mucho y Luis Enrique considera que con una
probabilidad de 0,4 puede ocurrir que, si viaja a ese pas, la Dra. Loschi tenga
que salir de Brasil y, por tal causa, no sea posible celebrar la entrevista ni realizar
la venta. Por otra parte, a
un en el caso en que se produzca la entrevista, Luis
Enrique considera que la probabilidad de realizar la venta es de 0,7. El viaje a
Belo Horizonte cuesta 8, 000 pesos y sale del bolsillo de Luis Enrique.
a) Tomando en cuenta que su interes en estrictamente econ
omico y, por facilidad, suponiendo que en el intervalo de montos considerado, la funci
on de
utilidad del dinero se puede considerar lineal Le conviene a Luis Enrique
viajar a Belo Horizonte?
IT
d) Cu
al es el precio m
aximo que Luis Enrique debera estar dispuesto a
pagar a la agencia de Eduardo por la informaci
on que le ofrece?
Estadstica Bayesiana
ITAM
por facilidad, tres escenarios alternativos: una demanda baja (B), una demanda
moderada (M) y una demanda alta (A). Adem
as con base en su experiencia
asigna las probabilidades P (B) = 0,3, P (M ) = 0,5 y P (A) = 0,2. Finalmente,
considera un horizonte de un a
no en el que las ganancias del proyecto en pesos
seran:
Ganancia
7, 500, 000
1, 500, 000
9, 000, 000
AM
Demanda
Baja
Moderada
Alta
c) Encuentre la soluci
on de Bayes y el valor de Bayes.
d) Represente gr
aficamente el conjunto de todas las distribuciones de probabilidad para las cuales coinciden las soluciones minimax y de Bayes.
IT
e) Incorporando la informaci
on de la encuesta adicional, Usted tambien lanzara la revista?
48
AM
Captulo 5
La inferencia como
problema de decisi
on
Los problemas cl
asicos de la inferencia parametrica que aparecen en los textos
m
as comunes son: estimaci
on puntual, estimacion por regiones y contraste de
hip
otesis. Tradicionalmente, ademas, se presentan en ese orden atendiendo una
l
ogica de simplicidad en las tecnicas y conceptos necesarios para su solucion.
Como se ver
a en lo que resta de este captulo, desde una perspectiva Bayesiana,
el problema que tiene una estructura mas sencilla es el de contraste de hipotesis;
los problemas de estimaci
on puntual y por intervalos tienen una estructura un
poco m
as compleja, pero con el antecedente de contraste de hipotesis pueden
ser abordados sin dificultad.
IT
5.1.
Contraste de hip
otesis
Estadstica Bayesiana
ITAM
AM
E0
d0
d1
E1
c01
E0
c10
E1
c11
Ahora, observe que a pesar de ser un valor fijo, es desconocido y por tanto,
como se discuti
o en el captulo anterior, es posible asignarle una medida subjetiva de probabilidad P () que describa la incertidumbre que se tiene sobre el
par
ametro . De esta manera, se denota P0 = P (E0 ) = P (H0 ) = P ( = 0 ) y
an
alogamente P1 = 1 P0 = P (E1 ) = P (H1 ) = P ( = 1 ).
Adicionalmente, sea l = L(c) la funci
on de perdida, y lij = L(cij ). Y
puesto que acertar debe ser preferido a cometer cualquier tipo de error,
necesariamente se deber
a cumplir que
c10 c00 , c01 c00 y tambien que
c10 c11 , c01 c11 .
Naturaleza
H0
H1
Acierto
d0
c00
ET2
c01
IT
Decisin
ET1
d1
c10
Acierto
c11
d1 es la soluci
on de Bayes E{L(d1 |E)} > E{L(d0 |E)}
P0 l10 + P1 l11 > P0 l00 + P1 l01
(l01 l11 )P1 > (l10 l00 )P0
(l01 l11 )
P0
k =
>
(l10 l00 )
1 P0
k
> P0
1+k
50
Estadstica Bayesiana
ITAM
AM
se rechaza H0
P (x(n) |0 )P (0 )
P (x(n) )
P (1 |x(n) ) =
P (x(n) |1 )P (1 )
,
P (x(n) )
se rechaza H0
0
P (0 |x(n) )
l01
.
>
0
l10
P (1 |x(n) )
As,
P (x(n) |0 )P (0 )
P (0 |x(n) )
P (x(n) )
P (x(n) |0 ) P0
=
=
P (x(n) |1 )P (1 )
P (1 |x(n) )
P (x(n) |1 ) P1
P (x(n) )
se rechaza H0 C
0
P (x(n) |0 )
P1 l01
>
0
P0 l10
P (x(n) |1 )
El hecho m
as destacado de este resultado, que como puede observarse, es totalmente general (no depende de las particulares hipotesis simples ni del modelo de
los datos), es el que establece que la muestra x(n) interviene en la decision sobre
las hip
otesis u
nica y exclusivamente a traves de cociente de verosimilitudes
P (x(n) |0 )
,
P (x(n) |1 )
IT
=
d si C > P (x(n) |0 )
1
P (x(n) |1 )
(x(n) ) =
d0 e.o.c
Estadstica Bayesiana
ITAM
En otras palabras, se obtiene una region de rechazo que tiene la misma forma
que la que se sigue del conocido lema de Neyman-Pearson. Es importante insistir en que s
olo se recupera la forma porque la constante C se determina por
procedimientos conceptual y tecnicamente muy distintos.
AM
n
Y
(2)1/2 e(xi )
/2
= (2)n/2 e1/2
(xi )2
i=1
P
P
L(0 | x(n) )
(2)n/2 e1/2 (xi )
1/2[ (xi 1)2 (xi )2 ]
P
=
=
e
2
L(1 | x(n) )
(2)n/2 e1/2 (xi 1)
P 2
P
(x 2xi +1) x2i ]
i
=e [
n(1/2
x)
=e
.
1/2
=en/2
xi
= P
K0
p
p
N ormal
1/n
1/n
IT
K0
= p
= Z1
1/n
!)
x
p
=1
0, 1
1/n
1
K0 = p
Z1 .
1/n
Estadstica Bayesiana
5.2.
ITAM
Estimaci
on puntual
AM
Uno de losEstadistica
problemas
m
as conocidos y estudiados de la inferencia
parametrica
Bayesiana
ITAM
Estadistica
Bayesiana
ITAM pudiera cones el de estimaci
on puntual.
Como se comento en el captulo 1, este
siderarse el problema
original
de inferencia
parametrica. Identificar el valor de
= P x
> K | N (
x | 0, 1/n) =
=funci
P x
o>nKde
| Nde
(
x |distribuci
0,
1/n) =
permite determinar la
on de la variable aleatoria bajo
= P x
K | N (
x|0, 1/n) = 1
x
utilizar
K | N (
x|0, la
1/n)informaci
=1
estudio. Por tanto, se =
trata
on disponible para producir
P de
K
x
= P a.
| N
|0,
=1
un valor que aproxime
x
K
x
1
= P1/n
| N 1/n
|0, 1
=1
1/n
1/n
1/n
1/n
=valor
= Z
= aproximaci
K =
Z1on de el valor desconocido
1/n de
1/n
La idea es proponer un
como
1/n
1/n
0 sin embargo ET 1 =
Notar que este
bajo este
enfoque ET 2como
n define
n
. As, para expresar
problema
uno
de
decisi
0 sin embargo ETo
Notar que bajo este enfoque ET 2 n
1n= se n
Desde el enfoque bayesiano:
D = {d | Desde
}el enfoquebayesiano:
P (x(n) |0 )
P1 l
x(n) X(n) |
P (x(n) <
|0 ) 01
P1 l01
P
(x
|
)
P
l
C
=
x
X
|
<
1
0
(n)
10
Observe
(n)
(n)
X
|
e
<
C
(n)
(n)
ln C
1
= x(n)
X(n) | x
de
> decisi
+o
ln
Cn estar
1
gr
afica del problema, mediante
el
a
rbol
a
afectada
por este con2+
= x(n) X(n) | x
>n
n gen
2 erica de este tal como se
junto. Sin embargo,
es
posible
mostrar
una
rama
0
Notar que bajo este enfoque tanto ET1 como ET 2 n
0
Notar que bajo este enfoque tanto ET1 como ET 2 n
hace en la figura 5.2.
C =
5.2.
d
Estimaci
on Puntual
5.2. Estimaci
on Puntual
d
P ( )C( , ) L(C( , ))
P( )
En este caso
E{L(d, )} =
IT
Estadstica Bayesiana
ITAM
AM
ber
a cumplir que B = E {( | x)} y el valor de Bayes (a posteriori) resulta
V ar( | x(n) ).
2
Definici
on 5.2.1. Sea W una v.a. con varianza W
, el parametro W
conoce como la precisi
on de W.
1
2
W
se
f (x(n) | )f ()
,
f (x(n) )
i.e.
= (2 2 )n/2 e
i=1
P
(xi )2 /2 2
/2c2
IT
Denotando mx =
si
on:
(xi )2 /2 2
n
2
x
+
+
n
2
1
c2
1
c2
e(m)
/2c2
= e(
1 X
1
(xi )2 + 2 ( m)2
2
c
i
1 hX 2
1
= 2
(xi 2xi + 2 ) + 2 2 2m + m2
c
2
2m m2
1 X 2 2n
x n2
= 2
xi
+
+
+ 2
2
2
c2
c2
c
exp
54
Estadstica Bayesiana
=
=
n
+
2
n
+
=
2
n
=
+
2
AM
P 2
n
xi
m2
x m
2 2
+
+
+
2
c2
2
c2
"
#
P 2
n
x
m
1
m2
xi
2
2 + c2
2
+
+
1
n
c2
2
c2
2 + c2
P 2
1 2
m2
xi
2m
+
+
x
c2
2
c2
P 2
1 2
n
1
xi
m2
2
2
2m
+
m
+
m
+
+
x
x
x
c2
2
c2
2
c2
P 2
1
n
1
m2
xi
2
( mx )
+ 2 m2x +
+ 2 ,
2
2
2
c
1
n
+ 2
2
c
n
+
2
ITAM
por lo que
f ( | x(n) ) e 2 ( 2 + c2 )(mx ) e 2 K(
1
,c2 ,x(n) )
n
2
1 1
c2
=
n
,
1
n +
2 + c2
1
2 ,
1
c2
y x =
1
c2x ,
mx =
x + (1 )m
x = n +
(5.1)
(5.2)
IT
Este ejemplo es particularmente ilustrativo al observar que, el estimador puntual resulta ser una combinaci
on lineal de la media inicial y la media muestral (ecuaci
on 5.1), y semejantemente, la precisi
on a posteriori se determina
mediante una combinaci
on lineal de la precisi
on inicial y la precisi
on muestral (ecuaci
on 5.2). Este hecho, se ilustra en la figura 5.3 donde se presenta
una gr
afica conocida como triplot, que incluye simultaneamente la densidad a
priori, la funci
on de verosimilitud, y la densidad a posteriori para el par
ametro de interes. En este caso, para fines ilustrativos, se han utilizado los valores
= 2 y 2 = 3.
m = 0, c2 = 1, n = 6, x
El aspecto m
as relevante de esta gr
afica es que si bien la inicial (en verde y
rayada) y la verosimilitud (en azul y punteada) no son incompatibles, s poseen
informaci
on distinta sobre y en esas condiciones la final (en rojo y s
olida)
resulta en un compromiso entre ambas y que, en particular, para este ejemplo la posterior siempre es m
as precisa que cualquiera de las dos componentes
originales.
55
ITAM
0.7
Estadstica Bayesiana
0.0
0.1
0.2
AM
0.3
0.4
0.5
0.6
Inicial
Verosimilitud
Final
(
2
n
Ke 22 (x) I[a,b] ()
f ( | x(n) ) =
0
Observe que
si [a, b]
e.o.c.
e 22 (x) d = K 1 determina u
nicamente la distribuci
on.
As,
Ke 22 (x) d
IT
B = E | x(n) =
5.3.
Estimaci
on por regiones
Estadistica Bayesiana
Estadstica Bayesiana
ITAM
ITAM
| N (
x | 0, 1/n) =
=on Pde
x
espacio
K | N (
x|0,parametral
1/n) = 1
conocer una regi
donde, con alg
un grado de
Estadstica
Bayesiana
se encuentra el=
valor
desconocido
del
par
x
K
x
ametro. Adicionalmente, este
P
|N
|0, 1
=1
1/n
inferencia no s
olo ofrece1/ninformaci
on 1/n
sobre la localizacion de , sino
P x
>K
Estadstica=Bayesiana
ITAM
prefiere
certeza,
tipo de
1
tambien sobre la incertidumbre
de
esa localizaci
on.
5.3.K acerca
Estimaci
Regiones
por
=
=
Z
= K o
=n
Z
ITAM
1/n
AM
que
estef.d.p.g.
enfoque ET
= n estima
n
Seabajo
xcon
una
v.a.regi
cono2(x
| ),sesea
lo
, se
estima
regiones. La idea es encontrar
una
nf.d.p.g.
A P(xque
madesea
s peque
na por regiones. La
idea esDesde
encontrar
una
regi
o
n
A
que
sea
lo
m
a
s
peque
n
a
posible
que y que
el
enfoque
bayesiano:
idea
esposibilidades
encontrar una de
regi
on A a . que sea lo mas peque
na yposible
posible y que tenga buenas
incluir
L(C(
)) restringe a un tipo
ln Co
1A, se
D = {dA | A }, donde com
u
nmente
la
regi
n
L(C(
= x(n) X(n)
|x
P
>,( )))
+
Figura
5.3:deRama
tpica del
n Una
2
P (en
) la pr
que permita una interpretacion u
til
actica.
rama
erica
este del
Figura
5.3:agen
Rama
tpica
rbol
de
decisi
o
n
para
el proble
bajo este5.4.
enfoque tanto ET1 como ET 2 n
problema se exhibe Notar
en laquefigura
arbol0 de decisi
onestimac
para elonproblema de
puntual.
ma de estimacon puntual.
5.2. Estimaci
on Puntual
dA L(A, )
d
dA
P( )
L(A, )
IT
Encontrar la soluci
on de Bayes para este problema, en general, no es simple.
No solo por la forma analtica que pueda tener F y el hecho de que a < b,
sino porque la especificaci
on de debe expresar las preferencias del tomador
de decisiones, y al mismo tiempo juega un papel para homogeneizar las escalas
de la longitud (b a) y la probabilidad (F (b) F (a)). Una simplificacion a la
que se recurre con frecuencia consiste en fijar F (b) F (a) = , con lo que el
problema se reduce a uno sin incertidumbre. As, fijando P ( A), el problema
consiste en minimizar la longitud del intervalo.
Ahora, es f
acil concluir que para obtener la menor longitud de los intervalos
es conveniente iniciar su construccion a partir de la imagen inversa de la(s)
moda(s). De hecho, se puede probar que si se define una region I tal que
P ( I) = 1 y de manera que P () > P (0 ) I y 0
/ I. Entonces, si
A es cualquier otra regi
on de tal que P ( A) = 1 el area de A sera al
menos el de I.
57
Estadstica Bayesiana
ITAM
AM
Una regi
on con estas caractersticas, se conoce como region de maxima probabilidad o m
axima densidad, y si bien en muchos casos se puede calcular analticamente, en general se determina numericamente con metodos como la biseccion.
En la figura 5.5 se muestran (en rojo) dos posibles formas que puede tomar un
intervalo de m
axima densidad.
(a)
(b)
Figura 5.5:
(a) Regi
on de m
axima densidad para una distrubucion unimodal
(b) Regi
on de m
axima densidad para una distrubucion multimodal
Finalmente, es relevante mencionar que para el caso multiparametrico el procedimiento se puede desarrollar en dos diferentes formas. Si es de interes producir
intervalos para cada una de las componentes del vector de parametros, basta
con obtener las marginales correspondientes
Z
Z
P ( | x(n) ) =
P (, | x(n) )d =
P ( | , x(n) )P ( | x(n) )d
IT
y proceder como en el caso uniparametrico. Si por el contrario, interesa determinar una region para un parametro multidimensional, la idea sigue siendo la
misma (fijar el nivel de probabilidad y buscar la region de mnimo volumen
con dicho nivel). Sin embargo, el calculo del volumen puede ser mas complicado
dependiendo de la geometra de la region.
5.4.
Predicci
on
Es interesante comprobar que el problema de prediccion practicamente no aparece en los textos introductorios a la estadstica mas comunes (Frecuentistas).
Lo habitual, es que este sea un tema que se explora y discute en textos mas
avanzados (de an
alisis de regresion y series de tiempo, por ejemplo). Este hecho
es, en cierta medida, parad
ojico si se piensa que el objetivo de la estadstica es
describir el fen
omeno de interes, en este caso describir el comportamiento de la
58
Estadstica Bayesiana
ITAM
AM
Minimalism
Minimalism
Minimalism
Partl H. Partl
H.H.Partl
5.4.1.
Minimalism
Pron
ostico puntual
noviembre
1414dedenoviembre
dede 2011
14 de noviembre
de 2011
H. Partl
Indice
Indice
Indice
As, se trata
de
elegir una x
? como anticipacion del valor x? que efectivamente
producir
a el fen
omeno cuando sea observado. Por tanto, en este problema es
1. D
Some
1 1 de un pronostico
Indice
1. Some
Interesting
posible definir
=Interesting
{dx | Words
xWords
X
}. Ahora, las consecuencias
1.
Some
Interesting
Words
1
particular x
dependen
de
lo
bien
que
este
reproduzca
al
valor
futuro
x
.
As
,
?
?
1. 2. Some
Interesting Words
Bye
World
11
World
las funciones
deGood
peBye
rdida
apropiadas, como en el caso de estimaci
on puntual, 1en
2.2. Good
Good
Bye
World
2. Good
Byeforma
World
general dependen
de alguna
de la distancia entre x
? y x? , y son tales que
entre mayor sea la distancia, asignen mayor perdida.
SomeInteresting
Interesting
Words Words
1. 1.Some
Words
1.
Some
Interesting
1.
Some
Interesting
Words
Si es conocido.
Well,
andherehere
beginshere
lovely
article. my lovely article.
Well,
and
begins
Well,
andand
begins
mymylovely
article.
here
my
lovely
En este Well,
escenario,
unabegins
reprsentaci
on article.
grafica del problema de resulta en la
figura 5.6, donde puede observarse que este problema tiene exactamente
2.2. estructura
Good
Bye
World
Good
ByeWorld
World
la misma
que
el problema
de estimacion puntual.
2. Good
Bye
IT
2. .Good
Bye World
. . and here it ends.
? , theta)
x
? ? x?
dx? x? P(x? |) C(x?,x?)
dx?dx? (xx??,) P(x
P (x
|
)
C(
x
,
x
)
?
?
?
,theta)
C(
x
,x
)
a
rbol
de
decisi
o
n
para
el
proble?
dx? (x?,) P(x?,theta)
C(x??,x??)
dx?
(x? , )
P (x? , theta)
C(
xpronostico
ma de
puntual con
? , x? )
u
E (c2)
2)) (c E
EEuu(c(cE
2
)
u x , x2))) =ua((c
Y en particular, si se utiliza L (C(
x k
x ) donde a es una
conocido.
EEuu(c(ckkE)) u(c )
k
?
1
1
Estadstica Bayesiana
Minimalism
Minimalism
H. Partl
Minimalism
Minimalism
ITAM
14 de noviembre de 2011
14 de noviembre
de 2011
14 de noviembre
de 2011
= argmin E
x
Indice
x? , x? )}.
?
P (x | ) {L(
x
Indice
1. Some Interesting Words
Indice
Si
es
desconocido
Indice
1. Some Interesting Words
?
AM
Good
Bye World
En este2.caso,
a diferencia
del caso en el que es conocido, la utilidad espe-1
1.laSome
Interesting
WordsWords
1
Interesting
1
rada 1.
de Some
opci
on dx no puede
calcularse con respecto a P (x | ) puesto que
2. Good Bye World
1
es desconocido. De hecho, ocurre que siendo desconocido introduce otro
2. Good
Bye
1
Some
Interesting
factor
de
incertidumbre,
y entoncesWords
si tanto x? como son desconocidos
2. 1.
Good
ByeWorld
World
1
la 1.
distribuci
o
n
de
probabilidad
que
debe
asignar
el
tomador
de
decisiones
SomeWell,
Interesting
Words
and
here
mydelovely
es necesariamente
de labegins
forma
unaarticle.
conjunta P (x? , ) y ya no la de
1.
Some
Interesting
Words
1.
Some
una condicional
P Interesting
(x? | ). De estaWords
manera, el problema tiene asociado un
Well, and here begins my lovely article.
arbol con Well,
unaandestructura
como
el de la figura 5.7. En esta figura, se hace
here begins my lovely
article.
2.Well,
evidente
queGood
existen
en
el World
problema
fuentes de incertidumbre x? y .
and
hereBye
begins
my lovely dos
article.
Sin
embargo,
es
interesante
observar
que
la funcion de perdida involucra
2. Good Bye World
a x? pero
no
a
.
.
.
.
and
here
it
ends.
2. Good Bye World
2. Good
x?ByePWorld
(x? | )
C(x? , x? )
x? it ends.
. . . and dhere
...
and
here
it
ends.
d
(x
,
)
P
(x
,
)
C(x? , x? )
?
? P(x? | )
dx? . . .x?xand
C(x?, x?) ?
ends.
dx? x?hereP(xit? |)
C(x?,x?) Figura 5.7: Rama tpica del
dx? (x?, ) P(x?, ) C(x?, x?)
dx?dx? (xx??,) P(x
P (x
, x? ) de decision para el proble? | ) C(xC(
a) ?rbol
? ,theta)
? ,x?x
dx?
(x? , )
P (x? , theta)ma de
C(xpronostico
puntual con
? , x? )
Eu(c2)
EuE(cu2(c)2)
EuE(cu2(c) k )
EuE(cu(ck)k)
Eu(ck )
desconocido.
As, la soluci
on de Bayes estara dada por x
?B = argmin EP (x? ,) {L(
x? , x? )}.
x
IT
En esta expresi
on, vale la pena recordar que la conjunta P (x? , ) puede expresarse en forma alternativa a traves de las dos descomposiciones
P (x? | )P (), y P ( | x? )P (x? ).
Volviendo al problema de optimizacion, observe que
Z Z
EP (x? ,) {L(
x? , x? )} =
L(
x? , x? )P (x? , )ddx?
X
Z
Z
=
L(
x? , x? )
P (x? , )d dx?
Z
ZX
=
L(
x? , x? )
P (x? | )P ()d dx?
ZX
=
L(
x? , x? )P (x? )dx?
X
= EP (x? ) {L(
x? , x? )}
= g(
x? )
1 1
60
Estadstica Bayesiana
ITAM
AM
P (x? ) =
P (x? | )P ()d.
IT
x
?B es el valor que minimiza EN (x | ,2 ) {L(x? , x? )} , en particular si se
utiliza perdida cuadr
atica x
?B = .
Si es conocido y N ormal( | m, c2 )
A priori: x
?B es el valor que minimiza EP (x? )) {L(
x? , x? )} y tomando
L(
x? , x? ) = (
x? x? )2
Z
x
?B =EP (x? ) (x? ) =
x? P (x? )dx?
X
Z
Z
=
x?
P (x? | )P ()d dx?
ZX Z
=
x? P (x? | )P ()dx? d
X
Z
Z
=
P ()
x? P (x? | )dx? d
61
Estadstica Bayesiana
Ahora,
ITAM
P ()E(x? | )d = EP () EP (x? | ) (x? ) EP () () = m.
P (x? ) =
(2 2 )1/2 e
(x)2
2 2
(2c2 )1/2 e
(m)2
2c2
AM
(x)2
Z
(x)2
(m)2
1
=
e 22 2c2 d.
2c
=
(m)2
2c2
( x2 + cm2 )
1 1
1
2
, analizando el exponente
y
=
2 + c2
1
1
0
( 2 + c2 )
1 (x )2
( m)2
exp
+
2
2
c2
2
1 x
2x 2
2
2m m2
=
2 + 2+ 2 2 + 2
2 2
c
c
c
2
1
1
x
m
m2
1
x
2
+ 2 2 2 + 2 +
+ 2
=
2
2
c
c
2
c
#
(
"
)
m
x
1
x2
1
1
m2
2
2 + c2
=
+
+ 2
+ 2
2 1
1
2
2
c
2
c
2 + c2
2
x
m2
1 1 2
20 +
+ 2
=
2
2
2 0
c
2
2
x
m
1 2
1 1
2
(
)
+
+
=
0
2 02
2
c2
02 0
2
1
m2
1
x
1 2
2
+
= 2 ( 0 )
20
2
2
c2
02 0
1
2
m2
2 c2 x 2
20 2 c2
2
= 2 ( 0 ) 20 2
+
.
20
2 c
02
2
c2
04
|
{z
}
IT
Y sean 0 =
c
x
1
1
m 2 2 2
2 2
2 2
c
=
+
c
x
+
+
2
c2
2
c2
2
c2 x 2
2 m2
x
xm
m2
= 2 + x2 + m2 +
+
+
2 c2
c2
4
2 c2
c4
62
Estadstica Bayesiana
ITAM
x2 c2
m2 2
c2 x 2
2 m2
+ x2 + m2 +
2 2xm
2
2
c2
2
2
2
=x 2xm + m = (x m) ,
=
se obtiene que
AM
1
2
2
2
( 0 ) 20 2 (x m)
2
20
2 c
1
1
2
2
= 2 ( 0 ) 2 c2 (x m) .
20
2 2
exp =
As,
1
P (x? ) =
2c
1
2
20
(0 )2
1
2 c2
2 2
0
(xm)2
1/2 Z
12 c2 (xm)2
2
202
12 (0 )2
1
2
20
0
e
=
e
d
2c (2 2 )1/2
0
1/2 12 c2 (xm)2 Z
1/2 212 (0 )2
2
2 c2
2
0
e
d
202
e 0
= 2 2
0
|
{z
}
=1 (N ormal( | 0 ,02 ))
1/2 12 c2 (xm)2
2
2 c2
2
0
e
= 2 2
0
1/2 21 2 (xm)2
= 2 2 + c2
e 2( +c )
.
IT
= N ormal(x? | mx , 2 + c2x ).
y recordando que mx =
x + (1 )m se puede observar que, en general,
este pron
ostico no coincide con el estimador frecuentista habitual x
.
63
E (L ([a, b] , =
))(b= a)(b+ (1 a) +
) (F(1(b)
= (b
a) + (1
(1 P ( A))
F) (a))
)
(1
EP(x ){L(x,x)}
)P ( =A)
(b baa)
+ (1 a minimizar
) (F (b)la longitud
F (a)) = g(x )
Fijando P( A) el problema se= reduce
sicamente
Estadstica Bayesiana
del intervalo.
i.e. EP(x | a){L(
x,x)} no depende
de
Fijando P ( A) el problema se reduce basicamente
minimizar
la longitud
Para
el
caso
multiparam
e
trico
del intervalo.
Para el caso multiparametrico
Resulta entonces que el problema de prediccion es formalmente el mis5.3. Estimaci
on por
Regiones
P(, | x(n) ) P( | x(n) ) = P(, | x(n) )d = P( mo
| , problema
x(n) )P(que
| x(n)estimaci
)d on puntual utilizando la distribucion predictiva
Estad
P (, | x(n) ) P (
| x(n)stica
) = Bayesiana
P (, | x(n)
=
)P )d
)d
a prioriP(x
= | ,P(xxP(n)
| (x
)P(
)(
Sea x una
v.a.
con Pf.d.p.g.
| (
),| x(n)
)d, se desea estima
5.4. Predicci
Predicci
onon
5.4.
5.4.2.
ITAM
ITAM
por regiones. La
idea es encontrar una region A
que sea lo mas peque
na posible y que
Analogamente
si x(n) es una m.a. de
de xincluir
y x es condicionalmente
indetenga las mejores
probabilidades
a .
Pron
osticopendiente
por deregiones
x1,x2,...,xn dado , a posteriori:
5.4.1.
Puntual
5.4.1. Pronostico
Pronostico Puntual
P(x, P
) (xP(x| ),
, |x(n)
,x
)P( |x(n)pronosticar
) = P(x | )P( |x(n)por
) regiones
))(n)desea
Sea X una v.a. con f.d.p.g.
)L(C(
= P(x
,,| se
P( )
P (x | )
(x , )
P (x , )
C(
x , x )
ma de estimacon puntual.
AM
Si es conocido dx
Si es conocido dx
dA
L(A, )
Figura 5.8:
Rama
tpica
del
5.5.
Ejercicios
Ejercicio 5.1. Sea X una variable aleatoria Normal con media y varianza
2 = 1. Si se cuenta con una muestra aleatoria de tama
no 10 de X, tal que su
media muestral es 0,35 y resulta que es de interes contrastar las hip
otesis
H0 : = 0
vs.
H1 : = 1,
compare las decisiones a las que se llega se se utiliza por una parte, el procedimiento frecuentista usual con = 0,05 y, por otra parte, el procedimiento
Bayesiano cuando no se tiene informaci
on sobre la validez de las hip
otesis y el
error de tipo I se considera 5 veces m
as grave que el error de tipo II.
IT
vs.
H1 : > 15,
Estadstica Bayesiana
ITAM
AM
V ()
x
[E ()] [E ()
1]1x
Ejercicio 5.4. Sea X una variable aleatoria con f.d.p.g. f (x | ) con <
y suponga que inicialmente el conocimiento sobre se describe con la distribuci
on p(). Sea L(d, ) = |d | la funci
on de perdida asociada a la decisi
on de
estimar con el valor estimado d. Demuestre que la soluci
on de Bayes es una
mediana de la distribuci
on p().
Ejercicio 5.5. En el mismo contexto del ejercicio 5.4, considere ahora la funci
on de perdida
(
a( d) si d 0
L(d, ) =
b(d ) e.o.c
IT
Encuentre la soluci
on de Bayes para este problema e identifique todos los supuestos que sean necesarios para garantizar que exista soluci
on.
Ejercicio 5.7. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable X con
distribuci
on Uniforme en el intervalo (0, ) donde > 0. Si a priori se considera
que el conocimiento sobre el par
ametro est
a adecuadamente descrito con una
distribuci
on Uniforme en el intervalo (0, c) con c > 0 una constante conocida,
a) Plantee el problema de estimar como uno de decisi
on.
65
Estadstica Bayesiana
ITAM
b) Cu
al es la soluci
on al problema planteado en a) sin incorporar la muestra
y utilizando la funci
on de perdida cuadr
atica?
c) De la misma forma que en el inciso b), es decir, sin datos, Cu
al es la
soluci
on a este problema si se utiliza L(d, ) = |d |?
AM
d) Si se incorpora la muestra, Cu
al es la distribuci
on final de ?
f ) Cu
al es la soluci
on, con datos, utilizando la funci
on de perdida absoluta?
Ejercicio 5.8. Sea X una variable aleatoria con f.d.p.g. f (x | ) con <.
Si cuenta con una muestra aleatoria de tama
no n de X y una distribuci
on inicial
P () para el valor desconocido del par
ametro, Cu
al es la soluci
on de Bayes al
problema de estimar puntualmente si, para un valor cercano de cero, la
funci
on de perdida est
a definida por:
(
1 si |d | >
L(d, ) =
0 e.o.c
IT
donde es un par
ametro que, en cada individuo, determina el tipo de sangre;
de hecho, si 0 < 1, la sangre es de tipo AB; si 1 < 2, la sangre es de
66
Estadstica Bayesiana
ITAM
AM
Clasificacion
AB A B O
0
1 1 2
1
0 2 2
1
2 0 2
3
3 3 0
Ejercicio 5.12. El n
umero de incendios que se producen semanalmente en
una ciudad X, sigue una distribuci
on Poisson con media . Se desea construir
el intervalo de m
axima densidad de probabilidad a posteriori para . Puesto
que inicialmente no se conoce nada sobre , parece adecuado utilizar la funci
on
() = 1 1(0,) () para describir esta falta de informaci
on. Observe que ()
no es propiamente una funci
on de distribuci
on (pues no integra a uno), estas
funciones se conocen con el nombre de distribuci
ones impropias y se discutir
an
en el siguiente captulo. Por lo pronto, si durante cinco semanas se observaron:
x1 = 0, x2 = 1, x3 = 0, x4 = 0 y x5 = 0 fuegos respectivamente, Cu
al es el
intervalo de m
axima densidad a posteriori para con probabilidad 0,9?
IT
Ejercicio 5.13. Suponga que X una variable aleatoria Bernoulli con par
ametro
en el intervalo (0, 1) y el conocimiento sobre se describe con la distribuci
on
(inicial o final) P (). Cu
al es la distribuci
on predictiva para una observaci
on
futura de X?
Ejercicio 5.14. Suponga que X una variable aleatoria Normal con media y
precisi
on conocida. Si el conocimiento sobre se describe con una Normal de
media m y precisi
on Cu
al es la distribuci
on predictiva para una observaci
on
futura de X?
Ejercicio 5.15. Suponga que X una variable aleatoria Normal con media conocida y precisi
on . Si el conocimiento sobre se describe con una Gamma(, )
Cu
al es la distribuci
on predictiva para una observaci
on futura de X?
67
AM
IT
AM
Captulo 6
Inferencia Param
etrica
Bayesiana
Una vez que han sido establecidos los elementos generales de la Teora de Decisi
on, y que los problemas tpicos de la Inferencia Parametrica, al menos en
sus versiones m
as simples, han sido identificados como casos particulares de
problemas de decisi
on en ambiente de incertidumbre, es conveniente volver al
tema de Inferencia Parametrica en general para establecer sus caractersticas,
especialmente, cuando se aborda desde la perspectiva Bayesiana.
6.1.
Principio de verosimilitud
IT
Por supuesto, si el valor del parametro fuese conocido, el modelo de probabilidad f (x | ) sera, a su vez, totalmente conocido y la descripcion de X sera
completa. M
as a
un, los problemas especficos de produccion de pronosticos, al
plantearse como problemas de decision, u
nica posibilidad bajo el enfoque Bayesiano, se habran de resolver utilizando f (x | ) como modelo predictivo para
X.
En el caso m
as com
un, en que es desconocido, y sea cual sea la manera en la
que se pretende describir a X, este desconocimiento representa una fuente de
incertidumbre que debe considerarse al producir la inferencia de interes. En el
lenguaje Bayesiano, es una fuente de incertidumbre cuyo efecto en el proceso de
68
Estadstica Bayesiana
ITAM
AM
Cundo la descripci
on de X se refiere al analisis de alguno de sus atributos
(momentos, cuantiles, moda, probabilidades especficas, etc.), solo puede ocurrir
que el atributo de interes sea independiente del valor de , en cuyo caso el
problema es an
alogo al que se enfrenta cuando el parametro es conocido, o
bien que el atributo, por ejemplo , sea funcion de , en cuyo caso el valor
de = () es desconocido y constituye la fuente de incertidumbre relevante.
El punto aqu es que es incierto porque es incierto, y que la distribucion
P () que describe el estado de conocimiento del investigador sobre el atributo
puede, en general, derivarse de la distribucion P (). Y entonces, de nuevo, si
la asignaci
on de este modelo se produce antes de contar con la muestra x(n) , se
cuenta con la a priori P () (y la correspondiente a priori P ()), mientras que
si ya se observ
o x(n) se utiliza la posteriori P ( | x(n) ) (y su respectiva posterior
P ( | x(n) )).
IT
69
Estadstica Bayesiana
ITAM
AM
P ( | x = 4) P ( | y = 10)
o bien, que
P ( | x = 4) = KP ( | y = 10)
K <.
P ( | y = 10)d = 1,
IT
por lo tanto
K = 1 = P ( | x = 4) = P ( | y = 10).
Estadstica Bayesiana
ITAM
i=1
s
Y
xi !
xi r
e
xi !
= L( | x(r) )
AM
P (x(r) | ) =
r xi
Y
e
P (y(s) | ) =
i=1
P
y
e
= s e yi = L( | y(s) ).
r
X
xi = s y
i=1
s
X
i=1
De manera que, de nuevo, si se parte de la misma inicial P (), entonces necesariamente se tiene que P ( | x(r) ) = P ( | y(s) ).
6.2.
Suficiencia
IT
Definici
on 6.2.1. Se dice que Tn : X(n) <(n) es una estadstica si es
una v.a. que es funci
on de la muestra y no involucra en su expresi
on ning
un
on fija si
par
ametro desconocido. Se dice adem
as que Tn x(n) es de dimensi
(n) = k n.
Ahora s, una clase de estadsticas especialmente importantes son las que, en un
sentido Bayesiano, resultan suficientes para un parametro .
Definici
on 6.2.2.
Sea x(n) una m.a. de una v.a. X con f.d.p.g. P (x | ),
y sea Tn x(n) una estadstica de los datos, se dice que Tn x(n) es suficiente
(desde el punto de vista Bayesiano) para P ( | x(n) ) depende de x(n) s
olo a
traves de Tn x(n) n y P ().
Ejemplo 6.2.1. Sean X una variable aleatoria con distribuci
on Bernoulli(x | )
y x(n) una m.a. de X. Esto es
P (xi | ) = xi (1 )1xi i {1, 2, . . . , n}.
71
Estadstica Bayesiana
ITAM
AM
h P
P i
= xi (1 )n xi P (),
n
X
i=1
Recuerde que, de acuerdo con la definicion tradicional, Tn x(n) es una estadstica suficiente
(desde el punto de vista frecuentista) para si y solo si
P x(n) | Tn x(n) no depende de . Adicionalmente, que una estadstica suficiente (desde el punto de vista frecuentista) puede ser caracterizada de acuerdo
con el criterio de factorizaci
on de Fisher-Neyman.
Teorema 6.2.1. (Factorizaci
on de Fisher-Neyman).
Sea x(n) una m.a. de una v.a. X con f.d.p.g. P (x | ), y Tn (x(n) ) una estadstica,
entonces Tn es suficiente (desde el punto de vista frecuentista) si y s
olo si existen
funciones h(x(n) ) y g(, Tn (x(n) )), donde h no depende de y g depende de la
muestra s
olo a traves de Tn , tales que P (x(n) | ) = h(x(n) ) g(, Tn (x(n) )).
IT
Como se coment
o previamente, el concepto de suficiencia es quiza el u
nico que
transita libremente entre los dos enfoques, Bayesiano y frecuentista. Y la equivalencia queda establecida a traves del siguiente teorema.
Teorema 6.2.2. Sea x(n) una m.a. de una v.a. X, discreta o continua, con
f.d.p.g. P
(x | ), , entonces:
Tn x(n) es suficiente Bayesiana Tn x(n) es suficiente frecuentista.
72
Estadstica Bayesiana
ITAM
Demostraci
on.
Sea Tn (x(n) ) una estadstica suficiente (desde el punto de vista Bayesiano). Es decir,
P ( | x(n) ) = P ( | Tn (x(n) )).
(6.1)
AM
en donde la u
ltima igualdad se obtiene sustituyendo 6.1. As, utilizando nuevamente el teorema de Bayes, se tiene que
P (Tn (x(n) ) | )P ()P (x(n) )
P (x(n) )
,
= P (Tn (x(n) ) | )
P (x(n) | ) =
P (Tn (x(n) ))P ()
|
{z
} P (Tn (x(n) ))
{z
}
|
=g(,Tn (x(n) ))
=h(x(n) )
Sea Tn (x(n) ) una estadstica suficiente (desde el punto de vista frecuentista). Entonces, por el criterio de factorizacion de Fisher-Neyman,
P (x(n) | ) = P (Tn (x(n) ) | )h(x(n) ).
(6.2)
P (x(n) | )P ()
,
P (x(n) )
IT
P ( | x(n) ) =
73
=1
Estadstica Bayesiana
ITAM
AM
e xi
i {1, 2, . . . , n},
xi !
n
Y
e xi
i=1
xi !
h
P i
1
i {1, 2, . . . , n} =
en xi
x1 ! x2 ! . . . xn !
xi es una
i=1
6.3.
n
X
Familias conjugadas
IT
Cualquiera que sea el problema especfico de inferencia parametrica que se pretenda resolver, desde la perspectiva Bayesiana la distribucion que describe la
incertidumbre del investigador sobre el parametro desconocido juega un papel central. Especialmente cuando existe una muestra aleatoria, caso en el que
el an
alisis Bayesiano hace uso de la correspondiente distribucion a posteriori
P ( | x(n) ) P (x(n) | ) P () para producir las inferencias optimas (de perdida
esperada mnima).
Estadstica Bayesiana
ITAM
Definici
on 6.3.1. Sea X una v.a con f.d.p.g P (x | ) , entonces la familia de distribuciones F = {p ()} se dice que es cerrada o equivalentemente
conjugada bajo muestreo P (x | ) si cuando la inicial para pertenece a F,
la final correspondiente a cualquier muestra aleatoria de X tambien pertenece a
F.
AM
Esta definici
on es general e incluso, incluye casos que son irrelevantes. Por ejemplo, si P ( ) es la distribucion degenerada tal que P ( = ) = 1 y F es la
familia de la forma {P () | P () = P ( ), }. En este caso, los datos seran
irrelevantes y la distribuci
on final P ( | x(n) ) tambien sera P ( ) de forma que
para cualquier esquema de muestreo F es conjugada. En sentido contrario, si F
es la familia de todas las funciones de distribucion, entonces, necesariamente y
sin importar el esquema de muestreo, P () y P ( | x(n) ) pertenecen a la misma
familia F que es, evidentemente, conjugada e in
util para efectos de simplificar
el c
omputo.
De hecho, como puede comprobarse en los siguientes ejemplos, la idea iniciales
conjugadas es de utilidad practica cuando F es una familia parametrica de
modelos con caractersticas conocidas.
1
2 ,
x = n + ,
1
c2
y x =
IT
donde =
n
n + ,
1
c2x .
Estadstica Bayesiana
ITAM
Es decir
P ( | X(n) ) = Gamma( | +
xi , + n),
AM
e en xi (en )
P ( | X(n) )
!
(xi !)
!
xi
de donde se puede ver que la clase Poisson no es conjugada bajo muestreo Poisson. En este caso, de hecho, ni siquiera es razonable en general considerar una
distribuci
on inicial discreta para puesto que el espacio parametral es <+ .
La construcci
on de familias parametricas conjugadas ha sido un amplio objeto
de estudio, el resultado de este trabajo se resume en el siguiente teorema que es
de gran utilidad
Teorema 6.3.1. Sea X una v.a. con f.d.p.g. f (x | ) .
Supongamos
on
que para toda m.a. x(n) de X existe una estadstica Tn x(n) de dimensi
fija r que es suficiente para . Si como
consecuencia
del
teorema
de
factoriza
ci
as se cumple que
P x(n) | = h x(n) g Tn x(n) , y adem
R on se tiene que
g
T
x
,
d
<
,
entonces
existe
una
familia
param
etrica conjugada
n
(n)
(b
asica) para .
T
Demostraci
on. Sean m N y X(m)
el contradominio de Tm x(m) , y sean
n
o
[
T
T
adem
as X T =
(m, tm ) | tm X(m)
, t = (m, tm ) con tm X(m)
,
m=1
t X T <r+1 y F = P ( | ) | P ( | )g(tm , ), X T .
IT
Estadstica Bayesiana
ITAM
Este teorema se ilustra con el siguiente ejemplo donde, ademas, se puede observar como la familia conjugada parametrica basica se puede extender a una
familia m
as general.
AM
P
Por el teorema de factorizaci
on Tn (x(n) ) =
xi es una estadstica
suficiente
P
P
n xi
xi
para , tomando h(x(n) ) = 1 y g Tn x(n) , =
(1 )
.
P
P
Donde = xi +1 y = n xi +1. Por lo que existe un familia parametrica
conjugada b
asica para el muestreo Bernoulli y est
a dada por la forma
F = {P ( | ) | P ( | ) g(tm , ), con m N y tm Tm } ,
P
P
n xi
, y Tm = {0, 1, . . . , m}.
y donde g Tn x(n) , = xi (1 )
As, F est
a formado por un subconjunto de todas las distribuciones Beta( | , ).
Especficamente, aquellas tales que , N.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
IT
Estadstica Bayesiana
ITAM
AM
x = g(, x(n) )
6.4.
Distribuciones no informativas
Como se mencion
o en la seccion 4.2, en ocasiones interesa utilizar una distribuci
on inicial que sea no informativa. En ese caso, una pregunta relevante es
C
omo encontrar dichas distribuciones? Este problema ha recibido mucha atenci
on en la literatura estadstica Bayesiana, y a traves de las familias conjugadas
se puede proveer una posible respuesta.
6.4.1.
Como se discuti
o, en el caso de las familias conjugadas el proceso de aprendizaje
y la combinaci
on de la informacion inicial con la muestral, quedan plasmados
en la ecuaci
on de actualizacion parametrica x = g(, x(n) ). En donde es claro
que la distribuci
on final es un elemento de la familia en cuestion, que al estar
determinada por el par
ametro x tiene influencia de la informacion muestral,
especficamente, a traves de una estadstica suficiente de dimension fija, y de la
distribuci
on inicial a traves del parametro .
IT
As, la idea de una final que fundamentalmente dependa de los datos se puede
llevar al terreno operativo si en la expresion para x , el parametro se fija
o se hace tender a un lmite convencional que, en alg
un sentido, elimine la
contribuci
on de la inicial en la distribucion final. Un ejemplo que puede clarificar
esta idea se presenta a continuacion.
Ejemplo 6.4.1. Sea X una v.a. con distribuci
on Bernoulli(x | ), [0, 1] de
forma que
1x
P (x | ) = x (1 )
P
P
n xi
P x(n) | = xi (1 )
.
Estadstica Bayesiana
ITAM
Por tanto,
i
P ih
h P
1
n xi
1 (1 )
P | x(n) xi (1 )
+
P
+n x 1
xi 1
AM
i
(1 )
= Beta( | x , x )
P
P
con x = + xi y x = + n xi . De hecho, en la familia parametrica
conjugada b
asica se tiene que
1 (1 )1 =
yi
(1 )
yi
sigue
una
distribuci
o
n
Beta(
|
y
+1,
m
yi +1),
i
P
P
esto es, = yi + 1 y = m yi + 1. As, se puede interpretar como el
n
umero de exitos (m
as uno) en una muestra hipotetica de tama
no m, mientras
que equivale al n
umero de fracasos (m
as uno) en la misma muestra hipotetica.
Claramente, si m = 0 entonces el n
umero de exitos y fracasos hipoteticos tambien debe de ser cero y por tanto, = 1 y = 1. En consecuencia, la inicial
con menor informaci
on para es una Beta( | 1, 1), es decir, una distribuci
on
Uniforme en [0, 1]. A este tipo de distribuciones se les conoce como mnimo
informativas lmite de conjugadas.
Finalmente, observe que en este caso, cuando se utiliza esta distibuci
on inicial,
i
X
P
X
h P
P | X(n) xi (1 )n xi I[0,1] () = Beta |
xi + 1, n
xi + 1
IT
(n )
x + m
n +
x = n + .
79
Estadstica Bayesiana
ITAM
r/2
AM
r/2
e( /2)
(yi )2
e( /2)
(yi
y )2 (r /2)(
y )2
IT
80
Estadstica Bayesiana
6.4.2.
ITAM
Regla de Jeffreys
AM
El criterio de la raz
on insuficiente de Laplace establece que ante la ausencia de
informaci
on, no hay raz
on para que un resultado posible reciba una asignacion
de probabilidad distinta de otro. Esto es, que la ausencia de informacion se debe
representa mediante una distribucion U nif orme. Sin embargo, como se observa
en el siguiente ejemplo, el uso indiscriminado de la distribucion U nif orme como
representaci
on de la ignorancia, puede llevar a resultados inconsistentes.
Ejemplo 6.4.3. (La distribuci
on incicial U nif orme no es una representaci
on universal de la ignorancia).
Sea X una v.a. con distribuci
on Bernoulli(x | ), = [0, 1]. Esto es
x
P (x | ) = () (1 )
1x
c si 0 c 1,
2
P ( c) = P ( c) = P ( c) =
1
si 1 < c.
que no es Uniforme H.
IT
La idea de Jefreys, en alguna forma, extiende la propuesta de Laplace al considerar que una distribuci
on U nif orme es una descripcion razonable para un
caso de poca informaci
on cuando el parametro es de localizacion, y mas en
81
Estadstica Bayesiana
ITAM
AM
La intenci
on entonces, es buscar una reparametrizacion del parametro original
, de manera que, al menos asintoticamente, pueda interpretarse como la
media de un modelo N ormal; una vez identificado el parametro , asignarle
la distribuci
on inicial mnimo informativa P () 1, y mediante el cambio de
variable determinar la distribucion mnimo informativa para . Esta distribucion
se conoce como la inicial de Jeffreys (para ), y se denota mediante PJ ().
Por supuesto, una vez determinada PJ (), la inicial de Jeffreys para cualquier
funci
on = h() se obtiene directamente como
d
1
PJ () = PJ h () .
d
As, el procedimiento general es el siguiente:
Adem
as, sean L() la funci
on de verosimilitud, l() = log(L()) la logverosimi
litud y el estimador de m
axima verosimilitud para . As, aproximando l()
como funci
on de a traves de la serie de Taylor de orden dos, alrededor de se
tiene que
00
+ l0 ()(
)
+ l () ( )
2,
l() w l()
2
< 0,
l00 ()
IT
=0
l0 ()
y as
+ 1 l00 ()(
)
2.
l() w l()
2
( )
2
= exp{l()}
exp l00 ()
2
h
i
1
( )2 ,
exp l00 ()
2
82
Estadstica Bayesiana
ITAM
AM
Esta expresi
on revela que, asintoticamente, la verosimilitud para guarda semejanza con la verosimilitud que se obtiene de una observacion de con distribuci
on N ormal de media , salvo que, la variable aleatoria tambien aparece
que debiera ser constante. Para solventar este inconveniente
en el termino l00 ()
es oportuno recordar que la aproximacion supone que n es grande, y mejora a
medida que n . Por otro lado, si se define ui = ln (P (xi | )) , se tiene que
!
n
Y
l() =ln (L ()) = ln P x(n) | = ln
P (xi | )
i=1
n
X
i=1
ln (P (xi | )) =
n
X
Y an
alogamente, tomando vi =
l00 () =
=
nE(u).
ui = n
u
n
i=1
2
2 ln (P
(xi | )) , que
n 2
n
X
2
2 X
ln
(P
(x
|
))
=
l()
=
ln
(P
(x
|
))
i
i
2
2 i=1
2
i=1
n
X
nE(v).
vi = n
v
n
i=1
Adem
as, en este u
ltimo caso observe que
2
E(v) = E
ln
(P
(x
|
))
= ix ()
2
donde ix () es la informaci
on de Fisher contenida en x para . Entonces, como
consecuencia, se tiene que
= nix ().
l00 ()
IT
0
=
= l ()
,
y tambien que
2 ln(p(x | ))
=
2
l ()
83
00
= l ()
2
+ l ()
2
2
Estadstica Bayesiana
ITAM
expresi
on que, tomando valor esperado en ambos lados, se convierte en
E
2
2
2
00
ln (P (x | )) =
E {l0 ()} .
E {l ()}
2
AM
E {l0 ()} =E
ln (P (x | )) = E
P (x | )
P (x | )
Z
1
=
P (x | ) P (x | )dx
X P (x | )
Z
P (x | ) dx =
=
1 = 0,
X
resulta que
E
2
2
2
00
ln
(P
(x
|
))
=
E
{l
()}
=
ix (),
2
y por lo tanto
ix () =
2
ix ().
Esta expresi
on permite la b
usqueda de una parametrizacion en cuyos terminos
la verosimilitud asint
otica se pueda interpretar como la asociada a una media
N ormal. Basta pedir que ix () 1 o equivalentemente que
2
ix () 1,
es decir,
IT
(ix ())1/2 ,
R
de modo que () necesariamente sera de la forma () = (ix ())1/2 d. Y por
tanto, si se toma P () 1 resulta que
p
PJ () ix ()
Ejemplo 6.4.4. Sea x(n) una m.a. de una v.a. X con f.d.p.g. N ormal(x | , 2 )
y 2 conocida, de forma que
n
o
2
2
1
1
ln (P (x | )) = ln (2 2 )1/2 e1/2 (x) = ln(2 2 ) 2 (x )2 ,
2
2
84
Estadstica Bayesiana
ITAM
P
(xi )2
P
(xi
x)2 n/2 2 (
x)2
(
x)2
|x
,
2
n
AM
en/2
2 ln(P (x | ))
2
= 12 ,
n
o
2
1
1
ln (P (x | )) =ln (2 1 )1/2 e /2(x) = ln(2 2 ) 2 (x )2
2
2
1
=k + ln( ) (x )2
2
2
y la verosimilitud
L( ) =(2
1 n/2 /2
1
= Gamma ,
.
IT
1 e
P
(xi )2
n/2
P
(xi )2
Por lo que
ln (P (x | ))
1
(x )2
=
2
2
2 ln(P (x | ))
2
= 212 ,
85
Estadstica Bayesiana
6.5.
ITAM
Ejercicios
AM
Ejercicio 6.1. Se dice que una variable aleatoria X (discreta o continua) tiene
una distribuci
on que pertenece a la familia exponencial si su f.d.p.g. se puede
escribir como
k
X
f (x | ) = h(x)w()exp
cj ()uj (x)
j=1
Ejercicio 6.2. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con una distribuci
on que pertenece a la familia exponencial. Determine
una estadstica suficiente para . Es de dimensi
on fija?
IT
Ejercicio 6.6. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con distribuci
on Exponencial de par
ametro . Esto es
f (x | ) = exp(x); x, > 0.
Ejercicio 6.7. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con distribuci
on N ormal de media conocida y precisi
on . Compruebe que si la distribuci
on inicial de es Gamma entonces la final tambien es
Gamma. Exhiba la relaci
on que guardan los par
ametros de la inicial con los de
la final.
86
Estadstica Bayesiana
ITAM
Ejercicio 6.8. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con distribuci
on N ormal de media y precisi
on . Suponga que la
distribuci
on inicial conjunta P (, ) se expresa como
P (, ) = P ( | )P ( ),
AM
IT
87
AM
Bibliografa
[1] Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis.
Second edition. New York: Springer Verlag.
[2] Bernardo, J.M. (1981) Bioestadstica, una Perspectiva Bayesiana. Barcelona: Vicens Vives.
[3] Bernardo, J.M. & Smith, A.F.M. (1994). Bayesian Theory. Chichester: Wiley.
[4] Box, G.E.P. & Tiao, G.C. (1973). Bayesian Inference in Statistical Analysis.
Reading: Addison Wesley.
[5] Casella, G. & Berger, R.L. (2001). Statistical Inference. Belmont: Duxbury
Press.
[6] Congdon, P. (2001). Bayesian Statistical Modelling. Chichester: Wiley.
[7] De Groot, M.H. (1970). Optimal Statistical Decisions. New York: McGrawHill.
[8] De Groot, M.H. (1988). Probabilidad y Estadstica. Mexico: Addison Wesley
Iberoamericana.
IT
[9] Gamerman D. & Lopes, H.F. (2006). Markov Chain Montecarlo. Stochastic
Simulation for Bayesian Inference. Second edition. London: Chapman &
Hall.
[10] Gelman, A., Carlin, J.B., Stern, H.S. & Rubin, D.B. (2004). Bayesian Data
Analysis. Second edition. London: Chapman & Hall.
[13] Mignon, H.S. and Gamerman, D. (1999). Statistical Inference: An Integrated Approach. London: Arnold.
88
Estadstica Bayesiana
ITAM
[14] OHagan, A. (1994). Kendalls Advanced Theory of Statistics. Vol 2b. Bayesian Inference. Cambridge: Edward Arnold.
[15] Press, S.J. (1989). Bayesian Statistics. Principles, Models and Applications.
New York: Wiley.
IT
AM
[16] Robert, C.P. (2001). The Bayesian Choice. Second edition. New York:
Springer Verlag.
89