NotasBayesMR PDF

Estadstica Bayesiana
Manuel Mendoza R.
Pedro Regueiro M.
Departamento de Estadstica
Instituto Tecnolgico Autnomo de Mxico
2011
AM
IT
AM
Indice general
1. Introducci
on
1.1. Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Los lmites de la Estadstica Frecuentista
. . . . . . . . . . . . .
1.3. La conveniencia de una Teora Estadstica . . . . . . . . . . . . .
1.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Problemas de decisi
on
10
2.2. Problemas de decision con incertidumbre . . . . . . . . . . . . . .
12
2.3. Algunos criterios de solucion para problemas de decision con incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.3.1. Criterio optimista . . . . . . . . . . . . . . . . . . . . . .
13
2.3.2. Criterio pesimista (solucion minimax) . . . . . . . . . . .
14
2.3.3. Criterio de la consecuencia mas probable
. . . . . . . . .
15
2.3.4. Criterio de la utilidad promedio . . . . . . . . . . . . . . .
15
2.3.5. Criterio de la utilidad esperada . . . . . . . . . . . . . . .
16
2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
IT
2.1. Problemas de decision sin incertidumbre . . . . . . . . . . . . . .
3. Elementos de la Teora de Decisi

on
23
3.1. Axiomas de coherencia (D, E, C, ) . . . . . . . . . . . . . . . . .
23
. . . . . . . . . . . . . . . . . . . . . . . .
26
3.3. Definici
on de probabilidad . . . . . . . . . . . . . . . . . . . . . .
27
3.4. Principio de la utilidad esperada maxima . . . . . . . . . . . . .
28
3.5. Incorporaci
on de informacion adicional . . . . . . . . . . . . . . .
31
3.6. Reglas de decisi

on . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2. Definici
on de utilidad
ITAM
3.7. Extensiones del espacio del problema de decision . . . . . . . . .
36
3.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
4. Probabilidad y utilidad
41
41
AM
4.1. Probabilidad subjetiva . . . . . . . . . . . . . . . . . . . . . . . .

4.2. Asignaci
on de la probabilidad inicial . . . . . . . . . . . . . . . .
41
4.3. Distribuciones no informativas . . . . . . . . . . . . . . . . . . .
42
4.4. Utilidad y perdida . . . . . . . . . . . . . . . . . . . . . . . . . .
43
4.5. Asignaci
on de la utilidad . . . . . . . . . . . . . . . . . . . . . . .
44
4.6. Utilidad del dinero . . . . . . . . . . . . . . . . . . . . . . . . . .
44
4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
5. La inferencia como problema de decisi

on
49
5.1. Contraste de hip

otesis . . . . . . . . . . . . . . . . . . . . . . . .
49
5.2. Estimaci
on puntual . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.3. Estimaci
on por regiones . . . . . . . . . . . . . . . . . . . . . . .
56
5.4. Predicci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5.4.1. Pron
ostico puntual . . . . . . . . . . . . . . . . . . . . . .
59
5.4.2. Pron
ostico por regiones . . . . . . . . . . . . . . . . . . .
64
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
64
6. Inferencia Param
etrica Bayesiana
68
68
6.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71
6.3. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . .
74
6.4. Distribuciones no informativas . . . . . . . . . . . . . . . . . . .
78
6.4.1. Distribuciones conjugadas mnimo informativas . . . . . .
78
6.4.2. Regla de Jeffreys . . . . . . . . . . . . . . . . . . . . . . .
81
6.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
IT
6.1. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .
Bibliografa
88
AM
Captulo 1
Introducci
on
1.1.
Preliminares
IT
La Estadstica, tal como se presenta en los cursos mas convencionales, puede definirse como un conjunto de tecnicas cuyo proposito es la descripcion de
fen
omenos que se manifiestan a traves de datos que presentan variabilidad. Esta definici
on delimita el
ambito de accion de la disciplina -los fenomenos que
presentan variabilidad- y al mismo tiempo, establece su objetivo u
ltimo: la descripci
on. As, toda la Estadstica es descriptiva y, en particular, la Inferencia
Estadstica se ocupa del problema de descripcion en el caso en que solo es posible observar una fracci
on -o muestra- de la coleccion completa de datos que el
fen
omeno de interes puede producir (habitualmente denominada la poblacion).
En general, las descripciones que produce la Estadstica se llevan a cabo a traves
del c
alculo de res
umenes de la informacion disponible. Cuando se trata de un
problema de inferencia, la descripcion que se obtiene siempre es aproximada
puesto que se basa s
olo en una parte de toda la informacion que podra, al
menos potencialmente, ser utilizada. En esas condiciones, hay dos retos que es
necesario enfrentar. En primer lugar, idealmente, la muestra seleccionada debera reproducir exactamente las caratersticas de la poblacion entera. En los
terminos habituales en la literatura, la muestra debera ser representativa. En la
pr
actica, sin embargo, nunca es posible comprobar la representatividad de una
muestra ya que ello implicara el conocimiento de la poblacion completa. Por
tal raz
on, en el mejor de los casos, se cuenta con muestras que aproximan el
comportamiento de la poblacion y conducen, como ya se indico, a descripciones
aproximadas. El segundo reto consiste precisamente en proveer una medida del
grado de aproximaci
on que tienen las inferencias.
Para fortuna de los usuarios de los metodos estadsticos, estos dos retos han sido
razonablemente resueltos gracias a la introduccion de la selecci
on probabilstica
-por sorteo- de muestras. En su version mas simple, este esquema asigna a cada
uno de los elementos de la poblacion la misma probabilidad de aparecer en la
3
ITAM
AM
muestra y la extracci
on de cada elemento se realiza independientemente de la
de cualquier otro. Como consecuencia, los rasgos mas frecuentes en la poblacion
son los que aparecen con mayor probabilidad en la muestra. Adicionalmente,
se elimina cualquier sesgo intencional al remitir la decision de la seleccion a un
mecanismo ex
ogeno y, conceptualmente, se obtiene una muestra (aleatoria) que
est
a formada por una coleccion X (n) = {X1 , X2 , , Xn } de variables aleatorias independientes e identicamente distribudas de acuerdo con una funcion de
distribuci
on com
un F (x). En estas condiciones, la descripcion del fenomeno es
equivalente a la descripci
on de F (x).
Los problemas de inferencia que seran tratados en este texto pertenecen al
dominio de lo que se conoce como Inferencia Estadstica Parametrica. Este es
el entorno que se genera cuando la funcion de distribucion de interes pertenece
a una familia F de distribuciones donde todos los elementos tienen la misma
forma funcional, y se distinguen por el valor de un parametro (ndice) que
toma valores en un conjunto <k para un valor fijo de k. Esta simplificacion
es muy importante porque reduce la b
usqueda de un elemento, F (), en un
espacio de funciones de dimension infinita a la b
usqueda de un vector, , en un
espacio euclidiano de dimension finita. Una vez determinado el valor de , se
puede identificar el elemento F en F .
1.2.
Los lmites de la Estadstica Frecuentista
Las tecnicas que se presentan en un curso habitual de Estadstica Matem

atica,
corresponden a lo que se conoce genericamente como Estadstica Frecuentista en virtud de que interpreta la Probabilidad como un lmite de frecuencias
re- lativas. Esta interpretaci
on es evidente, en particular, cuando se definen los
conceptos y criterios para evaluar la calidad de las inferencias (significancia,
confianza e insesgamiento, por ejemplo). Esta no es la u
nica interpretacion posible y la idea de contar con mecanismos de inferencia que consideren un version
m
as general de la Probabilidad sera objeto de discuson en captulos posteriores.
IT
Por otra parte, es com

un la percepcion de que la Estadstica (Frecuentista) se
articula a traves de una serie de reglas, metodos y algoritmos, cada uno de los
cuales tiene sus propios meritos y ventajas pero que no necesariamente constituyen un cuerpo compatible y coherente de piezas de conocimiento. Especialmente
entre sus usuarios, ocurre que suelen visualizar a la Estadstica como una vasta
colecci
on de algoritmos (f
ormulas) cuyo empleo es apropiado en forma casustica.
Finalmente, existe una importante coleccion de ejemplos en los que las tecnicas
estadsticas frecuentistas producen resultados que arrojan una sombra de duda
sobre el car
acter general de los conceptos en que se basan; en ocasiones estas
dudas sugieren precauci
on y modificaciones, pero en algunos casos extremos,
cuestionan la naturaleza misma de los conceptos. Algunos de estos ejemplos
pueden considerarse extremos o patologicos, pero otros son sorprendentemente
ITAM
AM
generales (en la lista de ejercicios de este captulo se encuentra una peque

na
muestra de este tipo de ejemplos). Habiendo referido estos hechos, es prudente
aclarar que un Estadstico competente, frecuentista o no, debera ser capaz de
navegar con eficacia las regiones de aguas procelosas que pudiese presentar el
oceano de la Estadstica.
1.3.
La conveniencia de una Teora Estadstica
El trabajo de un pu
nado de brillantes academicos, entre los que destacan Karl
Pearson (1857-1936), Ronald A. Fisher (1890-1962), Egon Pearson (1895-1980),
Jerzy Neyman (1894-1981), Harald Cramer (1893-1985), David Blackwell (19192010) y Calyampudi R. Rao (1920-) hizo posible que a lo largo de un periodo
de aproximadamente 30 a
nos que inicio alrededor de 1915, los metodos de la
Estadstica fuesen encontrando respaldo en los principios matematicos. Es entonces cuando propiamente nace la Estadstica Matem
atica.
Sin embargo, este notable avance de matematizacion que consolido la Estadstica
Frecuentista, no fructific
o en una Teora, en el sentido axiomatico del termino,
como s ocurri
o, en cambio, con la Probabilidad en 1933 cuando Andrei Kolmogorov (1903-1987) postulo un conjunto de axiomas o principios basicos que
encapsulan la naturaleza de la disciplina en su totalidad y a partir de los cuales
se pueden deducir todos sus resultados organizados en un cuerpo coherente de
conocimientos sin contradicciones ni paradojas.
IT
El surgimiento de una Teora Estadstica o una Teora de la Inferencia Estadstica, habra de aguardar un tiempo mas, hasta la decada de los a
nos 50 cuando
aparece el libro The Foundations of Statistics de Leonard J. Savage (1917-1971)
que recoge el fruto de su propio trabajo y el de otros estadsticos como Frank
Ramsey (1903-1930), Bruno de Finetti (1906-1985) y Dennis V. Lindley (1923). Ah se presentan los Postulados de la Teora de la Decisi
on Personal que
actualmente son mejor conocidos como Axiomas de Coherencia, y a partir de
esa base se establecen, como indica el ttulo del libro, los fundamentos de la Estadstica. En otras palabras, se construye una Teora Axiomatica de la Inferencia
Estadstica.
Probablemente, la consecuencia mas espectacular de este esfuerzo fue el hecho
de que la teora desarrollada, si bien incluye, como casos particulares, algunas
ideas, ciertos conceptos y determinados resultados especficos de la poderosa
Estadstica Frecuentista, en su gran mayora esta disciplina solo tiene cabida
en el nuevo marco como un caso lmite y, en una variedad de casos se puede
probar que sus procedimientos simplemente violan alguno de los axiomas de
coherencia. As, la nueva teora nacio en conflicto con la escuela predominante
de pensamiento estadstico. Mas a
un, retomo y revaloro ideas y conceptos que
haban evolucionado desde finales del siglo XVIII y hasta principios del siglo
XX para describir la naturaleza de los fenomenos inciertos.
El exponente m
as brillante de ese enfoque, con 150 a
nos de antiguedad, fue Pie5
ITAM
AM
rre Simon de Laplace (1749-1827), quien le dio su nombre: Probabilidad Inversa.

Laplace elabor
o durante a
nos sobre el tema, fue su principal promotor y, en particular, discuti
o con detalle sus ideas al respecto en obras como Memoire sur la
probabilite des causes par les ev`
enements de 1774. En alg
un momento, Laplace
dio credito a un autor que le antecedio en el tratamiento del tema, as fuera
muy puntual y sin gran repercusion en su tiempo. Ese autor no vio publicado su
trabajo ya que este apareci
o en forma postuma; su nombre era Thomas Bayes
(1702-1761).
Como un anotaci
on hist
orica curiosa es interesante consignar que Savage, en
los a
nos 50, desarrollaba su actividad academica en la Universidad de Chicago, donde fue contempor
aneo de distintos economistas que habran de ser muy
reconocidos, en particular por distintos trabajos relacionados con la Teora de
Elecci
on Racional que, en cierta forma, comparte orgenes con los axiomas de
coherencia. De su relaci
on con los economistas de la universidad dan cuenta,
por ejemplo, sus publicaciones conjuntas con Milton Friedman (1912-2006) sobre funciones de utilidad, y las anecdotas sobre su papel como profesor de Harry
Markowitz (1927-).
Recientemente se ha dado por llamar Neo Bayesiana a la Teora originada por
Ramsey, De Finneti, Lindley y Savage que ha tenido un crecimiento espectacular,
especialmente a partir de los ochenta. En una primera fase, la investigacion en
la materia se orient
o al refinamiento de los fundamentos; posteriormente, al
desarrollo de metodos Bayesianos para la aplicacion en la practica. Fue esta
segunda etapa en la que comprobo que la fortaleza metodologica con frecuencia
tena asociada el costo de la dificultad para obtener resultados con expresiones
analticas cerradas. La tercera etapa, que inicio en los 90, se ha caracterizado por
un crecimiento explosivo de las aplicaciones complejas en las mas diversas areas,
gracias a la incorporaci
on de tecnicas de aproximacion numerica va simulacion,
especialmente a traves de cadenas de Markov.
IT
El prop
osito de este texto es presentar una version simple pero actualizada de
los resultados de las dos primeras etapas y una revision general de las ideas
que gobiernan el desarrollo de la tercera fase. El enfasis se concentra en el
procedimiento de construcci
on de esta Teora de la Inferencia Estadstica (ahora
conocida como Bayesiana) as como en ilustrar las principales implicaciones
generales que tiene en la pr
actica.
1.4.
Ejercicios
Ejercicio 1.1. Suponga que X es una variable aleatoria con distribuci

on Poisson y media . Si cuenta con una u
nica observaci
on x de esta variable, demuestre
que el u
nico estimador insesgado de = P (X = 0) est
a dado por
(
1 si x = 0
T (x) =
0 en otro caso.
6
ITAM
Asimismo, demuestre que en este caso el u

nico estimador insesgado para 2 ,
est
a dado por
(
1 si x es par
T (x) =
1 si x es impar.
AM
Que opini
on le merecen estos estimadores?
Ejercicio 1.2. Suponga que cuenta con una muestra aleatoria de tama
no n para
una variable aleatoria X, cuya distribuci
on es Normal con media 1 y varianza
2 . Suponga que adem
as cuenta con una muestra aleatoria de tama
no m para
otra variable aleatoria Y, cuya distribuci
on es tambien Normal con media 2 y
la misma varianza.
Si las dos muestras son independientes entre s y adem

as por facilidad se considera el caso en que 2 = 1 y n = m, encuentre un estimador puntual para el
as un interpar
ametro = 21 bajo el supuesto de que 2 6= 0. Encuentre adem
valo de confianza de nivel (1)100 % para .C
omo se comporta este intervalo
cuando tiende a cero?
Ejercicio 1.3. Sea x1 , x2 , . . . , xn una muestra aleatoria de una distribuci

on
Normal con media y varianza 2 = 1. Considere la situaci
on en la que desea
contrastar las hip
otesis
H0 : = 0
vs.
H1 : = 1
con un nivel de significancia = 0,05. Construya la regi

on de rechazo
optima
para llevar acabo este contraste. Una vez con esta regi
on diga Que ocurre con las
probabilidades de error de tipo I y II si el tama
no de muestra tiende a infinito?
Que opini
on le merece este comportamiento?
IT
Ejercicio 1.4. Considere la situaci

on en la que se cuenta con los resultados de
n lanzamientos independientes de una misma moneda, de los cuales r de ellos
resultan en sol, que se define como un exito.
Determine un estimador insesgado para , la probabilidad de exito, suponiendo
que estos datos proceden de un modelo Binomial con par
ametros (n, ) donde se
ha observado X=r.
Ahora, alternativamente suponga que los datos provienen de una variable aleatoria Y con distribuci
on Binomial Negativa (r, ) para la cual se ha observado
Y = n. Calcule un estimador insesgado para con este modelo alternativo.
Coinciden ambos estimadores? Que opina de este resultado?

Ejercicio 1.5. En las elecciones federales de julio de 2009, el Instituto Federal
Electoral seleccion
o, de entre las 139 959 casillas de votaci
on que se instalaron
en todo el pas, una muestra aleatoria de 900 casillas y en cada casilla seleccionada examin
o el material electoral (boletas de votaci
on, actas y tinta indeleble)
para verificar que este cumpla con las normas de calidad y marcas de seguridad
7
ITAM
que la normatividad electoral exige. Como resultado, report

o que en todas las
casillas de la muestra el material cumpla con las condiciones requeridas.
AM
Con esta informaci

on, Cu
al sera su estimaci
on puntual para la proporci
on
de casillas en todo el pas, cuyo material cumpla la normatividad? Cu
al
resultaria ser un intervalo de confianza -as sea aproximado- para con un
nivel (1 )100 %? Que opina de sus resultados?
IT
Ejercicio 1.6. En el artculo: When Did Bayesian Inference Become Bayesian? Stephen E. Fienberg presenta una revisi
on hist
orica del desarrollo del
paradigma Bayesiano en la Inferencia Estadstica. Lea este artculo y redacte
un resumen crtico.
AM
Captulo 2
Problemas de decisi
on
Definici
on 2.0.1. Un problema de decisi
on es la situaci
on en la que un
personaje (tomador de decisiones) se enfrenta a un conjunto de decisiones, D,
de entre las cuales debe seleccionar una y s
olo una de ellas.
Principio b
asico. Una soluci
on (decisi
on) es mejor en la medida que produce
m
as satisfacci
on al tomador de decisiones. Las decisiones seran juzgadas por
sus consecuencias.
Considere los siguientes objetos:
D = {d1 , d2 , . . . , dk }, el conjunto de decisiones.
Para cada di D, Ei = {Ei1 , Ei2 , . . . , Eini } una particion del evento

Sk
seguro () y E = i=1 Ei el conjunto de eventos inciertos relevantes.
IT
Para cada di D, Ci = {ci1 , ci2 , . . . , cini } donde cij es la consecuencia

Sk
de elegir i y que suceda j; y C = i=1 Ci el conjunto de consecuencias.
Una relaci
on binaria definida sobre C tal que cij ckl cij es mas
preferido que ckl .
Un problema de decisi
on esta completamente caracterizado por (D, E, C, ).
Notar que:
di Ci i {1, 2, . . . , k}, i.e. a cada accion se le asocia un conjunto de

posibles consecuencias.
C no necesariamente es un subconjunto de <.
T
Ei partici
on de Eij Eik = j 6= k y
9
Sni
j=1
Eij = i.
2.1.
ITAM
Problemas de decisi
on sin incertidumbre
AM
Definici
on 2.1.1. Un problema de decisi
on se dice que es sin incertidumbre
si para cada decisi
on la consecuencia respectiva es segura. Es decir si Ci consta
de un solo elemento para toda i.
d1
C1={c1}
d2
C2={c2}
dk
Ck={ck}
Figura 2.1: Arbol

de decision sin incertidumbre: consecuencias seguras.
Bajo las condiciones de un problema de decision sin incertidumbre, es posible

encontrar un algoritmo de solucion:
Se comparan las consecuencias para identificar la mas preferida (para el
tomador de decisiones).
Se identifica la opci
on asociada a esa consecuencia y se toma como la
soluci
on.
IT
Ejemplo 2.1.1. Suponga que cuenta con una hoja de l

amina de acero de superficie S metros cuadrados y que desea construir un contenedor (sin tapa) de
base cuadrangular, de lado l y altura h, utilizando todo el material de forma que
tenga m
axima capacidad.
Definiendo:
D = {dhl |dhl = dise

no de lh, con h,l > 0; S = l2 + 4lh}
y bajo el supuesto de que el beneficio de un dise

no depende exclusivamente de
su volumen, entonces
C = {chl |chl = volumen del contenedor con dise
no dhl ; chl = l2 h}
En este problema las consecuencias son de entrada numericas y, m

as a
un, sucede
que ch0 l0 chl ch0 l0 > chl , lo que conduce a resolver el problema:
m
ax f (l, h) = l2 h
(l,h)
s.a.
l2 + 4lh = S
10
ITAM
Cuya soluci
on, en terminos de
S, puede ser
obtenida por metodos est
andar de
S
S
?
?
c
alculo y est
a dada por l = 3 y h = 2 3 .
AM
En este ejemplo es interesante observar que el conjunto D de dise

nos est
a parametrizado por h y l y que, de hecho, se puede representar como un conjunto
en <2 tal como se exhibe en la figura 2.2.
Figura 2.2: Region factible para (l, h) con S = 16.
IT
M
as a
un, dada la restrici
on que define a estos dise
nos, las consecuencias en C
se pueden expresar como funci
on de h (e implcitamente de l). Este hecho se
ilustra en la figura 2.3
Figura 2.3: Conjunto de consecuencias en funcion de h, con S = 16.
Como se ver
a a continuaci
on, en la practica los problemas de decision mas
interesantes son aquellos que contienen incertidumbre.
11
2.2.
ITAM
Problemas de decisi
on con incertidumbre
AM
Definici
on 2.2.1. Un Problema de decisi
on se dice que es con incertidumbre cuando para al menos una decisi
on existe m
as de una posible consecuencia.
Es decir, si existe al menos una i tal que Ci consta de dos o m
as elementos.
E11
E12
d1
c11
c12
E1n1
c1n1
E21
E22
c21
c22
d2
E2n2
c2n2
Ek1
Ek2
dk
Eknk
ck1
ck2
cknk
IT
Figura 2.4: Arbol

de decisi
on con incertidumbre: una vez elegido dj lo u
nico
que se sabe es que ocurrir
a una y solo una de las respectivas consecuencias
cj1 , cj2 , . . . , cjnj .
Bajo las condiciones de un problema de decision con incertidumbre, no es inmediato que se deba utilizar directamente el algoritmo de solucion descrito en la
secci
on 2.1. Una idea general que se ha ensayado para resolver un problema de
este tipo, es reducirlo a otro problema sin incertidumbre. Como veremos mas
adelante, esta idea ha inducido a diversos criterios para la solucion de problemas
de decisi
on.
Antes de presentar estos criterios, es interesante considerar la siguiente situaci
on. Suponga que las particiones Ei : i = 1, 2. . . . , k son todas iguales. Esto
significa que los eventos inciertos que condicionan las consecuencias de todas las
decisiones son los mismos. Esto no es el caso general, pero resulta, como se co12
ITAM
mentar
a en su momento, que esta estructura se puede adoptar conceptualmente
sin perdida de generalidad.
Si Ei = E i, entonces el problema de decision, ademas del arbol respectivo,
admite una representaci
on grafica tal como se muestra en la tabla 2.1.
E1
c11
c21
..
.
E2
c12
c22
..
.
...
...
...
..
.
En
c1n
c2n
..
.
dk
ck1
ck2
...
ckn
AM
d1
d2
..
.
Tabla 2.1: Representaci

on tabular de las consecuencias para una particion com
un
del espacio de eventos inciertos.
En la tabla anterior surge una idea interesante Que sucede si al comparar dos
renglones (correspondientes a di y di0 ) ocurre que, elemento a elemento, por
columna, cij ci0 j ? Claramente, entonces no importa cual evento incierto se
presente, la decisi
on di produce consecuencias mas preferidas que di0 . Evidentemente di0 no puede ser la opcion optima para el tomador de decisiones, puesto
que al menos existe otra que, sin duda, es mejor (di ). Cuando se presenta esta
circunstancia, se dice que di domina a di0 , y que di0 es inadmisible. Por supuesto,
en un problema especfico es conveniente identificar las opciones inadmisibles y
eliminarlas de D.
Como ya se indic
o, en la pr
actica las particiones Ei : i = 1, 2. . . . , k no tienen
porque ser iguales, pero el problema de decision se puede reformular considerando una partici
on E ? donde cada elemento de esta nueva particion se construye
como la intersecci
on de k eventos, tomando uno de cada Ei . Es claro que algunos elementos ser
an iguales al vaco, pero en cualquier caso, por construccion,
el resultado es una partici
on com
un. Y en esos terminos se puede enunciar la
siguiente definici
on general.
IT
Definici
on 2.2.2. Una decisi
on d D se dice que es inadmisible si existe
d0 D tal que, para cualquier evento incierto en E sucede que d d0 y existe
un evento incierto Ei E para el cual d d0 . Se dice tambien que d0 domina a
d.
2.3.
Algunos criterios de soluci

on para problemas de decisi
on con incertidumbre
2.3.1.
Criterio optimista
De cada grupo de ramas secundarias en el arbol, se eliminan todas excepto

aquella con la consecuencia mas preferida. Con las ramas sobrevivientes, se
resuelve el problema como se hara en ausencia de incertidumbre.
13
ITAM
Este criterio equivale a que el tomador de decisiones se considere tan afortunado,

que piense que siempre, sin importar la opcion que elija, el evento incierto que
ocurrir
a ser
a aquel que le produzca el mayor beneficio. De este modo, el arbol
en la figura 2.4 sera remplazado por el de la figura 2.5.
o
c1
d2
c2o
AM
d1
cko
dk
Figura 2.5: Arbol

reducido bajo el criterio optimista. Aqu c0i representa la
consecuencia m
as preferida entre las contenidas en {ci1 , ci2 , . . . , cini }.
2.3.2.
Criterio pesimista (soluci

on minimax)
De cada grupo de ramas secundarias en el arbol, se eliminan todas excepto

aquella con la consecuencia menos preferida. Con las ramas sobrevivientes, se
resuelve el problema como se hara en ausencia de incertidumbre.
Contrario al criterio anterior, en este criterio el tomador de decisiones se considera tan desafortunado, que piensa que siempre, sin importar la opcion que
elija, el evento incierto que ocurrira sera aquel que le produzca el menor beneficio. De este modo, el
arbol en la figura 2.4 sera remplazado por el de la figura
2.6.
IT
d1
d2
dk
c1
c2
min
min
min
ck
Figura 2.6: Arbol

reducido bajo el criterio pesimista. Aqu cmin
representa la
i
consecuencia menos preferida entre las contenidas en {ci1 , ci2 , . . . , cini }.
14
2.3.3.
ITAM
Criterio de la consecuencia m
as probable
De cada grupo de ramas secundarias en el arbol, se eliminan todas excepto la

m
as probable (moda). Con las ramas sobrevivientes, se resuelve el problema
como se hara en ausencia de incertidumbre.
AM
En este caso, el tomador de decisiones act

ua como si la consecuencia con mas
probabilidades de ocurrir se presentara con certeza, sin importar el beneficio que
esta implique. Es importante observar que, este criterio requiere una valoracion
numerica de la credibilidad que el tomador de decisiones le concede a cada
uno de los eventos inciertos relevantes en el problema. Esta medida esta dada
por la probabilidad subjetiva respectiva y el procedimiento para asignarla se
discutir
a en el captulo siguiente.
d1
c1p
c2p
d2
dk
ckp
Figura 2.7: Arbol

reducido bajo el criterio de la consecuencia mas probable.
Aqu cpi representa la consecuencia con mayor probabilidad de ocurrir entre las
contenidas en {ci1 , ci2 , . . . , cini }.
2.3.4.
Criterio de la utilidad promedio
IT
De cada grupo de ramas secundarias en el arbol, se eliminan todas y se inserta

una rama artificial cuya consecuencia equivale al promedio aritmetico de las
consecuencias. Con las ramas sobrevivientes, se resuelve el problema como se
hara en ausencia de incertidumbre.
En el caso de este criterio, se considera que las consecuencias se expresan en

terminos numericos y que ademas su beneficio esta determinado por este valor
o, m
as en general, que el beneficio que cada consecuencia reporte puede ser
medido con un valor n
umerico.
As, si u : C < es la funcion que produce ese valor, y c1 y c2 son dos
consecuencias entonces c1 c2 u(c1 ) > u(c2 ). A este tipo de funciones se
les conoce como funci
on de utilidad, y se discutiran en detalle en el captulo
siguiente.
Es interesante observar que con este criterio, el conjunto de ramas asociadas a
las consecuencias de una opcion es remplazado por una rama nueva, artificial,
15
ITAM
que en general no existe en el conjunto original. Esta es una diferencia frente

a los criterios expuestos previamente. En todo caso, el arbol de la figura 2.4 se
sustituye por
d1
AM
u(c1)
u(c2)
d2
...
u(ck)
dk
Figura 2.8: Arbol

reducido bajo el criterio de la consecuencia mas probable.
Aqu u(ci ) representa la utilidad promedio de las consecuencias contenidas en
{ci1 , ci2 , . . . , cini }.
2.3.5.
Criterio de la utilidad esperada
De cada grupo de ramas secundarias en el arbol, se eliminan todas y se inserta

una rama artificial con el promedio ponderado (por la probabilidad) de las
consecuencias. Con las ramas sobrevivientes, se resuelve el problema como se
hara en ausencia de incertidumbre.
Observe que en este criterio, al igual que en el criterio anterior, sera necesario
contar con el concepto de utilidad, as como con una medida de credibilidad de
los eventos inciertos, tal como se describo en el criterio de la consecuencia mas
probable. En este caso, la nueva rama artificial tendra una utilidad que equivale
a la utilidad esperada del conjunto de consecuencias original.
IT
d1
d2
dk
Figura 2.9: Arbol

reducido bajo el criterio de la utilidad esperada.
Aqu Eu (ci ) representa la utilidad esperada de las consecuencias contenidas en
{ci1 , ci2 , . . . , cini }.
16
ITAM
Observe que al utilizar este u

ltimo criterio, el problema de decision caracterizado
por (D, E, C, ) se convierte, computacionalmente, en (D, E, C, , u, P ).
AM
Ejemplo 2.3.1. En unas elecciones parlamentarias en Inglaterra, competan

los partidos Conservador y Laborista. Una casa de apuesta ofreca las siguientes
posibilidades:
A quien apostara a favor de los Conservadores la casa pagara, en caso de
ganar la apuesta, 7 libras por cada 4 arriesgadas.
A quien apostara a favor de los Laboristas la casa pagara, en caso de

ganar la apuesta, 5 libras por cada 4 arriesgadas.
As, si se definen:
D = {dl , dc } donde dl =apostar k libras por los Laboristas y

dc =apostar k libras por los Conservadores,
E = {E1 , E2 } donde E1 =ganan los Conservadores y
E2 =ganan los Laboristas, y
C = {cl1 , cl2 , cc1 , cc2 } donde cjk =consecuencia de apostar por j y que gane k,
el
arbol de decisi
on del problema resulta
-k+7/4*k
E2
P(E2)
-k
E1
P(E1)
-k
E2
P(E2)
-k+5/4*k
IT
dc
E1
P(E1)
dl
Figura 2.10: Arbol

de decision para el problema de las apuestas.
Por tanto, suponiendo que la utilidad del tomador de decisiones depende u

nicamente del pago de la apuesta y no de sus preferencias polticas, que no existe
la posibilidad del empate, y que s
olo compiten los partidos Laborista y Conservador. La soluci
on y el
arbol reducido bajo estos diferentes criterios est
an
determinadas como se muestra en las siguientes figuras:
17
ITAM
-k+7/4*k
dl
-k+5/4*k
AM
dc
Figura 2.11: Arbol

de decisi
on reducido, bajo el criterio optimista, para el problema de las apuestas. Solucion optima: dc .
dc
-k
dl
-k
Figura 2.12: Arbol

de decisi
on reducido, bajo el criterio pesimista, para el problema de las apuestas. Solucion optima: cualquiera dc o dl .
dc
-k+7/4*k
dl
-k
IT
Figura 2.13: Arbol

de decisi
on reducido, bajo el criterio de la consecuencia mas
probable, para el problema de las apuestas (caso P (E1 ) > 1/2). Solucion optima:
si P (E1 ) > 1/2 dc ; si P (E1 ) < 1/2 dl ; si P (E1 ) = 1/2 este criterio no
est
a definido.
dc
-1/8*k
dl
-3/8*k
Figura 2.14: Arbol

de decision reducido, bajo el criterio de utilidad promedio,
para el problema de las apuestas. Soulucion optima: dc .
18
ITAM
k*[3/4*P(E1)-P(E2)]
dl
k*[-P(E1)+1/4*P(E2)]
AM
dc
Figura 2.15: Arbol

de decision reducido, bajo el criterio de utilidad esperada,
para el problema de las apuestas. Definiendo p P (E1 ) = 1 P (E2 ) la solucion
optima resulta dc Euc (p) 7/4 p 1 1/4 5/4 p Eul (p) p 5/12.
u(p)
u(p)
uc
1/4
uc
1/4
5/12
1/5
5/12
4/7
-1
1/5
4/7
-1
ul
(a)
ul
(b)
Figura 2.16:
(a)Utilidad esperada en funcion de P (E1 ). Tomando k = 1.
(b)Estrategia
optima para el problema de las apuestas con D0 y k = 1.
IT
Es inmediato verificar los cuatro primeros resultados. Para el quinto criterio,

que tambien se resuelve con facilidad, es interesante observar la figura 2.16.
En la figura 2.16a la lnea gruesa identifica la opci
on
optima como funci
on de
la probabilidad subjetiva que el tomador de decisiones le asigna a la victoria
de los conservadores. En segundo lugar, aparece un elemento muy revelador, la
utilidad esperada de la decisi
on
optima es positiva en todos los casos excepto si
p (1/5, 4/7). Esta informaci
on es sumamente valiosa si se observa que, en
el caso de que existiera la opci
on de no apostar, la utilidad esperada de dicha
opci
on sera cero.
De hecho, este resultado sugiere la conveniencia de considerar el conjunto de

opciones modificado D0 = {dc , dl , d0 } donde d0 corresponde a no apostar, en
cuyo caso se obtendr
a la utilidad esperada
optima (no negativa en todos los
casos) que aparece marcada por la lnea gruesa en la figura 2.16b .
19
2.4.
ITAM
Ejercicios
AM
Ejercicio 2.1. El propietario de la tienda de ropa Los Trapos, ante el inminente

arribo del oto
no, debe decidir cu
antos sueteres ha de adquirir de sus proveedores.
Puede solicitar el material en m
ultiplos de 100 unidades. Si ordena 100 sueteres,
estos tienen un costo unitario de 150 pesos, si ordena 200 el costo unitario es
de 120 pesos y si ordena 300 sueteres o m
as, el costo unitario es de 90 pesos.
En cualquier caso, Los Trapos vende sueteres, en temporada oto

no-invierno, a
un precio de 180 pesos y si sobran algunos los remata, despues de la temporada,
a la tercera parte del precio. Adem
as, el propietario del almacen considera que
cada sueter que le sea solicitado en temporada y que no pueda vender (por
falta de existencias) le supone una perdida equivalente a 15 pesos, en terminos
econ
omicos.
Si por facilidad, el propietario supone que la demanda de sueteres en temporada

1
ser
a de 100, 150, 200, 250
o 300 unidades con probabilidades 61 , 29 , 31 , 29 y 18
respectivamente y que la utilidad que le reporte cada consecuencia se mide exclusivamente en terminos monetarios, entonces
a) Describa la estructura del problema de decisi
on.
b) Identifique las decisiones inadmisibles en este problema. Le parece razonable la eliminaci

on de estas decisiones? Por que?
c) Resuelva el problema va minimax.
d) Resuelva el problema va utilidad esperada m

axima.
IT
Ejercicio 2.2. El da de su cumplean

nos n
umero 20, un paciente es admitido
en el hospital con sntomas que sugieren la enfermedad A (con probabilidad 0,4)
o bien la enfermedad B (con probabilidad 0, 6). Cualquiera que sea la enfermedad
que en realidad padece, si no se trata morir
a ese mismo da (con probabilidad
0,8) o bien sobrevivir
a sin consecuencias para su salud (con probabilidad 0,2).
El medico que recibe a este paciente tiene tres opciones que son alternativas:
1. No administrar tratamiento alguno.
2. Tratar al paciente con el f
armaco F.
3. Realizar ciruga al paciente.
Tanto la ciruga como la administraci

on del farmaco entra
nan riesgos. Sin importar la enfermedad, el paciente puede morir durante la operaci
on (con probabilidad 0,5). De la misma manera, sin importar la enfermedad, la droga puede
ocasionar una reacci
on alergica mortal (con probabilidad 0,2).
Si el paciente sobrevive a los efectos adversos de la droga, y tena la enfermedad
A, entonces le puede curar (con una probabilidad de 0,9) o puede que no tenga
20
ITAM
efecto alguno. Si el paciente tena la enfermedad B, seguro la droga no tiene

efecto curativo.
AM
Por otra parte, si el paciente sobrevive a la operaci

on, esta lo cura (con una
probabilidad de 0,5) si padeca la enfermedad A, en caso contrario no tiene
efecto. Si padeca la enfermedad B, la operacaci
on lo cura (con probabilidad
0,6), y no tiene efecto con probabilidad 0,4.
En cualquier caso, si se recupera, el paciente tiene una esperanza de vida de 50
a
nos m
as. Que tratamiento es m
as conveniente?
Ejercicio 2.3. Considere el siguiente problema estadstico: Sea x(n) una m.a.
de una variable aleatoria X tal que E(X 2 ) < . Encontrar el Mejor Estimador
Lineal Insesgado (MELI) de E(X).
a) Formule este problema como uno de decisi
on.
b) Identifique todos los componentes de la estructura.
c) Pruebe que la soluci

on es la misma para cualquiera de los criterios discutidos en este captulo.
d) Por que ocurre este fen

omeno?
Ejercicio 2.4. Despues de leer el siguiente artculo, que apareci

o en el peri
odico
La Jornada el da s
abado 7 de julio de 1990, diga usted si la interpretaci
on que
hace el peri
odico de las apuestas a las que se refiere en el u
ltimo p
arrafo es
correcta. Argumente formulando un problema de decisi
on como el analizado en
el ejemplo 2.3.1
De no gustarle su nueva actividad, podra dirigir en Italia
Franz Beckenbauer, aburrido del

futbol, anuncio ayer su retiro
Aprendimos la lecci
on; no cometeremos los mismos errores del 86, afirman los alemanes
IT
Agencias, Roma, 6 de julio Seis

a
nos despues de hacerse cargo de la
direcci
on del equipo de Alemania Occidental, Franz Beckenbauer no solo
est
a m
as cerca que nunca de coronarse campe
on mundial como tecnico, sino
tambien de su retiro.
El Kaiser anunci
o hoy que esta aburrido y que iniciar
a una nueva actividad al margen del futbol, pero no dio
detalles. Fuentes de la delegacion ase-
guran que sera consultor de mercado

de una empresa automotriz alemana.
Haba versiones de que entrenara al
equipo de Estados Unidos en 1994, lo
que al parecer tambien quedo desechado.
Beckenbauer dijo que si no le gusta
su nueva actividad, regresara al mundo
del futbol y que en este caso le gustara
trabajar en la liga italiana, la mejor
del mundo y la mas profesional.
21
ITAM
Es probable que los aficionados italianos apoyen a la RFA, ademas de que

esta ciudad se apresta para la invasion
de unos 30 mil aficionados alemanes.
Los teutones confan en Lothar Matthaeus, que el a
no anterior fue el frustrado marcador de Maradona, pero que
ahora es el lder del equipo y, seg
un
Beckenbauer, puede consagrarse como
el mejor jugador del mundo. Matthaeus admitio que esa es su intension
y expreso llego la hora que ganemos
la final. El volante, hasta el momento
autor de cuatro goles, mando un mensaje al Pibe, en el que advierte: la lucha sera a muerte.
AM
En cuanto a la final, se
nal
o que espera que no se defina por penales y ratific
o su optimismo al declarar que a diferencia de 1986, Maradona quiza ya
no es el n
umero uno del mundo y ha
perdido mucho en estos cuatro a
nos.
Sin embargo, coment
o que sigue siendo
uno de los mejores jugadores del mundo y deben marcarlo de cerca.
En su acostumbrada conferencia de
prensa, el entrenador declaro que en
Mexico cometieron el error de centrar
su atenci
on sobre Maradona y olvidaron a Burruchaga y Valdano, pero
aclar
o que ya aprendimos la leccion
y esta vez abordaremos el problema de
manera diferente, y ante la imposibilidad de controlar a Diego durante los 90
minutos, dijo que tratar
an de limitar
su radio de acci
on y que su probable
marcador saldr
a de Kohler, Berthold o
Buchwald.
Expres
o que las armas para el triunfo son la concentraci
on y agresividad,
factores que estuvieron en 86 con sus
rivales.
Pese a sus errores anteriores, los magos italianos insisten y ahora dicen que
Alemania ganara el Mundial. En tanto,
para los corredores de apuestas britanicos, el equipo aleman es solo favorito
por un margen mnimo: por cada 10 libras que se arriesguen se pagaran 11,
en caso de un triunfo aleman.
IT
No revel
o la alineaci
on de su equipo,
pero son probables los cambios en el
medio campo, para donde cuenta con
cuatro elementos como Haessler, Littbarski, Bein y Thon. Pero al parecer
ya se recuper
o el delantero Rudi Voeller. Acerca de la alineaci
on del rival,
declar
o tener mucha curiosidad por saber c
omo se las ingeniar
a Bilardo para
armar su equipo, ante las suspensiones
y lesionados.
Los jugadores alemanes afirman que

seran apoyados por los romanos. Berthold se hace propaganda al declarar
que jugar mi segunda final del Mundial en Roma, en mi ciudad, la mas
bella del mundo, es un sue
no. Y por
otra parte comento que no repetiran
los errores de hace cuatro a
nos, que no
le asusta el lema de no hay dos sin
tres, sino que prefiere el de la tercera es la vencida y que esta vez estan
en condiciones de ganarle a cualquiera.
22
AM
Captulo 3
Elementos de la Teora de
Decisi
on
3.1.
Axiomas de coherencia (D, E, C, )
Cuando una Teora se desarrolla a partir de una base axiomatica, la idea fundamental es plasmar en los axiomas los principios basicos que dan sustento a
dicha Teora. As, todo resultado sera consecuencia de los axiomas y por tanto,
si alg
un resultado resultara inapropiado o controvertible el origen para ello debe
encontrarse en los propios axiomas. Ahora bien, en general, una misma Teora
se puede desarrollar a partir de distintos conjuntos de axiomas. Habitualmente,
la elecci
on de uno de estos conjuntos en particular se realiza en funcion de la
capacidad de sntesis que tenga, as como de su interpretabilidad.
IT
Los axiomas de coherencia que aqu se presentan, son una version simplificada
de los que aparecen en Bernardo y Smith (1994), y que fueron propuestos, por
ejemplo, en Bernardo (1981). Estos axiomas, constituyen una base para la Teora
de la Decisi
on, y describen los principios que debera cumplir un tomador de
decisiones que no quiere incurrir en errores sistematicos (quiere ser coherente).
Estos cuatro axiomas son especialmente faciles de interpretar y, como puede
observarse, tres de ellos se refieren a las caractersticas del orden de preferencias,
mientras que el cuarto establece un sistema de medicion de la incertidumbre en
terminos de preferencias.
Finalmente, si como es el caso en la Teora de la Decision que se discute aqu, de
los axiomas se sigue un procedimiento u
nico para la solucion de los problemas
que aborda la Teora, entonces cualquier otro procedimiento tiene solo dos posibilidades: o bien es equivalente al que establecen los axiomas, o se contrapone
con estos.
23
ITAM
Axioma 1. Comparabilidad: para todo par de elementos di , dj D es cierta

una y s
olo una de las tres siguientes afirmaciones:
di dj (di es mas preferible a dj )
AM
di dj (di es igualmente preferible a dj )

dj di (dj es mas preferible a di )
Adem
as, es posible encontrar c y c en C t.q. c c c
c C.
En terminos llanos, este axioma establece que si el tomador de decisiones quiere

elegir una opci
on en D, entonces debe partir del supuesto de que es posible comparar los elementos en de D. La negacion de este axioma equivale a renunciar,
de entrada, a la soluci
on del problema.
Axioma 2. Transitividad: si di , dj , dk D y sucede que di dj , y adem

as que
dj dk entonces se cumplir
a necesariamente que di dk .
IT
Suponga por un momento que este axioma no se cumple. Esto es, suponga que
existen di , dj , dk en D tales que el tomador de decisiones considera que di dj
y que dj dk , pero que dk di . Si tal fuera el caso, usted podra ofrecerle
gratis cualquiera de las tres opciones. Si por ejemplo, el tomador de decisiones
eligiese dk , entonces usted podra ofrecerle la sustitucion por dj (que es mas
preferible que dk para el) a cambio de una suma S1 positiva pero muy peque
na,
de manera que la permuta a el le parezca conveniente. Acto seguido, Ud. puede
hacer lo mismo para sustituirle dj por di a cambio de una suma S2 . Por u
ltimo,
como el tomador de decisiones considera que dk di puede ofrecerle el cambio
de di por dk gratis. As, el tomador de decisiones vuelve a la posicion original
despues de haber pagado S1 + S2 . No importa que tan peque
nos sean S1 y
S2 , si son positivas usted puede repetir este procedimiento indefinidamente, y
habr
a convertido al tomador de decisiones en una maquina perpetua de regalar
dinero.
Axioma 3. Sustitubilidad: si di , dj D y A es un evento incierto t.q. di dj
cuando ocurre A y di dj cuando ocurre Ac entonces di dj . An
alogamente
si di dj cuando ocurre A y di dj cuando ocurre Ac entonces di dj .
Este es un axioma de congruencia. Si por ejemplo, el tomador de decisiones

prefiriera invertir en valores de renta fija y no en la bolsa de valores cuando hay
recesi
on en el pas y tambien prefiriera los valores de renta fija sobre la bolsa
cuando no hay recesi
on, entonces, simplemente prefiere la renta fija sobre la
bolsa. Observe que el axioma no establece que di dj en ambos casos (cuando
ocurre A y cuando ocurre Ac ). Lo que afirma es que si di dj en los dos
escenarios (que forman una particion del evento seguro) entonces los escenarios
son irrelevantes.
24
ITAM
AM
Axioma 4. Eventos de referencia: Independientemente de los eventos inciertos relevantes, el tomador de decisiones puede imaginar un procedimiento para
generar puntos en el cuadrado unitario I de manera que para cualesquiera dos
regiones R1 Y R2 en I, el evento A1 = {z R1 } es m
as creble que el evento
A2 = {z R2 } Area(R
)
>
Area(R
).
1
2
Este cuarto axioma es de una naturaleza distinta a los tres anteriores. Simplemente define un patr
on de referencia, y establece un mecanismo para la medicion
cuantitativa de la incertidumbre. En terminos de irrefutabilidad, lo u
nico que
en realidad establece es que el tomador de decisiones sea capaz de imaginar
un mecanismo para simular observaciones de una distribucion Uniforme en el
cuadrado unitario de <2 .
Ahora, dado un problema de decision con incertidumbre (D, E, C, ) con d D

y d = {c1 |E1 , c2 |E2 , . . . , ck |Ek }, considere el siguiente procedimiento:
1. Modificar el conjunto D incluyendo nuevas decisiones artificiales de la

forma dc = {c | } c C, ademas de todas las decisiones originales.
Llame a este conjunto modificado D1 .
2. Modificar el conjunto D1 incluyendo nuevas decisiones artificiales de la

forma dE = {c |E c , c |E} E E. Llame a este conjunto D2 .
3. Modificar el conjunto D2 incluyendo nuevas decisiones artificiales del tipo

dR = {c |Rc , c |R} R I. Llame a este conjunto D3 . Observe que D3
ser
a no numerable y dc D3 c C, en particular dc , dc D3 .
As para cualesquiera dor regiones R1 , R2 en el cuadrado unitario, y las decisiones dR1 = {c |R1 c , c |R1 } y dR2 = {c |R2 c , c |R2 }, se cumplira necesariamente
que dR1 dR2 R2 es m

as creble que R1 (Area(R
2 ) > Area(R1 )).
Adicionalmente, para el caso particular de d = dc y d = dc , por el axioma 1
se tiene que c c c de donde se sigue que d = dc dc dc = d c C.
IT
Como complemento de los primeros cuatro axiomas que son los que en realidad
definen la naturaleza de Teora de la Decision que se presenta en este captulo,
en este punto es conveniente introducir un axioma adicional cuya utilidad es
fundamentalmente tecnica. A partir de los axiomas 1 a 4, la medicion cuantitativa tanto las preferencias como de la incertidumbre puede llevarse hasta el
extremo de confinar su valor numerico en un intervalo arbitrariamente peque
no,
y en la pr
actica esta aproximacion puede ser suficiente. Sin embargo, para poder asignarle un valor preciso y u
nico, condicion que es conveniente para efectos
conceptuales, es necesario introducir el siguiente axioma.
on de decisiones DI = {dR |R I} es densa
Axioma 5. Densidad: La colecci
en D3 , i.e. d D3 R I t.q. d dR .
25
3.2.
ITAM
Definici
on de utilidad
Definici
on 3.2.1. Sea c C, se define la utilidad can
onica u0 (c) como el
una regi
de
on R I t.q. dc dR .
AM
Observe que, puesto que la utilidad canonica se define en terminos del area de
una regi
on en I, entonces necesariamente u0 (c) [0, 1] c C.
Teorema 3.2.1. c C, u0 (c) existe y es u

nico.
Demostraci
on. La existencia de u0 es consecuencia directa del axioma de densidad. Ahora,
c
sean u0 (c) = Area(R

1 ) t.q. dc dR1 = {c |R1 , c |R1 }
c
y u0 0 (c) = Area(R
2 ) t.q. dc dR = {c |R2 , c |R2 }.
2
Por el axioma 1: dR1 dR2 , i.e. R1 es igualmente creble que R2

=
axioma 4
Area(R
1 ) = Area(R2 ) u0 (c) = u0 (c).
Teorema 3.2.2. u0 es creciente con respecto a la relaci

on de preferencia .
Demostraci
on. Sean c1 y c2 t.q. c1 c2 . Se sabe entonces que existen R1 y R2
tales que
u0 (c1 ) = Area(R
1 ) y u0 (c2 ) = Area(R2 )
por tanto, existen tambien dc1 y dc2 tales que

dR1 dc1 dc2 dR2 = dR1 dR2 .
Ahora, si se supone que Area(R

1 ) Area(R2 ) resulta que
dR1 dR2 H. = Area(R

1 ) < Area(R2 ) u0 (c1 ) < u0 (c2 ).
Corolario. u0 (c ) = 0 y u0 (c ) = 1.
IT
Demostraci
on. Como c C, entonces u0 (c ) = Area(R)
donde dR dc . De
donde se sabe que Area(R)

= 0, lo que implica que
u0 (c ) = 0.
An
alogamente para c C se tiene que u0 (c ) = Area(S)
donde dS dc y
Area(S) = 1, por tanto

u0 (c ) = 1.
Observe que si E1 , E2 E y dE1 = {c |E1c , c |E1 }, dE2 = {c |E2c , c |E2 }, entonces dE1 dE2 E2 es mas creble que E1 . Esto es, dE1 dE2 si y solo
si E1 E2 . Donde se utiliza para definir una nueva relacion en E E que
establece el orden de credibilidad entre los eventos inciertos. Adicionalmente, si
E E es tal que dE = {c |E c , c |E} se sabe, por el axioma 5, que existe un R en
I tal que dE dR , lo que implica que E y R son igualmente crebles (E R).
26
3.3.
ITAM
Definici
on de probabilidad
Definici
on 3.3.1. Sea E E un evento incierto relevante, se define la proba
bilidad subjetiva de E en las condiciones H como P (E|H) = Area(R)
donde
R cumple que dR dE bajo las condiciones H.
AM
Teorema 3.3.1. Para todo evento incierto relevante E E y condiciones H,

P (E | H) existe y es u
nica.
Demostraci
on. La existencia de P (E|H) es consecuencia directa del axioma de
densidad. Ahora, sean
P (E|H) =Area(R)
t.q. dE dR = {c |Rc , c |R} y
P 0 (E|H) =Area(S)
t.q. dE dS = {c |S c , c |S}.
Por lo que utilizando el axioma 1, se tiene que dR dS . Esto es, R es igualmente

creble que S.
=
axioma 4
Area(R)
= Area(S)
P (E|H) = P 0 (E|H)
Teorema 3.3.2. (Propiedades de la probabilidad subjetiva).
Sean E y F dos eventos inciertos relevantes en E y las condiciones H, la funci

on
de probabilidad subjetiva cumple las siguientes cuatro propiedades:
1. 0 P (E|H) 1
2. P (|H) = 0
3. P (|H) = 1
4. Si E F = = P (E F |H) = P (E|H) + P (F |H)
IT
Demostraci
on.
1. P (E|H) = Area(R)
donde R I 0 P (E|H) 1
2. Por la propiedad 1, 0 P (E|H) 1. Y por definicion P (|H) = Area(R)

c
donde d dR = {c |R , c |R}. Lo que implica que Area(R) = 0 y por

tanto, P (|H) = 0.
3. La demostraci
on es analoga a la de la propiedad 2.
4. Para el caso en que E = o F = , la conclusion se sigue directamente
de la propiedad 2. En caso contrario, si E, F 6= , sean
P (E|H) =Area(R)
t.q. dE dR = {c |Rc , c |R} y
P (E F |H) =Area(S)
t.q. dEF dS = {c |S c , c |S}.
27
ITAM
Puesto que E y F son disjuntos y F 6= , debe suceder que E E F,

y por tanto E F es mas creble que E (E E F ), lo que implica
que Area(S)
> Area(R).
As, es posible tomar R0 S I tal que
0
Area(R
) = Area(R),
de manera que dR0 dE (E R0 ).
AM
Por otro lado, considere (S\R0 ) = {x I | x S, x

/ R0 }. Observe que,
0
0
0
puesto que R S, resulta que (S\R ) R = S y (S\R0 ) R0 = , y por
0
0
ende Area(S\R
) + Area(R
) = Area(S).
Ademas, es posible expresar la
siguientes relaciones:
dF ={c |F c , c |F },
c
d(S\R0 ) ={c |(S\R0 ) , c |(S\R0 )},

c
dEF ={c |(E F ) , c |(E F )} = {c |E, {c |F c , c |F }|E c } y
c
d(S\R0 )R0 ={c |[(S\R0 ) R0 ] , c |(S\R0 ) R0 }

c
={c |R0 , {c |(S\R0 )c , c |(S\R0 )}|R0 }.
Ahora, dado que E es igualmente creble que R0 , suponer que dF dS\R0

implica que d(S\R0 )R0 dEF . Por lo que dS d(S\R0 )R0 dEF.
Pero por construcci
on dEF dS , lo que constituye una contradiccion.
An
alogamente, tampoco es posible que dF dS\R0 . Entonces, utilizando
el axioma de comparabilidad se cumplira necesariamente que dF dS\R0 ,
0
y as P (F |H) = Area(S\R
), de donde se sigue la conclusion.
El teorema 3.3.2 es extraordinariamente importante. Lo que implica es que en

el marco de la Teora de Decision, los celebres axiomas Kolmogorov para la
Probabilidad ya no son axiomas puesto que se derivan de principios mas basicos
(los axiomas de coherencia). Este resultado da cuenta de la potencia que tiene
la Teora de la Decisi
on.
Principio de la utilidad esperada m

axima
IT
3.4.
Como se discuti
o en el captulo previo, los metodos para resolver problemas de
decisi
on en ambiente de incertidumbre suelen recurrir a la idea de podar el
arbol de decisi
on y tratar el problema como si fuera uno sin incertidumbre. En

los ejemplos con los que estos procedimientos han sido ilustrados ha quedado
claro que estos criterios no necesariamente conducen a una misma solucion, y
m
as a
un, que distintos metodos requieren insumos de informacion diferentes por
parte del tomador de decisiones.
Del an
alisis comparativo entre los criterios considerados, resulta que el el de
utilidad esperada m
axima es el mas costoso en terminos de informacion. Esto
podra sugerir que en ese sentido es un mejor metodo. En esta seccion se
prueba, a partir de los axiomas de coherencia, que el criterio de utilidad esperada
m
axima no es solamente una idea razonable; sino que es el u
nico criterio
28
ITAM
compatible con estos axiomas. De hecho, cualquier otro mecanismo de solucion,

o coincide con este o viola alguno de los axiomas.
AM
Para tal fin, en el contexto de un problema de decision con un n

umero finito
de posibles consecuencias (D, E, C, ), sea d un elemento en D. Esta decision
puede ser representada como
d = {c1 |E1 , c2 |E2 , . . . , ck |Ek },
y considere la primera consecuencia involucrada, c1 C. Como ya se ha mostrado, debe existir R1 I tal que
c1 dR1 = {c |R1 c , c |R1 },
pero entonces, si se considera la opcion

d(1) = {dR1 |E1 , c2 |E2 , . . . , ck |Ek }
se tiene que si ocurre E1c , d y d(1) producen exactamente la misma consecuencia

y por tanto, son igualmente preferibles. Si por el contrario ocurre E1 , d produce
c1 mientras que d(1) produce dR1 , pero c1 dR1 y por tanto d d(1) . Utilizando
entonces el axioma de sustitubilidad, debe ocurrir que simplemente
d d(1) = {c |E1 R1 c , c |E1 R1 , c2 |E2 , . . . , ck |Ek }.
Procediendo an
alogamente para cada i en {1, 2, . . . , k} debe ocurrir que si
d(i) {dR1 |E1 , dR2 |E2 , . . . , dRi |Ei , ci+1 |Ei+1 , ci+2 |Ei+2 . . . , ck |Ek }
entonces d(i) d(i+1) para i = {1, 2, . . . , k 1}. Recurriendo al axioma de

transitividad, se tiene necesariamente que d d(k) , es decir
IT
d {c |E1 R1 c , c |E1 R1 , . . . , c |Ek Rk c , c |Ek Rk }

(
)
k
k
[
[
c
= c |( (Ei Ri )) , c | (Ei Ri ) .
i=1
i=1
De esta forma, ha quedado establecido que para cualquier d D existe otra

opci
on (d(k) ) tal que
i) d d(k)
ii) d(k) es una opci

on con solo dos consecuencias, (c y c ).
En estas condiciones,
sean las decisiones
d1 , d2 D, y los conjuntos definidos
Sk1
Sk2
por A = i=1
(E1i R1i ) y B = i=1
(E2i R2i ), entonces
d1 dA y d2 dB
29
ITAM
donde dA = {c |Ac , c |A} y dB = {c |B c , c |B}. Ahora bien, d1 d2 si y solo

si dA dB . Sin embargo,
dA dB {c |Ac , c |A} {c |B c , c |B}
AM
y puesto que esta u

ltima desigualdad equivale a que A sea menos creble que B
(A B), necesariamente se tiene que
d1 d2 P (A|H) < P (B|H).
Por u
ltimo, observe que
k1
[
P (A|H) = P
!
k1

X

P (E1i R1i |H)
(E1i R1i ) H =

i=1
i=1
pero puesto que los eventos de referencia son independientes de los eventos
inciertos relevantes,
P (A|H) =
k1
X
i=1
P (E1i |H)P (R1i |H) =
k1
X
i=1
u0 (c1i )P (E1i |H).
En otras palabras, P (A|H) coincide con la utilidad canonica esperada asociada

a d1 . Procediendo an
alogamente, es posible verificar que
P (B|H) =
k2
X
i=1
u0 (c2i )P (E2i |H).
En consecuencia,
d1 d2
k1
X
i=1
u0 (c1i )P (E1i |H) <
k2
X
i=1
u0 (c2i )P (E2i |H)
IT
EH {u0 (d1 )} < EH {u0 (d2 )}.
Es decir, la opci
on m
as preferible es la que produce la utilidad esperada maxima
y, por tanto, el u
nico criterio congruente con la axiomatica de Teora de la
Decisi
on es el de utilidad esperada. As, el resultado que se deriva de los axiomas
de coherencia se puede precisar en tres etapas:
Toda forma de incertidumbre debe y puede ser descrita con una medida
de probabilidad.
Para toda consecuencia en el problema se debe y puede asignar un valor
numerico de utilidad.
Una decisi
on es m
as preferible que otra si y solo si su utilidad esperada es
mayor a la utilidad esperada de la otra.
30
ITAM
De esta forma, la teora conduce a que cualquier problema de decision en ambiente de incertidumbre se pueda resolver con un algoritmo u
nico y general:
1. Se asignan las probabilidades de todos los eventos inciertos.
AM
2. Se asigna la utilidad de todas las posibles consecuencias en el problema.

3. Se calcula la utilidad esperada para cada d en D.
Y la soluci
on es la opci
on d? D tal que EH {u0 (d? )} EH {u0 (d)} d D.
Por supuesto, aun resta la discusion sobre la manera de asignar las probabilidades y utilidades en un problema concreto. Este es un tema que se atendera en
el captulo siguiente.
3.5.
Incorporaci
on de informaci
on adicional
Un aspecto muy importante que no se ha discutido hasta ahora, es el hecho de

que la Teora es de naturaleza estatica. Es decir, establece la manera de resolver
los problemas de decisi
on en un momento especfico del tiempo. El asunto no
es menor, puesto que si un mismo problema (D, E, C, ) se enfrenta despues
de que ha ocurrido alg
un tiempo, puede ocurrir que la solucion originalmente
optima deje de serlo. Esto ocurre, por ejemplo, porque algunas opciones que se
consideraban factibles ya no lo son, porque otras opciones que ni siquiera existan

aparecen, o porque las preferencia o el nivel de incertidumbre del tomador de
decisiones se ha modificado.
Ahora bien, debe observarse que la misma receta de utilidad esperada maxima
sigue siendo la u
nica posibilidad compatible con los axiomas para resolver el
problema. Por tanto, si en efecto se producen cambios, esto se debe a que han
cambiado los ingredientes.
IT
En general, estos cambios se pueden interpretar como resultado del arribo de

informaci
on adicional. Y en general, dicha informacion adicional puede tener
dos tipos de impacto en el problema:
De impacto estructural, i.e. se modifica D, E o C
De impacto en creencias o preferencias. i.e. se modifica P o u
Ahora bien, los cambios estructurales habitualmente ocurren independientemente de la voluntad del tomador de decisiones. Por lo que toca a los cambios en
preferencias, estos suelen presentarse de manera esporadica y, generalmente, sin
la intervenci
on consciente del tomador de decisiones.
El tipo de cambio que se distingue de los demas, porque suele ser mucho mas
cum
un y provocado en forma deliberada por el tomador de decisiones es el de
las creencias. Ya se ha discutido, con amplitud, que un problema de decision
31
ITAM
es mucho m
as complejo cuando involucra incertidumbre. En consecuencia, es
razonable que los tomadores de decisiones procuren eliminar, o al menos disminuir, la incertidumbre con la que se enfrentan a un problema de decision.
Entonces, el camino obvio es obtener informacion adicional sobre los eventos
inciertos relevantes.
AM
As pues, en ocasiones la informacion adicional (Z) se puede registrar como

fruto de la observaci
on de una coleccion de variables aleatorias. Esto es, existe
una distribuci
on o funci
on de probabilidad P (Z) P (Z|E, H)que describe a
Z Z. En este caso, es posible utilizar la regla de Bayes para actualizar las
creencias pues
P (E|Z, H) =
P (E Z|H)
P (Z|H)
P (Z|E, H) =
P (E Z|H)
,
P (E|H)
lo que implica que
P (E|Z, H) =
P (Z|E, H)P (E|H)

.
P (Z|H)
Adicionalmente, por la ley de probabilidades totales

P (Z|H) =
r
X
P (Z|H, Ei )P (Ei )
i=1
Donde E1 , E2 . . . , Er es una particion de . Y por tanto

P (Ei |Z, H) =
P (Z|Ei , H)P (Ei |H)

.
r
X
P (Z|H, Ej )P (Ej )
j=1
IT
Observe que P (Ei |Z, H) tiene como argumento al evento incierto Ei y que,
puesto que E1 , E2 . . . , Er forman una particion del evento seguro, su suma debe ser igual a 1. Entonces, P (Z|H) puede ser tratado como una constante de
normalizaci
on, y es posible escribir
P (Ei |Z, H)P (Z|Ei , H)P (Ei |H)
donde el smbolo se lee como es proporcional a.
La interpretaci
on de esta u
ltima expresion es reveladora. P (Ei |H) es la probabilidad que describe el estado de incertidumbre antes de la informacion Z, que se
conoce como la inicial o a priori. P (Ei |Z, H) es la probabilidad que describe el
estado de incertidumbre despues de conocer la informacion Z, y se le llama final
o a posteriori. As, resulta que la final es proporcional al producto de la inicial y
el factor P (Z|Ei , H) que, a su vez, se conoce como la verosimilitud de Ei dado
Z. Este nombre no es casual; como se vera mas adelante, en efecto P (Z|Ei , H)
coincide con la muy conocida funcion de verosimilitud que aparece en los textos
de Inferencia Estadstica.
32
ITAM
AM
Es importante observar tambien que el procedimiento de actualizacion o aprendizaje que transforma una inicial en una final, es de hecho, un proceso secuencial
que se puede repetir cuando despues de una primera pieza de informacion adicional Z se recibe otra m
as Z 0 . As, la inicial P (E|H) se transforma en la final
P (E|H, Z), que en el segundo ciclo juega el papel de inicial para actualizarse con
Z 0 , y poder llegar a la final P (E|H, Z, Z 0 ). Esto bajo las reglas de actualizacion
P (E|H, Z)P (Z|E, H)P (E|H) y
P (E|H, Z, Z 0 )P (Z 0 |E, H, Z)P (E|H, Z).
donde lo m
as notable es que, en general, la verosimilitud en el segundo caso
es condicional en la primera pieza de informacion. Por supuesto, si Z y Z 0 son
condicionalmente independientes dado E, entonces
P (E|H, Z)P (Z|E, H)P (E|H) y
P (E|H, Z, Z 0 )P (Z 0 |E, H)P (E|H, Z).
Ahora, resulta importante se

nalar que, dado que P (E|H, Z, Z 0 ) = P (E|H, Z 0 , Z)
el orden en el que llegue la informacion adicional es irrelevante.
Finalmente, debe resultar evidente que, al igual que a priori una solucion de
Bayes ? es tal que
EP (E) {u0 (d, E)} EP (E) {u0 ( ? , E)}
d D,
an
alogamente, a posteriori una solucion de Bayes sera ? (Z) tal que
EP (E|Z) {u0 (d, E)} EP (E|Z) {u0 ( ? (Z), E)}
d D.
IT
Es interesante insistir en la interpretacion de la u

ltima expresion; una vez que
se cuenta con los datos observados y fijos Z, la solucion optima (de Bayes)
es ? (Z). Naturalmente, si los datos hubieran sido distintos la decision optima
podra haber sido diferente. Esta idea da lugar a la nocion de regla de decision,
que se discute brevemente en la siguiente seccion.
3.6.
Reglas de decisi
on
Considere el espacio de opciones originales D, y denomine D el espacio de todas

las funciones que van de Z a D. Ante la eventualidad de contar con una posible
pieza de informaci
on Z Z el tomador de decisiones puede preguntarse: Cual
es la funci
on o regla que debiera aplicar a los nuevos datos con fin de seleccionar
la opci
on que resuelva el problema original? De hecho, este es un problema en
principio m
as general cuyo arbol de decision aparece en la figura 3.1. A una
funci
on de este tipo se le conoce como regla de decision y su definicion formal
es la siguiente.
Definici
on 3.6.1. Sea Z el espacio de resultados de un experimento, cualquier
funci
on : Z D se conoce como Regla de Decisi
on
33
ITAM
AM
Figura 3.1: Rama tpica del

arbol de decision bajo reglas de
decision.
Como se puede observar en la figura 3.1, una vez que se elige una regla de decision
() un nodo de incertidumbre determina la informacion con la que se contara y,
como resultado, la decisi
on que sera seleccionada. En ese momento, otro nodo de
incertidumbre produce el evento incierto relevante y este, a su vez, conducira a
la consecuencia. Conceptualmente, se puede pensar en que el problema original
(D, E, C, ) se transforma en el nuevo problema (D, E Z, C, ) este u
ltimo,
con representado por el
arbol de decision de la figura 3.2.
(Z,E)

arbol de decision bajo reglas de
decision para el problema modificado.
De esta forma, es claro que ? es optima si y solo si maximiza, sobre D, la

utilidad esperada
Z Z
E{u(, Z, E)} =
u ( (Z) , E) P (E, Z) dEdZ.
IT
Al respecto, es de interes observar que

Z Z
Z Z
u((Z), E)P (E, Z) dEdZ =
u((Z), E)P (E|Z)P (Z) dEdZ
Z

Z
= P (Z)
u((Z), E)P (E|Z) dE dZ,
de manera que, si para cada Z fija en Z se elige la opcion d?Z en D tal que
Z
Z
u(d, E)P (E|Z)dE u(d?Z , E)P (E|Z)dE d D,
entonces, si se define ? (Z) = d?Z Z Z se tiene que
Z

Z

Z
Z
?
P (Z)
u(d(Z), E)P (E|Z) dE dZ P (Z)
u(dZ , E)P (E|Z) dE dZ.
Es decir E{u(, Z, E)} E{u( ? , Z, E)}, y por tanto ? es la solucion de Bayes

para el problema de elegir una regla de decision optima. Este resultado es particularmente interesante porque significa que el problema de encontrar la mejor
34
ITAM
regla de decis
on ? se puede resolver encontrando, para cada Z, la mejor decision
?
dZ .
AM
Existe otro concepto que es conveniente explorar en este punto. Considere un

problema de decisi
on (D, E, C, ), e imagine que la correspondiente solucion de
Bayes no es u
nica. Suponga, por ejemplo, que existen d1 y d2 en D tales que
E{u(d1 , E)} = E{u(d2 , E)} y que E{u(di , E)} E{u(d, E)} d D y i = 1, 2.
Es decir, suponga que d1 y d2 son dos soluciones de Bayes para el mismo problema. En estas condiciones, el tomador de decisiones podra seleccionar cualquier
decisi
on, d1 o d2 , y la solucion sera optima. Una pregunta interesante sera la
siguiente: Que pasa si cada vez que deba tomar una decision en este contexto,
el tomador de decisiones lanza una moneda y, dependiendo del resultado, elige
d1 o d2 ?
Puesto que tanto d1 como d2 son optimas, la introduccion del volado no debiera
impactar la calidad del resultado. De hecho, esta idea se emplea en el ambito de
teora de juegos, en donde ademas de maximizar la utilidad se lograra que el
oponente no pueda anticipar con precision la jugada. En el caso de una decision
no hay un oponente, as que ese efecto no es un fin en s mismo pero, en cualquier
caso, la idea puede explorarse con otros propositos.
As, en el caso en que D es finito, puede definirse el concepto de una regla de
decisi
on de la siguiente forma:
Definici
on 3.6.2. Sea D un espacio de decision finito de cardinalidad k con
elementos d1 , d2 , . . . , dk , y sea P unaP
distribuci
on de probabilidad definida sok
bre {1, 2, . . . , k} tal que Pi 0 i y i=1 Pi = 1. Entonces, a un mecanismo
que selecciona la decisi
on di con probabilidad Pi se le conoce como regla de
decisi
on aleatorizada sobre D.
Naturalmente, esta definici

on se puede extender sin problema al caso en que el
espacio de decisi
on es infinito, e incluso no numerable, pero para el proposito
de esta introducci
on basta considerar el caso finito.
IT
Observe que, una regla de decision aleatorizada constituye una combinacion

lineal convexa de elementos en D. Esto es, si a partir del problema original
(D, E, C, ) se busca elegir la regla de decision aleatorizada optima, entonces,
este problema puede representarse como (D(A) , E, C, ), donde D(A) denota el
conjunto de todas las decisiones aleatorizadas. As, una rama tpica del arbol de
decisi
on correspondiente se observa en la figura 3.3. Como puede observarse en
esta figura, elegir en D(A) equivale a elegir una distribucion de probabilidades
P sobre D, por lo que al aplicar el criterio de utilidad esperada se obtiene que
E{u(, E)} =
k
X
Pi E{u(di , E)}.
i=1
de forma que la utilidad esperada de es una combinacion lineal convexa de las

utilidades esperadas de d1 , d2 . . . , dk .
35
ITAM
Ei1
Ei2
di
cin
Figura 3.3: Rama tpica del arbol de

decision bajo reglas de decision aleatorizadas.
AM
Ein
i
ci1
ci2
Algunas preguntas que son de interes cuando se consideran decisiones aleatorizadas son las siguientes: Es posible alcanzar una mayor utilidad esperada?
Es posible encontrar nuevas soluciones optimas al problema? Las respuestas a
estas preguntas se examinan en la lista de ejercicios al final de este captulo.
3.7.
Extensiones del espacio del problema de decisi

on
Hasta ahora se ha examinado el caso en que D es un conjunto finito y, de hecho,

tambien se ha considerado una coleccion finita de eventos inciertos E. En este
apartado se comenta brevemente el tipo de consideraciones adicionales que se
requieren para extender los resultados a situaciones mas generales.
IT
Si D es infinito, la b
usqueda del maximo de la utilidad esperada debe
contemplar el hecho de que la utilidad canonica esta acotada y en consecuencia la utilidad esperada tambien lo esta. As queda garantizada la
existencia de, al menos, un supremo de la utilidad esperada, y en el peor
de los casos, ser
a posible obtener una opcion cuya utilidad esperada sea
arbitrariamente cercana al correspondiente supremo. En este caso, dependiendo de si D es discreto o continuo, la funcion g(d) = E{u(d, E)} puede
maximizarse con metodos de optimizacion discreta, o incluso de calculo
diferencial si g satisface las propiedades necesarias.
Si la colecci
on de eventos inciertos relevantes E es infinita, la distribucion
P (E) puede corresponder a un modelo de probabilidad discreto con soporte numerable o bien a un modelo de probabilidad continuo. Aqu, de
nuevo, el hecho de que la utilidad canonica es acotada, garantiza que la
utilidad esperada existe para toda d D.
Evidentemente, la determinacion de la probabilidad de todos, y cada uno,
de los elementos de la coleccion de eventos relevantes no es factible. La
alternativa es identificar este valor para un reducido conjunto de eventos,
utilizando el mecanismo que se presentara en la seccion 4.2, y a partir de
esta informaci
on, proponer un modelo que produzca una aproximacion a
todas las probabilidades requeridas.
36
3.8.
ITAM
Ejercicios
AM
Ejercicio 3.1. Considere un problema de decisi

on en ambiente de incertidumbre
con estructura: D = {d1 , d2 }, E = {E1 , E2 }, y C = {c11 , c12 , c21 , c22 }. Suponga
que P (E1 ) = P (E2 ) y que las consecuencias se registran con valores numericos
de manera que ci es menos preferible que cj (ci cj ) si y s
olo si ci < cj . Si
adem
as se tiene que
c11 =
1
,
2
c12 =
1
+ ,
2
c21 =
1
2
2
c22 =
1
+ 3
2
Con una constante estrictamente positiva tal que todas las consecuencias son,
a su vez, estrictamente positivas. Si la utilidad de las consecuencias se mide con
la funci
on identidad (u(c) = c), entonces
a) Construya el
arbol de decisi
on correspondiente.
b) Demuestre que el criterio optimista conduce a elegir d2 como la decisi

on
optima para cualquier valor de .
c) Demuestre que el criterio pesimista conduce a elegir d1 como la decisi

on
d) Demuestre que el criterio de la utilidad esperada conduce a elegir d2 como

la decisi
on
Si alternativamente, la utilidad de las consecuencias en este problema se miden

con una funci
on mon
otona creciente g del valor de las consecuencias, (u(c)=g(c)).
Por facilidad, considere el caso en que g(c) = ln(c).
IT
e) En el caso del criterio de la utilidad esperada, demuestre que para diferentes valores de la decisi
on
optima puede variar o incluso pueden
ser las dos decisiones igualmente preferibles. Explique las causas de este
fen
omeno y la importancia de este resultado.
Ejercicio 3.2. Considere el problema de decisi

on en donde el espacio de opciones consta de r posibles alternativas. Suponga adem
as que la partici
on de eventos
inciertos es la misma para cada una de ellas (con s elementos). Si tiene una
funci
on de perdida que describe las preferencias entre las posibles consecuencias
y una funci
on de probabilidad i = (Ei ) para cada i = 1, 2, . . . , s.
a) Para el caso en que s = 2, represente equem
aticamente el llamado conjunto
de perdida, es decir el conjunto de los puntos que representan vectorialmente las perdidas en las que se puede incurrir para cada opci
on.
b) Verifique el hecho de que dos opciones tienen la misma perdida esperada
si y s
olo si yacen sobre la misma recta (hiperplano en el caso general)
perpendicular al vector (1 , 2 ).
37
ITAM
c) Cual es el lugar geometrico de todas las decisiones equivalentes bajo el

criterio minimax?
AM
d) Tomado en cuenta el resultado del inciso anterior, Cu

ales decisiones en
D, en la gr
afica, podran ser soluciones de Bayes para alguna distribuci
on
inicial?
e) cu
antas posibles decisiones aleatorizadas se podran construir en este caso?
f ) Sin olvidar que la partici
on es la misma para todas las opciones y que
el n
umero de eventos inciertos relevantes s, es 2, sugiera una manera de
representar en el diagrama que construy
o en el inciso a), las decisiones
aleatorizadas.
g) Cu
ales decisiones aleatorizadas podran ser soluciones de Bayes si se
agranda D para incluirlas junto con las decisiones originales? En d
onde
se localizaran dentro de su diagrama?
Ejercicio 3.3. El sentido com

un sugiere que la soluci
on a un problema de decisi
on en ambiente de incertidumbre no debiese ser una decisi
on inadmisible, y
entonces surge la conveniencia de eliminar, como un primer paso, las decisiones
inadmisibles al resolver este tipo de problemas. Una propiedad de la soluci
on Bayesiana (utilidad esperada m
axima) es que, a
un si no se eliminan previamente
las decisiones inadmisibles, la soluci
on de Bayes es siempre admisible. Demuestre esta afirmaci
on en una situaci
on en donde cada opci
on tiene un n
umero
finito de consecuencias. Suponga adem
as, por facilidad, que los eventos inciertos relevantes son los mismos para cada opci
on y que todos tienen probabilidad
de ocurrencia estrictamente positiva. C
omo modificara la demostraci
on si las
particiones de eventos inciertos no fueran iguales para todas las opciones?
IT
Ejercicio 3.4. Considere el siguiente problema de decisi

on. En un juego, se
tiene un conjunto de 9 cartas que contienen: 2 ases, 3 reyes y 4 sotas. Al jugador,
que paga 150 pesos por el derecho a jugar, se le entrega una carta al azar de
entre las nueve, una vez con esa primera carta en su poder, puede optar por pedir
otra o bien pasar. Si decide pasar pierde su entrada, mientras que si decide pedir
otra carta las recompensas se pagan de acuerdo a la siguiente tabla:
Cartas
2 ases o 2 reyes
2 sotas o 1 as y 1 sota
Otras combinaciones
Recompensa
2, 000
1, 000
1, 000
Describa la estructura del problema y obtenga la decisi

on
optima (de Bayes)
para un jugador que ya pag
o su derecho de juego bajo los siguientes escenarios
a) Si resuelve decidir sin mirar la primera carta.
38
ITAM
b) Si resuelve decidir s
olo despues de observar la primera carta.
c) C
omo comparara los resultados de a) y b)?
Diga adem
as
AM
d) Participara usted en el juego?

e) Con que estrategia?
Ejercicio 3.5. Un equipo mexicano de beisbol est

a sufriendo por la falta de asistencia de fan
aticos a sus partidos. Antes de cambiar de sede (como los Tigres),
los due
nos est
an intentando decidir si emprenden una campa
na de promoci
on
que tiene un costo de 15 millones de pesos antes de que inicie el siguiente (y
posiblemente u
ltimo) torneo. Saben que la asistencia del p
ublico a los estadios
depende, adem
as del efecto de la campa
na, del desempe
no del equipo. A partir de la experiencia se considera que, si es la proporci
on de partidos que el
equipo finalmente gana a lo largo del torneo futuro, los ingresos por asistencia
ser
an de 20 + 20 millones de pesos si no lanzan la campa
na. En caso contrario
(si emprenden la campa
na) entonces los ingresos por asistencia a los estadios
ser
an de 25 + 40millones de pesos. Adem
as, tienen el dato de que si el equipo logra ganar al menos el 75 % de sus partidos entonces pasar
a a las finales,
en cuyo caso tendr
a asegurados ingresos adicionales por 10 millones de pesos.
Suponga que la utilidad es directamente proporcional al dinero y considerando,
como primera aproximaci
on, que la incertidumbre sobre se describe con una
distribuci
on uniforme en (0, 1).
a) Describa la estructura del problema.
b) Encuentre la soluci
on Minimax.
c) Encuentre la soluci
on de Bayes.
IT
Si ahora la funci
on de densidad de est
a dada por f () = (a + 1)a en (0, 1),
d) Cu
ales son los valores del exponente a que conducen a lanzar la campa
na
publicitaria con el criterio de Bayes?
Ejercicio 3.6. Si en el problema 3.5 se plantea una funci

on de probabilidad
para totalmente general (en el intervalo (0, 1)),
a) Que aspectos de esa distribuci
on influyen en la soluci
on si el problema
se resuelve por el criterio de Bayes?
b) Podra sugerir una decisi
on robusta, es decir que funcione independientemente de la distribuci
on de la que se trate?
c) Que tan relevantes son los ingresos que se obtendran en caso de pasar a
las finales?
39
ITAM
Ejercicio 3.7. Suponga que un usuario del Servicio Postal se encuentra con que
hay dos tipos de servicio que puede emplear para realizar sus envos: Ordinario
y Express. El costo para el paquete especfico que desea enviar es de 800
o 1, 000
pesos seg
un elija el servicio Ordinario o Express.
AM
Adem
as sabe que, de acuerdo a los registros del Servicio Postal, de cada 1000
envos que se realizan por servicio Ordinario, 301 llegan a su destino la ma
nana
siguiente, 299 lo hacen la tarde siguiente, 287 lo hacen la segunda ma
nana y
113 lo hacen la segunda tarde; de igual manera, conoce que los n
umeros para el
servicio Express son 451, 369, 140, y 40 respectivamente.
IT
Si en esta ocasi
on el usuario esta dispuesto a pagar hasta 2, 000 pesos si su
paquete llega con toda seguridad la ma
nana siguiente, hasta 1, 600 pesos si llega
con certeza la tarde siguiente, 1, 200 si lo hace la segunda ma
nana y 800 la
segunda tarde, describa el problema del usuario como uno de decisi
on y analcelo
para obtener una soluci
on
optima.
40
AM
Captulo 4
Probabilidad y utilidad
4.1.
Probabilidad subjetiva
A diferencia del punto de vista Frecuentista, en la Teora Bayesiana no es necesario que un evento sea aleatorio (en el sentido en que sus resultados se presentan
con variabilidad) para que se le pueda asignar una probabilidad; el aspecto que
es relevante es que exista incertidumbre sobre la eventual ocurrencia del evento.
Ejemplo 4.1.1. Considerar el evento E = Manuel Mendoza vive a m
as de
10Km del Instituto Tecnol
ogico Aut
onomo de Mexico (ITAM).
El evento E no es aleatorio (suponiendo que Manuel no se muda todos los das).

Sin embargo, para alguien que desconoce su direcci
on el evento E es incierto, y
por lo tanto, puede asignarle una probabilidad subjetiva P (E).
Asignaci
on de la probabilidad inicial
IT
4.2.
Si se considera un evento incierto E, para determinar la probabilidad P (E) es

posible someter al tomador de decisiones a un proceso de decisiones secuenciales
a partir de loteras para obtener, as sea aproximado, el valor de esta probabilidad. Tomando dE = {c |E c , c |E} y dp = {c |1 p, c |p} y puesto que
u0 (c ) = 0 y u0 (c ) = 1, se tiene que
E{u(dE , E)} = P (E)u0 (c ) + P (E c )u0 (c ) = P (E)
E{u(dP , E)} = p
As, si adem
as ocurre que dE dp entonces, necesariamente P (E) = p. Esta
condici
on sugiere un algoritmo para la b
usqueda de P (E). Si se toma p = 12 y
ocurre que dp dE entonces, a partir de los axiomas de coherencia, se puede
41
ITAM
asegurar que
P (E)

1
, 1 .
2
AM
Continuando con la misma idea, se puede tomar P = 34 y proceder analogamente

hasta que se acote el valor de P (E) en un intervalo suficientemente peque
no para
ser u
til en la pr
actica. Finalmente, se puede tomar P (E) igual al punto medio
del intervalo obtenido.
En general, se trata de un metodo de b

usqueda de biseccion en el que se puede
establecer arbitrariamente, y de antemano, el grado de precision deseado.
4.3.
Distribuciones no informativas
Un caso especial y muy interesante en la asignacion de probabilidades iniciales

ocurre cuando el tomador de decisiones considera que su informacion subjetiva
es muy vaga, o cuando contando con informacion subjetiva clara desea reportar
sus resultados tanto incorporando esta informacion como excluyendola. Este segundo escenario se puede presentar, por ejemplo, en el ambito de la investigacion
cientfica, cuando se persigue el proposito de transparentar explcitamente el peso relativo en las conclusiones de un estudio que tiene la informacion adicional
Z y la asignaci
on inicial P (E).
La idea original en estas circunstancias fue recurrir al empleo de iniciales que

puedan interpretarse como descripciones de un estado de poca informacion (conocimiento vago). En un extremo, se llego a denominar a las iniciales de este
tipo como mnimo informativas, o incluso no informativas, por razones obvias.
M
as recientemente, se ha aceptado que el concepto de mnima o nula informaci
on no ets
a unvocamente definido, y por esta razon se utiliza cada vez mas
frecuentemente el termino de distribuciones de referencia para estas iniciales.
IT
Existe una larga lista de contribuciones en la literatura cuyo objetivo es proponer

distribuciones de este tipo. Probablemente el intento mas celebre sea el de P.
S. Laplace quien introdujo el llamado Principio de la razon insuficiente, que
aplica en el caso de un fen
omeno con un n
umero finito de posibles resultados,
y que establece que ante la ausencia de informacion no hay razon para que un
resultado posible reciba una asignacion de probabilidad distinta de otro. En
otros terminos, la ignorancia se representa con una distribucion U nif orme.
Criterio de la raz
on insuficiente Si E1 , E2 . . . Ek son eventos inciertos relevantes y no hay raz
on para creer mas en la ocurrencia de uno sobre otro entonces
P (Ei ) = k1 i = 1, . . . , k.
Es interesante observar que, cuando en los juegos de azar, por ejemplo el lanzamiento de una moneda o un dado, se dice que la moneda o el dado son honestos,
lo que se supone es que sus resultados siguen una distribucion uniforme, es decir
no informativa.
42
4.4.
ITAM
Utilidad y p
erdida
AM
En la secci
on 3.2 se introdujo el concepto de utilidad canonica, esta funcion de
utilidad es sumamente conveniente pues provee al tomador de decisiones de una
forma para calcular la utilidad esperada de una decision, y por tanto encontrar
la soluci
on de Bayes para cualquiera que sea el problema al que se enfrente. Esto
es
r
X
E{u(d, E)} =
u0 (cj )P (Ej ).
j=1
Sin embargo, en la pr
actica existen algunos problemas en los que se podra
estar interesado en utilizar una funcion de utilidad distinta a la canonica. Un
resultado interesante, que ademas es facil de comprobar, es que se puede utilizar
cualquier transformaci
on lineal de u0 , es decir
E{u(d, E)} =
r
X
u(cj )P (Ej )
j=1
donde u(cj ) = au0 (cj ) + b con a, b <, y la solucion del problema sera afectada
exclusivamente por el valor de a en la siguiente manera:
Si a > 0 la soluci
on no cambia
Si a = 0 no refleja el problema original
Si a < 0 la soluci
on
optima se obtiene minimizando E{u(d, E)}
En el caso en que a < 0 a u(c) se le conoce como funcion de perdida y generalmente se denota por L(c). De hecho, en muchas ocasiones resulta mas facil o
pr
actico utilizar una funci
on de perdida en lugar de su correspondiente funcion
de utilidad.
IT
Ejemplo 4.4.1. Considere el ejemplo 2.3.1 de las elecciones parlamentarias

brit
anicas, recuerde que en este caso, debido a que las consecuencias son de
entrada numericas, es posible resolver el problema directamente utilizando la
identidad como funci
on de utilidad. Esto es, maximizando sobre J = {l, c} la
utilidad esperada E{u(dj , E)} = cj1 P (E1 ) + cj2 P (E2 ) con j J, que como ya
se ha visto tiene soluci
on dada por dc P (E1 ) 5/12.
Observe que, alternativamente se podra haber resuelto el problema utilizando la
funci
on de perdida L(cjk ) = u(cjk ) = cjk con j J y k {1, 2}, lo que lleva
a minimizar la perdida esperada, es decir
Apostar por los conservadores E{L(dc , E)} {L(dc , E)}
1 7/4P (E1 ) 5/4P (E1 ) 1/4E
5/12 P (E1 ).
Verificando que la soluci

on se mantiene inalterada a pesar del cambio en la
elecci
on de la funci
on de utilidad.
43
4.5.
ITAM
Asignaci
on de la utilidad
AM
Al igual que con las creencias, para determinar la funcion de utilidad canonica
del tomador de decisiones, es posible someter a este a un proceso interrogatorio
mediante loteras que genere un proceso de biseccion. As, para toda consecuencia c C tal que c c c , se puede enfrentar al tomador de decisiones a
la elecci
on entre dr = {c |Rc , c |R} y dc = {c|Rc , c|R}, donde R es un evento
de referencia que inicialmente cumple que Area(R) = r. De esta manera, si
originalmente se toma r = 21 y sucede que dr dc entonces, necesariamente se
cumple que

1
u(c)
,1
2
Continuando con la misma idea, se puede modificar R para que cumpla con
alogamente hasta que se acote el valor de u(c) en un
que r = 34 y proceder an
intervalo suficientemente peque
no para ser u
til en la practica. Finalmente, se
puede tomar u(c) igual al punto medio del intervalo obtenido.
4.6.
Utilidad del dinero
Como ya se ha indicado, existen problemas en los que las consecuencias tienen,

directamente, una naturaleza numerica y ese valor preserva el orden de preferencias del tomador de decision. Un ejemplo es el problema del contenedor que
se discuti
o en la secci
on 2.1.
Una clase de problemas, con o sin incertidumbre, donde esto ocurre es la que se
tiene cuando todas las consecuencias se registran en un valor monetario. Aqu,
una pr
actica com
un es considerar u(c) = c para cualquier cantidad de dinero c,
o u(c) = c en caso de que se tratase de perdidas.
IT
Sin embargo, en la pr
actica se ha observado que esta forma de asignar la utilidad
no es, en general, apropiada. Si efectivamente este fuera el caso, todos los tomadores de decisi
on tendran la misma actitud de preferencia frente al dinero. Y
en particular, si a cada uno se le sometiera al proceso descrito en la seccion anterior, el resultado sera una lnea recta que pasa por los puntos (c , 0), y (c , 1),
donde c y c son las cantidades mnima y maxima de dinero involucrado.
Ahora bien, esto significa que si se toma c = c +c

necesariamente
2 , entonces

u(c) = 12 . Pero entonces, si se define d 12 = c | 12 , c | 12 debe cumplirse que

c d 21 puesto que Eu d 12 = 12 . En otras palabras, todo tomador de decisiones sera indiferente entre una opcion que le garantiza la cantidad c, y una
con incertidumbre que le ofrece c con probabilidad 12 y c con esta misma
probabilidad.
En contraste, distintos experimentos han mostrado que diferentes personas, sin

dejar de ser coherentes, reaccionan diferente frente a las opciones c y d 21 . Mien44
ITAM
tras algunos prefieren la cantidad segura, otros prefieren arriesgarse con d 12 con
la esperanza de obtener c e incluso, posiblemente unos mas sean efectivamente
indiferentes entre estas opciones.
AM
M
as a
un, un mismo tomador de decisiones coherente puede preferir c, d 12 , o
incluso ser indiferente entre ambos si los valores de c y c se modifican lo suficiente.
De hecho, cuando un tomador de decisiones prefiere sistematicamente las opciones seguras, se le llama adverso al riesgo; cuando por el contrario prefiere
la incertidumbre con la ilusion de alcanzar una recompensa mayor, se dice que
es amante al riesgo; y si es indiferente en situaciones como la descrita se le
denomina neutral al riesgo.
En la gr
afica 4.1a se exhiben tres posibles formas de la utilidad del dinero. En
estas, cada una tiene un tipo distinto de preferencia por el dinero. En un caso
general, incluso estos patrones se pueden combinar en una misma funcion de
utilidad como la presentada en la grafica 4.1b
De esta forma, se puede observar que los u

nicos tomadores de decisiones para los
cuales es conveniente una utilidad del dinero de la forma u(c) = c son aquellos
neutros frente al riesgo. Vale la pena insistir en que la condicion de neutralidad
(al igual que las otras) depende de la diferencia c c .
Amante al riesgo
Adverso al riesgo
Neutral al riesgo
Amante al riesgo
Neutral al
riesgo
U(c)
IT
U(c)
Adverso al riesgo
0.0
0.4
0.6
(a)
(b)
Figura 4.1: Formas de la funcion de utilidad del dinero.
45
1.0
4.7.
ITAM
Ejercicios
Ejercicio 4.1. Sea W la temperatura en grados centgrados que se registr

a, al
pie del asta bandera de ITAM, el da de ma
nana a las 17 : 30 horas.
AM
a) Determine el valor a tal que, en su opini

on, P (W a) = 0,5
b) Determine el valor b tal que, en su opini

on, P (W b) = 0,25
c) Determine el valor c tal que, en su opini
on, P (W c) = 0,9
d) Utilizando la informaci
on de los apartados a) y b) encuentre una distribuci
on Normal que se asigne a sus asignaciones. Cu
antas existen?
e) Confrontando c) con d), Encuentra concordancia? En caso negativo,
Cu
al cree que sea la causa?
Ejercicio 4.2. Considere los siguientes tres eventos: A1 es el evento de que

el primer Doctor en Estadstica mexicano (Dr. Basilio Rojas) haya obtenido el
grado doctoral antes de 1955; A2 es el evento de que lo haya obtenido entre 1955
y 1975. Finalmente, A3 es el evento de que lo haya obtenido despues de 1975.
a) Por lo pronto, y u
nicamente con la informaci
on al momento de leer el
p
arrafo anterior, asigne sus probabilidades a los eventos Ai : i = 1, 2, 3.
b) Reconsidere sus probabilidades tomando en cuenta la siguiente informaci

on: en 1970 obtuvo el grado doctoral el cuarto Doctor mexicano en Estadstica (Dr. Ignacio Mendez).
c) Reconsidere una vez m
as. Ahora se le informa que el Dr. Federico OReilly,
veterano pero plenamente activo en el campo, obtuvo su grado doctoral en
Estadstica por la North Carolina State University en 1971.
IT
d) Comente sobre el impacto de la informaci

on de los incisos b) y c) en la
asignaci
on inicial en a).
Ejercicio 4.3. Considere el siguiente juego de azar: una moneda se lanza tantas
veces como sea necesario hasta que aparece un sol por primera vez. Entonces,
se registra el n
umero r de lanzamientos que se han efectuado y el jugador, a
cambio de un boleto de entrada, recibe como premio la cantidad de 2r pesos.
a) Calcule el premio esperado del juego.
b) Si se plantea el problema de decidir si compra el boleto (d1 ) o no lo compra
(d2 ) para participar en este juego, y la utilidad se mide exclusivamente en
terminos monetarios, diga cu
al sera su decisi
on en funci
on del precio del
boleto.
Ejercicio 4.4. Considere nuevamente el juego del problema 4.3, modificado en

forma que ahora el jugador recibe un premio de 2r pesos.
46
ITAM
a) Demuestre que el premio esperado es infinito.

b) Nuevamente, si la utilidad se mide solamente en terminos econ
omicos,
Comprara el boleto para participar en este juego?
AM
c) C
omo explica que pr
acticamente ninguna persona est
a dispuesto a pagar
m
as all
a de una peque
na suma de dinero por el boleto?
Ejercicio 4.5. Luis Enrique contempla la posibilidad de viajar a Belo Horizonte, Brasil, donde espera entrevistarse con la Dra. Rosangela Loschi, una exitosa
mujer de negocios radicada en esta ciudad, para proponerle la compra de una
plataforma para el desarrollo de aplicaciones de an
alisis estadstico Bayesiano.
Si consigue su objetivo, ganar
a una comisi
on de 60, 000 pesos.
Ahora bien, la Dra. Loschi viaja mucho y Luis Enrique considera que con una
probabilidad de 0,4 puede ocurrir que, si viaja a ese pas, la Dra. Loschi tenga
que salir de Brasil y, por tal causa, no sea posible celebrar la entrevista ni realizar
la venta. Por otra parte, a
un en el caso en que se produzca la entrevista, Luis
Enrique considera que la probabilidad de realizar la venta es de 0,7. El viaje a
Belo Horizonte cuesta 8, 000 pesos y sale del bolsillo de Luis Enrique.
a) Tomando en cuenta que su interes en estrictamente econ
omico y, por facilidad, suponiendo que en el intervalo de montos considerado, la funci
on de
utilidad del dinero se puede considerar lineal Le conviene a Luis Enrique
viajar a Belo Horizonte?
IT
Adicionalmente, resulta que una agencia de informaci

on, propiedad de Eduardo, ofrece sus servicios a Luis Enrique. Le asegura que le podr
a informar, antes
de que emprenda el viaje hacia Belo Horizonte, si la Dra. Loschi se encontrar
a ah cuando el llegue a esa ciudad. La agencia se autocalifica como altamente confiable y funda esa calificaci
on en su registro hist
orico de aciertos. De
acuerdo a este registro, si una persona efectivamente est
a en la ciudad designada, la agencia lo informa correctamente un 90 % de la veces; por otro lado, si
la persona sale de la ciudad, la agencia detecta su ausencia en un 80 % de los
casos. El servicio de la agencia cuesta 5, 000 pesos.
b) Le conviene a Luis Enrique contratar el servicio de la agencia de Eduardo?
c) Debe viajar cuando la agencia le dice que la Dra. Loschi s va a estar en
Belo Horizonte?
d) Cu
al es el precio m
aximo que Luis Enrique debera estar dispuesto a
pagar a la agencia de Eduardo por la informaci
on que le ofrece?
Ejercicio 4.6. Una editorial est

a considerando lanzar una revista mensual con
artculos de interes para inversionistas. Ya cuenta con un plan de producci
on,
distribuci
on y promoci
on concreto y, como es habitual, las ganancias del proyecto
dependen de la demanda que tenga la revista. El gerente de la editorial considera
47
ITAM
por facilidad, tres escenarios alternativos: una demanda baja (B), una demanda
moderada (M) y una demanda alta (A). Adem
as con base en su experiencia
asigna las probabilidades P (B) = 0,3, P (M ) = 0,5 y P (A) = 0,2. Finalmente,
considera un horizonte de un a
no en el que las ganancias del proyecto en pesos
seran:
Ganancia
7, 500, 000
1, 500, 000
9, 000, 000
AM
Demanda
Baja
Moderada
Alta
Si por facilidad se considera que la utilidad est

a convenientemente medida a
traves del dinero y en caso de no lanzar la revista no hay ganancia ni perdida,
a) Identifique la estructura del problema y verifique si existe alguna decisi

on
inadmisible.
b) Encuentra la soluci
on minimax y el valor minimax.
c) Encuentre la soluci
on de Bayes y el valor de Bayes.
d) Represente gr
aficamente el conjunto de todas las distribuciones de probabilidad para las cuales coinciden las soluciones minimax y de Bayes.
Suponga ahora que un subgerente se presenta afirmando que s se debe lanzar

la revista, y apoya su aseveraci
on en el hecho de que realiz
o una prueba de
aceptaci
on de la nueva publicaci
on a traves de una encuesta y el resultado fue
favorable (F). Si se sabe que P (F | B) = 0,1, P (F | M ) = 0,6 y P (F | A) = 0,7,
IT
e) Incorporando la informaci
on de la encuesta adicional, Usted tambien lanzara la revista?
48
AM
Captulo 5
La inferencia como
problema de decisi
on
Los problemas cl
asicos de la inferencia parametrica que aparecen en los textos
m
as comunes son: estimaci
on puntual, estimacion por regiones y contraste de
hip
otesis. Tradicionalmente, ademas, se presentan en ese orden atendiendo una
l
ogica de simplicidad en las tecnicas y conceptos necesarios para su solucion.
Como se ver
a en lo que resta de este captulo, desde una perspectiva Bayesiana,
el problema que tiene una estructura mas sencilla es el de contraste de hipotesis;
los problemas de estimaci
on puntual y por intervalos tienen una estructura un
poco m
as compleja, pero con el antecedente de contraste de hipotesis pueden
ser abordados sin dificultad.
IT
Una novedad es la introduccion de otro problema basico de inferencia que no

aparece en los textos introductorios, aquel de pronosticos, puntuales y por intervalos, que resultan casi triviales una vez que ya se han discutido los de estimacion
correspondientes.
5.1.
Contraste de hip
otesis
Sea X una v.a. con funci

on de densidad de probabilidad generalizada (f.d.p.g.)
P (x | ), = {0 , 1 } y P (x | ) tiene distribucion conocida. Se desea
contrastar las hip
otesis parametricas simples H0 : = 0 vs H1 : = 1 .
Considere un problema de decision donde los elementos del conjunto de eventos
inciertos relevantes est
an dados por
E0 = P (x | 0 ) es el modelo que mejor representa la realidad y
E1 = P (x | 1 ) es el modelo que mejor representa la realidad
y en el que el conjunto de decisiones esta dado por D = {d0 , d1 } donde d0

49
ITAM
representa describir a X con P (x | 0 ) y d1 describir a X con P (x | 1 ).
Como ya se sabe, este problema puede ser representado graficamente mediante

el
arbol de decisi
on, presentado en la figura 5.1.
c00
AM
E0
d0
d1
E1
c01
E0
c10
E1
Figura 5.1: Arbol

de decision para el problema de
contraste de hipotesis.
c11
As, la ocurrencia del evento E0 implicara que la hipoteis H0 es verdadera y,

por el contrario, si sucediera E1 , entonces H1 sera correcta. De esta manera,
contrastar las hip
otesis H0 v.s. H1 implica elegir entre d0 y d1 .
Ahora, observe que a pesar de ser un valor fijo, es desconocido y por tanto,
como se discuti
o en el captulo anterior, es posible asignarle una medida subjetiva de probabilidad P () que describa la incertidumbre que se tiene sobre el
par
ametro . De esta manera, se denota P0 = P (E0 ) = P (H0 ) = P ( = 0 ) y
an
alogamente P1 = 1 P0 = P (E1 ) = P (H1 ) = P ( = 1 ).
Adicionalmente, sea l = L(c) la funci
on de perdida, y lij = L(cij ). Y
puesto que acertar debe ser preferido a cometer cualquier tipo de error,
necesariamente se deber
a cumplir que
c10 c00 , c01 c00 y tambien que
c10 c11 , c01 c11 .
Naturaleza
H0
H1
Acierto
d0
Finalmente, se puede suponer que

l00 = l11 = c. Es decir, que acertar eligiendo d0 es igualmente preferido que hacerlo eligiendo d1 , y por
tanto E{L(d0 |E)} = P0 l00 + P1 l01 y
E{L(d1 |E)} = P0 l10 + P1 l11 . Lo que
conduce a que a priori
c00
ET2
c01
IT
Decisin
ET1
d1
c10
Acierto
c11
d1 es la soluci
on de Bayes E{L(d1 |E)} > E{L(d0 |E)}
P0 l10 + P1 l11 > P0 l00 + P1 l01
(l01 l11 )P1 > (l10 l00 )P0
(l01 l11 )
P0
k =
>
(l10 l00 )
1 P0
k
> P0
1+k
50
ITAM
Esto es, d1 es soluci

on de Bayes solo si P0 es suficientemente peque
no. Observe
que, equivalentemente, es posible realizar la transformacion L0 = L c de forma
0
0
que l00
= l11
= 0, y por ende a priori
0
P0
l01
0 > P
l10
1
AM
se rechaza H0
Ahora, sea x(n) una m.a. de tama

no n de X. Entonces, utilizando la regla de
Bayes
P (0 |x(n) ) =
P (x(n) |0 )P (0 )
P (x(n) )
P (1 |x(n) ) =
P (x(n) |1 )P (1 )
,
P (x(n) )
por lo que a posteriori
se rechaza H0
0
P (0 |x(n) )
l01
.
>
0
l10
P (1 |x(n) )
As,
P (x(n) |0 )P (0 )
P (0 |x(n) )
P (x(n) )
P (x(n) |0 ) P0
=
=
P (x(n) |1 )P (1 )
P (1 |x(n) )
P (x(n) |1 ) P1
P (x(n) )
lo que implica que
se rechaza H0 C
0
P (x(n) |0 )
P1 l01
>
0
P0 l10
P (x(n) |1 )
El hecho m
as destacado de este resultado, que como puede observarse, es totalmente general (no depende de las particulares hipotesis simples ni del modelo de
los datos), es el que establece que la muestra x(n) interviene en la decision sobre
las hip
otesis u
nica y exclusivamente a traves de cociente de verosimilitudes
P (x(n) |0 )
,
P (x(n) |1 )
IT
=
pudiendo as establecer una regla de decision : X(n) D tal que
d si C > P (x(n) |0 )
1
P (x(n) |1 )
(x(n) ) =
d0 e.o.c
De hecho, si se recupera la idea Frecuentista de region de rechazo (para H0 ),

entonces el procedimiento Bayesiano establece que H0 se rechaza si y solo si
x(n) C donde

C = x(n) X(n) | C > .
51
ITAM
En otras palabras, se obtiene una region de rechazo que tiene la misma forma
que la que se sigue del conocido lema de Neyman-Pearson. Es importante insistir en que s
olo se recupera la forma porque la constante C se determina por
procedimientos conceptual y tecnicamente muy distintos.
AM
Ejemplo 5.1.1. Sea X una v.a. con distribuci

on N ormal(x|, 1), se desea contrastar las hip
otesis H0 : = 0 vs H1 : = 1.
En este caso, la funci

on de verosimilitud est
a dada por
L( | x(n) ) =
n
Y
(2)1/2 e(xi )
/2
= (2)n/2 e1/2
(xi )2
i=1
y por tanto, el cociente de verosimilitudes puede ser simplificado de la siguiente

manera:
P
P
P
L(0 | x(n) )
(2)n/2 e1/2 (xi )
1/2[ (xi 1)2 (xi )2 ]
P
=
=
e
2
L(1 | x(n) )
(2)n/2 e1/2 (xi 1)
P 2
P
(x 2xi +1) x2i ]
i
=e [
n(1/2
x)
=e
.
1/2
=en/2
xi
As, bajo el enfoque Frecuentista

n
o

C = x(n) X(n) | en(1/2x) < K = x(n) X(n) | n(1/2 x
) < ln K

= x(n) X(n) | x
> K0
y fijando la probabilidad del error de tipo I (P (rechazar(H0 | H0 )), igual a un

valor fijo , se determina por completo la regi
on de rechazo. En este caso,

P x(n) C | H0 = = P x
> K0 | = 0 =

= P x
> K 0 | N ormal (
x | 0, 1/n) =

= P x
K 0 | N ormal(
x|0, 1/n) = 1
(
= P
K0
p
p
N ormal
1/n
1/n
IT
K0
= p
= Z1
1/n

!)

x

p
=1
0, 1
1/n
1
K0 = p
Z1 .
1/n
Es interesante observar que, bajo este enfoque, si se denomina a la probabilidad

del error de tipo II (P (aceptar(H0 | H1 )), y n , entonces 0 sin embargo
P (error tipo I) = n.
Ahora, desde el enfoque Bayesiano la regi
on de rechazo est
a dada por

n
o
0
P (x(n) |0 )
P1 l01
C = x(n) X(n) |
<
= x(n) X(n) | en(1/2x) < C
0
P (x(n) |1 )
P0 l10

ln C
1
= x(n) X(n) | x
>
+
,
n
2
observe que, bajo este enfoque tanto como tienden a cero cuando n .
52
5.2.
ITAM
Estimaci
on puntual
AM
Uno de losEstadistica
problemas
m
as conocidos y estudiados de la inferencia
parametrica
Bayesiana
ITAM
Estadistica
Bayesiana
ITAM pudiera cones el de estimaci
on puntual.
Como se comento en el captulo 1, este
siderarse el problema
original
de inferencia
parametrica. Identificar el valor de
= P x
> K | N (
x | 0, 1/n) =
=funci
P x
o>nKde
| Nde
(
x |distribuci
0,
1/n) =
permite determinar la
on de la variable aleatoria bajo
= P x
K | N (
x|0, 1/n) = 1
x
utilizar
K | N (
x|0, la
1/n)informaci
=1
estudio. Por tanto, se =
trata
on disponible para producir
P de
K
x
= P a.
| N
|0,
=1
un valor que aproxime
x
K
x
1
= P1/n
| N 1/n
|0, 1
=1
1/n
1/n
1/n
1/n
Sea X una v.a. con f.d.p.g.

| ), ,
se1 desea estimar puntualmente a .
K f (x
=
= Z1
K =
Z11
K
1 =
=valor
= Z
= aproximaci
K =
Z1on de el valor desconocido
1/n de
1/n
La idea es proponer un
como
1/n
1/n
0 sin embargo ET 1 =
Notar que este
bajo este
enfoque ET 2como
n define
n
. As, para expresar
problema
uno
de
decisi
0 sin embargo ETo
Notar que bajo este enfoque ET 2 n
1n= se n
Desde el enfoque bayesiano:
D = {d | Desde
}el enfoquebayesiano:
P (x(n) |0 )
P1 l
x(n) X(n) |
P (x(n) <
|0 ) 01
P1 l01
P
(x
|
)
P
l
C
=
x
X
|
<
1
0
(n)
10
Observe
(n)
(n)
donde d =estimar a con .

que
en
caso
el
tama
no de D esta deterP (xeste
|
)
P
l
0
(n) 1
x
)
10
x(n) X(n) | en(1/2 n(1/2
< xC
)lo que tambi
minada por la cardinalidad =
del
conjunto
,
por
e
n
la representacion
=
x
X
|
e
<
C
(n)
(n)
ln C
1
= x(n)
X(n) | x
de
> decisi
+o
ln
Cn estar
1
gr
afica del problema, mediante
el
a
rbol
a
afectada
por este con2+
= x(n) X(n) | x
>n
n gen
2 erica de este tal como se
junto. Sin embargo,
es
posible
mostrar
una
rama
0
Notar que bajo este enfoque tanto ET1 como ET 2 n
0
Notar que bajo este enfoque tanto ET1 como ET 2 n
hace en la figura 5.2.
C =
5.2.
d
Estimaci
on Puntual
5.2. Estimaci
on Puntual
d
P ( )C( , ) L(C( , ))
P( )
Figura 5.2: Rama tpica del arbol

de decision para el problema de
estimacion puntual.
En este caso
E{L(d, )} =
L(d, )P ()d = h().
IT
Observe que las consecuencias de una estimacion dependen de lo bien que

se reproduzca el valor desconocido . De esta forma, resulta apropiado utilizar
funciones de perdida que dependan de la distancia entre y , y en este sentido,
que entre mayor sea dicha distancia mayor sea la perdida. En particular, una
) = ( )2 , de modo
opci
on es utilizar la funci
on de perdida cuadratica L(,
que la soluci
on se obtiene de
min EP () {L(d, )} = min EP () {( )2 }
donde EP () {( )2 } se conoce como error cuadratico medio bayesiano, y que

se puede desarrollar como
n
o
EP () {( )2 } = EP () ( E() + E() )2
n
o
n
o
2
= EP () ( E())2 + 0 + EP () (E() )

2
= E() + V ar()
53
ITAM
de donde se obtiene que

2

min EP () L(d, ) min E() .
AM
Observe que, en general d de Bayes es el valor en mas cercano a E(). En

particular si E() el valor de Bayes (a priori) es V ar().
Ahora, sea x(n) una m.a. de tama

no n de X. Utilizando
el teorema de Ba P ( | x(n) ), de modo que si E ( | x(n) ) entonces se deyes p()
P (x |)
(n)
ber
a cumplir que B = E {( | x)} y el valor de Bayes (a posteriori) resulta
V ar( | x(n) ).
2
Definici
on 5.2.1. Sea W una v.a. con varianza W
, el parametro W
conoce como la precisi
on de W.
1
2
W
se

on N ormal(x | , 2 ) con 2
conocida. Se desea estimar puntualmente a (utilizando perdida cuadr
atica),
suponiendo que a priori se describe el conocimiento sobre con un modelo
N ormal( | m, c2 ).
Se sabe que a priori la soluci

on de Bayes es
B = m con un valor de Bayes de
VB = c2 .
Ahora, a posteriori
f ( | x(n) ) =
f (x(n) | )f ()
,
f (x(n) )
f ( | x(n) ) f (x(n) | )f ().
i.e.
Por lo que la verosimilitud est

a dada por
n n
n
o
Y
Y
2
2
f (xi | ) =
(2 2 )1/2 e(xi ) /2
f (x(n) | ) =
i=1
= (2 2 )n/2 e
i=1
P
(xi )2 /2 2
y puesto que la inicial cumple que

2
/2c2
IT
f () = (2c2 )1/2 e(m)
la final se determina por

f ( | x(n) ) e
Denotando mx =
si
on:
(xi )2 /2 2
n
2
x
+
+
n
2
1
c2
1
c2
e(m)
/2c2
= e(
(xi )2 /2 2 +(m)2 /2c2 )
, y analizando el exponente de esta expre-
1 X
1
(xi )2 + 2 ( m)2
2
c
i

1 hX 2
1
= 2
(xi 2xi + 2 ) + 2 2 2m + m2
c
2
2m m2
1 X 2 2n
x n2
= 2
xi
+
+
+ 2
2
2
c2
c2
c
exp
54
=
=
n
+
2

n
+
=
2

n
=
+
2
AM
P 2

n
xi
m2
x m
2 2
+
+
+
2
c2
2
c2
"
#

P 2
n
x
m
1
m2
xi
2
2 + c2
2
+
+
1
n
c2
2
c2
2 + c2

P 2

1 2
m2
xi
2m
+
+
x
c2
2
c2

P 2

1 2
n
1
xi
m2
2
2
2m
+
m
+
m
+
+
x
x
x
c2
2
c2
2
c2

P 2
1
n
1
m2
xi
2
( mx )
+ 2 m2x +
+ 2 ,
2
2
2
c
1
n
+ 2
2
c
n
+
2
ITAM
por lo que
f ( | x(n) ) e 2 ( 2 + c2 )(mx ) e 2 K(
1
,c2 ,x(n) )
donde se observa que f ( | x(n) ) = N ormal( | mx , c2x ) con c2x =
n
2

1 1
c2
Entonces, a posteriori la soluci

on de Bayes es
B = mx con un valor de Bayes
de VB = c2x .
De esta forma, en terminos de la precisiones =

denotando

n
n
2
=
n
,
1
n +
2 + c2
1
2 ,
1
c2
y x =
1
c2x ,
resulta que las ecuaciones
mx =
x + (1 )m
x = n +
(5.1)
(5.2)
definen la regla de actulizaci

on de los par
ametros.
IT
Este ejemplo es particularmente ilustrativo al observar que, el estimador puntual resulta ser una combinaci
on lineal de la media inicial y la media muestral (ecuaci
on 5.1), y semejantemente, la precisi
on a posteriori se determina
mediante una combinaci
on lineal de la precisi
on inicial y la precisi
on muestral (ecuaci
on 5.2). Este hecho, se ilustra en la figura 5.3 donde se presenta
una gr
afica conocida como triplot, que incluye simultaneamente la densidad a
priori, la funci
on de verosimilitud, y la densidad a posteriori para el par
ametro de interes. En este caso, para fines ilustrativos, se han utilizado los valores
= 2 y 2 = 3.
m = 0, c2 = 1, n = 6, x
El aspecto m
as relevante de esta gr
afica es que si bien la inicial (en verde y
rayada) y la verosimilitud (en azul y punteada) no son incompatibles, s poseen
informaci
on distinta sobre y en esas condiciones la final (en rojo y s
olida)
resulta en un compromiso entre ambas y que, en particular, para este ejemplo la posterior siempre es m
as precisa que cualquiera de las dos componentes
originales.
55
ITAM
0.7
0.0
0.1
0.2
AM
0.3
0.4
0.5
0.6
Inicial
Verosimilitud
Final
Figura 5.3: Triplot para el ejemplo 5.2.1.

on N ormal(x | , 2 ) con 2 conocida. Se desea estimar puntualmente a (utilizando perdida cuadr
atica), y
suponiendo que a priori se describe el conocimiento sobre con un modelo
U nif orme(x | a, b), a < b.
En este caso
f ( | x(n) ) f (x(n) | )f () e 22 (x) I[a,b] (),
lo que implica que
(
2
n
Ke 22 (x) I[a,b] ()
f ( | x(n) ) =
0
Observe que
si [a, b]
e.o.c.
e 22 (x) d = K 1 determina u
nicamente la distribuci
on.
As,
Ke 22 (x) d
IT

B = E | x(n) =
donde vale la pena comentar que en este ejemplo la distribuci

on final no tiene
la misma forma que la inicial, y que por tanto, para calcular
B es necesario
recurrir a metodos numericos. Como se comentar
a m
as adelante, la propiedad
en la que las distribuciones inicial y final comparten la forma puede resultar
muy conveniente. En particular, si aqu p() hubiese sido Normal, como en el
ejemplo 5.2.1,
B se podra determinar analticamente.
5.3.
Estimaci
on por regiones
Otro problema de inferencia parametrica muy com

un es el de estimacion por
regiones, o en el caso m
as simple, por intervalos. En una variedad de situaciones
el investigador no necesita un valor estimado del parametro de interes, sino que
56
Estadistica Bayesiana
ITAM
ITAM
| N (
x | 0, 1/n) =
=on Pde
x
espacio
K | N (
x|0,parametral
1/n) = 1
conocer una regi
donde, con alg
un grado de
Estadstica
Bayesiana
se encuentra el=
valor
desconocido
del
par
x
K
x
ametro. Adicionalmente, este
P
|N
|0, 1
=1
1/n
inferencia no s
olo ofrece1/ninformaci
on 1/n
sobre la localizacion de , sino
P x
>K
Estadstica=Bayesiana
ITAM
prefiere
certeza,
tipo de
1
tambien sobre la incertidumbre
de
esa localizaci
on.
5.3.K acerca
Estimaci
Regiones
por
=
=
Z
= K o
=n
Z
ITAM
5.3. Estimacion por Regiones

1/n
1/n
AM
Sea entonces Sea

X una
v.a.
con
f.d.p.g.
PP(x
| ),
embargo
,, ET
se1 desea
desea estimar por
por
x Notar
una
v.a.
| 0),sin
regiones. La
que
estef.d.p.g.
enfoque ET
= n estima
n
Seabajo
xcon
una
v.a.regi
cono2(x
| ),sesea
lo
, se
estima
regiones. La idea es encontrar
una
nf.d.p.g.
A P(xque
madesea
s peque
na por regiones. La
idea esDesde
encontrar
una
regi
o
n
A
que
sea
lo
m
a
s
peque
n
a
posible
que y que
el
enfoque
bayesiano:
idea
esposibilidades
encontrar una de
regi
on A a . que sea lo mas peque
na yposible
posible y que tenga buenas
incluir
tenga las mejores

probabilidades
a incluir
.
tenga las
mejores probabilidades
a .
P (x(n)de
|0 )incluir
P1 l01 de
C = x(n) X(n) |
<
As, al igual que en los casos de
contraste de
on puntual es
P (xhip
P0 l y estimaci
1 )tesis
(n) |o
10
)
posible expresar este problema =enx(n)
terminos
de xuno
on. En este caso
X(n) | en(1/2
< C de decisi
L(C(
)) restringe a un tipo
ln Co
1A, se
D = {dA | A }, donde com
u
nmente
la
regi
n
L(C(
= x(n) X(n)
|x
P
>,( )))
+
Figura
5.3:deRama
tpica del
n Una
2
P (en
) la pr
que permita una interpretacion u
til
actica.
rama
erica
este del
Figura
5.3:agen
Rama
tpica
rbol
de
decisi
o
n
para
el proble
bajo este5.4.
enfoque tanto ET1 como ET 2 n
problema se exhibe Notar
en laquefigura
arbol0 de decisi
onestimac
para elonproblema de
puntual.
ma de estimacon puntual.
5.2. Estimaci
on Puntual
dA L(A, )
d
dA
P( )
L(A, )

arbol de decision para el problema de estimacion por regiones.
En particular si < y las regiones son intervalos, entonces el conjunto de

decisiones resulta D = {dab | dab = [a, b] }. Para este caso, una posible
funci
on de perdida es la que tiene la forma
L ([a, b], ) = g(A) + (1 )h(A, )
con g(A) = b a, h(A, ) = I[a,b]c () y (0, 1). De donde resulta que

E (L ([a, b] , )) = (b a) + (1 ) (1 P ( A))
= (b a) + (1 ) (1 )P ( A)
= (b a) + (1 ) (F (b) F (a)) .
IT
Encontrar la soluci
on de Bayes para este problema, en general, no es simple.
No solo por la forma analtica que pueda tener F y el hecho de que a < b,
sino porque la especificaci
on de debe expresar las preferencias del tomador
de decisiones, y al mismo tiempo juega un papel para homogeneizar las escalas
de la longitud (b a) y la probabilidad (F (b) F (a)). Una simplificacion a la
que se recurre con frecuencia consiste en fijar F (b) F (a) = , con lo que el
problema se reduce a uno sin incertidumbre. As, fijando P ( A), el problema
consiste en minimizar la longitud del intervalo.
Ahora, es f
acil concluir que para obtener la menor longitud de los intervalos
es conveniente iniciar su construccion a partir de la imagen inversa de la(s)
moda(s). De hecho, se puede probar que si se define una region I tal que
P ( I) = 1 y de manera que P () > P (0 ) I y 0
/ I. Entonces, si
A es cualquier otra regi
on de tal que P ( A) = 1 el area de A sera al
menos el de I.
57
ITAM
AM
Una regi
on con estas caractersticas, se conoce como region de maxima probabilidad o m
axima densidad, y si bien en muchos casos se puede calcular analticamente, en general se determina numericamente con metodos como la biseccion.
En la figura 5.5 se muestran (en rojo) dos posibles formas que puede tomar un
intervalo de m
axima densidad.
(a)
(b)
Figura 5.5:
(a) Regi
on de m
axima densidad para una distrubucion unimodal
(b) Regi
on de m
axima densidad para una distrubucion multimodal
Finalmente, es relevante mencionar que para el caso multiparametrico el procedimiento se puede desarrollar en dos diferentes formas. Si es de interes producir
intervalos para cada una de las componentes del vector de parametros, basta
con obtener las marginales correspondientes
Z
Z
P ( | x(n) ) =
P (, | x(n) )d =
P ( | , x(n) )P ( | x(n) )d
IT
y proceder como en el caso uniparametrico. Si por el contrario, interesa determinar una region para un parametro multidimensional, la idea sigue siendo la
misma (fijar el nivel de probabilidad y buscar la region de mnimo volumen
con dicho nivel). Sin embargo, el calculo del volumen puede ser mas complicado
dependiendo de la geometra de la region.
5.4.
Predicci
on
Es interesante comprobar que el problema de prediccion practicamente no aparece en los textos introductorios a la estadstica mas comunes (Frecuentistas).
Lo habitual, es que este sea un tema que se explora y discute en textos mas
avanzados (de an
alisis de regresion y series de tiempo, por ejemplo). Este hecho
es, en cierta medida, parad
ojico si se piensa que el objetivo de la estadstica es
describir el fen
omeno de interes, en este caso describir el comportamiento de la
58
ITAM
variable aleatoria X, y que no hay mejor manera de describir a X que siendo

capaz de pronosticar los valores que ha de producir.
Aqu, no se discutir
a el porque de dicho tratamiento al tema de pronosticos
en los textos Frecuentistas. En lugar de esta discusion, se tratara el problema
puesto que es uno central en la inferencia.
AM
Al igual que como se ha hecho con el resto de los problemas de inferencia, es

posible expresar y resolver el problema de pronostico como uno de decision. Sin
embargo una diferencia importante debe ser observada, en este caso es necesario considerar dos escenarios, mutuamente excluyentes, en los que se puede
presentar el problema de pronostico, ya sea puntual como por intervalos, y que
conducen a dos variantes distintas del problema. Esto es, el caso en que se conoce el valor de los par
ametros de la distribucion de probabilidad de la variable
que se desea pronosticar, y el caso en el que se desconoce al menos uno de estos
par
ametros.
Minimalism
Minimalism
Minimalism
Partl H. Partl
H.H.Partl
5.4.1.
Minimalism
Pron
ostico puntual
noviembre
1414dedenoviembre
dede 2011
14 de noviembre
de 2011
H. Partl
Sea X una v.a. con f.d.p.g. P (x | ), , se desea pronosticar un valor x? de

una observaci
on futura x X .
14 de noviembre de 2011
Indice
Indice
Indice
As, se trata
de
elegir una x
? como anticipacion del valor x? que efectivamente
producir
a el fen
omeno cuando sea observado. Por tanto, en este problema es
1. D
Some
1 1 de un pronostico
Indice
1. Some
Interesting
posible definir
=Interesting
{dx | Words
xWords
X
}. Ahora, las consecuencias
1.
Some
Interesting
Words
1
particular x
dependen
de
lo
bien
que
este
reproduzca
al
valor
futuro
x
.
As
,
?
?
1. 2. Some
Interesting Words
Bye
World
11
World
las funciones
deGood
peBye
rdida
apropiadas, como en el caso de estimaci
on puntual, 1en
2.2. Good
Good
Bye
World
2. Good
Byeforma
World
general dependen
de alguna
de la distancia entre x
? y x? , y son tales que
entre mayor sea la distancia, asignen mayor perdida.
SomeInteresting
Interesting
Words Words
1. 1.Some
Words
1.
Some
Interesting
1.
Some
Interesting
Words
Si es conocido.
Well,
andherehere
beginshere
lovely
article. my lovely article.
Well,
and
begins
Well,
andand
begins
mymylovely
article.
here
my
lovely
En este Well,
escenario,
unabegins
reprsentaci
on article.
grafica del problema de resulta en la
figura 5.6, donde puede observarse que este problema tiene exactamente
2.2. estructura
Good
Bye
World
Good
ByeWorld
World
la misma
que
el problema
de estimacion puntual.
2. Good
Bye
IT
2. .Good
Bye World
. . and here it ends.
and here itxends.

d...x
P (x? | )
C(
x ? , x? )
?
? here it ends.
...
. .d.dand
and
here(x
ends.
P(xit??|)
, ) C(x? ,x? )P (xFigura
C(
x? ,tpica
x? )
5.6:
Rama
del
x
? , theta)
x
? ? x?
dx? x? P(x? |) C(x?,x?)
dx?dx? (xx??,) P(x
P (x
|
)
C(
x
,
x
)
?
?
?
,theta)
C(
x
,x
)
a
rbol
de
decisi
o
n
para
el
proble?
dx? (x?,) P(x?,theta)
C(x??,x??)
dx?
(x? , )
P (x? , theta)
C(
xpronostico
ma de
puntual con
? , x? )
u
E (c2)
2)) (c E
EEuu(c(cE
2
)
u x , x2))) =ua((c
Y en particular, si se utiliza L (C(
x k
x ) donde a es una
conocido.
EEuu(c(ckkE)) u(c )
k
?
constante positiva, resulta que a priori la solucion esta determinada por

(
EP (x? | ) (x)
si EP (x? | ) (x) X
x
?B =
el valor mas cercano a EP (x? | ) (x) e.o.c.
59
1
1
Minimalism
Minimalism
H. Partl
Minimalism
Minimalism
ITAM
con un valor de Bayes deH.VPartl

B = aV(x)
14 de noviembre de 2011
De igual manera, si x(n) es una m.a. de X, y x? es condicionalmente indeH. Partl H. Partl

pendiente de x1 , x214, .de. .noviembre
, xn dado
, entonces a posteriori se seguira cumde 2011
pliendo que
14 de noviembre
de 2011
14 de noviembre
de 2011
= argmin E
x
Indice
x? , x? )}.
?
P (x | ) {L(
x
Indice
1. Some Interesting Words
Indice
Si
es
desconocido
Indice
1. Some Interesting Words
?
AM
Good
Bye World
En este2.caso,
a diferencia
del caso en el que es conocido, la utilidad espe-1
1.laSome
Interesting
WordsWords
1
Interesting
1
rada 1.
de Some
opci
on dx no puede
calcularse con respecto a P (x | ) puesto que
2. Good Bye World
1
es desconocido. De hecho, ocurre que siendo desconocido introduce otro
2. Good
Bye
1
Some
Interesting
factor
de
incertidumbre,
y entoncesWords
si tanto x? como son desconocidos
2. 1.
Good
ByeWorld
World
1
la 1.
distribuci
o
n
de
probabilidad
que
debe
asignar
el
tomador
de
decisiones
SomeWell,
Interesting
Words
and
here
mydelovely
es necesariamente
de labegins
forma
unaarticle.
conjunta P (x? , ) y ya no la de
1.
Some
Interesting
Words
1.
Some
una condicional
P Interesting
(x? | ). De estaWords
manera, el problema tiene asociado un
Well, and here begins my lovely article.
arbol con Well,
unaandestructura
como
el de la figura 5.7. En esta figura, se hace
here begins my lovely
article.
2.Well,
evidente
queGood
existen
en
el World
problema
fuentes de incertidumbre x? y .
and
hereBye
begins
my lovely dos
article.
Sin
embargo,
es
interesante
observar
que
la funcion de perdida involucra
2. Good Bye World
a x? pero
no
a
.
.
.
.
and
here
it
ends.
2. Good Bye World
2. Good
x?ByePWorld
(x? | )
C(x? , x? )
x? it ends.
. . . and dhere
...
and
here
it
ends.
d
(x
,
)
P
(x
,
)
C(x? , x? )
?
? P(x? | )
dx? . . .x?xand
C(x?, x?) ?
ends.
dx? x?hereP(xit? |)
C(x?,x?) Figura 5.7: Rama tpica del
dx? (x?, ) P(x?, ) C(x?, x?)
dx?dx? (xx??,) P(x
P (x
, x? ) de decision para el proble? | ) C(xC(
a) ?rbol
? ,theta)
? ,x?x
dx?
(x? , )
P (x? , theta)ma de
C(xpronostico
puntual con
? , x? )
Eu(c2)
EuE(cu2(c)2)
EuE(cu2(c) k )
EuE(cu(ck)k)
Eu(ck )
desconocido.
As, la soluci
on de Bayes estara dada por x
?B = argmin EP (x? ,) {L(
x? , x? )}.
x
IT
En esta expresi
on, vale la pena recordar que la conjunta P (x? , ) puede expresarse en forma alternativa a traves de las dos descomposiciones
P (x? | )P (), y P ( | x? )P (x? ).
Volviendo al problema de optimizacion, observe que
Z Z
EP (x? ,) {L(
x? , x? )} =
L(
x? , x? )P (x? , )ddx?
X
Z

Z
=
L(
x? , x? )
P (x? , )d dx?
Z

ZX
=
L(
x? , x? )
P (x? | )P ()d dx?
ZX
=
L(
x? , x? )P (x? )dx?
X
= EP (x? ) {L(
x? , x? )}
= g(
x? )
1 1
60
ITAM
AM
En otras palabras, el hecho de que la funcion de perdida no dependa de

permite expresar esta perdida esperada con una formulacion alternativa
en donde efectivamente el u
nico factor de incertidumbre es x? como en el
caso en que el par
ametro es conocido. La diferencia, sin embargo es que
el modelo que se utiliza en aquel caso P (x? | ) es ahora remplazado por
P (x? ) que se relaciona con el primero a traves de la expresion
P (x? ) =
P (x? | )P ()d.
Resulta entonces que el problema de prediccion es formalmente el mismo

problema que estimaci
on puntual utilizando la distribucion (que se conoce
como predictiva) P (x? ). Mas especificamente, esta distribucion predictiva
se denomina predictiva a priori si P () es a su vez una distribucion a
priori. Por otro lado si x(n) es una m.a. de X y x? es condicionalmente
independiente de x1 , x2 , . . . , xn dado , se tiene que
P (x? , | x(n) ) = P (x? | , x(n) )P ( | x(n) ) = P (x? | )P ( | x(n) ).
De modo que aR posteriori la distribucion predictiva resulta

P (x? | x(n) ) = P (x? | )P ( | x(n) )d.
De hecho, el problema de estimacion puntual en todos los casos, incluyendo

el de conocido, se resuelve minimizando la perdida esperada calculada
respecto a la distribucion predictiva correspondiente. Basta observar que
P (x? | ) cuando es conocido, digamos = 0 equivale a utilizar una
predictiva tal que P ( = 0 ) = 1.
Ejemplo 5.4.1. Sea X una v.a con distribuci

on N ormal(x | , 2 ), se desea
pronosticar un valor x? de una observaci
on futura de X.
Si , son conocidos.
IT
x
?B es el valor que minimiza EN (x | ,2 ) {L(x? , x? )} , en particular si se
utiliza perdida cuadr
atica x
?B = .
Si es conocido y N ormal( | m, c2 )
A priori: x
?B es el valor que minimiza EP (x? )) {L(
x? , x? )} y tomando
L(
x? , x? ) = (
x? x? )2
Z
x
?B =EP (x? ) (x? ) =
x? P (x? )dx?
X
Z

Z
=
x?
P (x? | )P ()d dx?
ZX Z
=
x? P (x? | )P ()dx? d
X
Z

Z
=
P ()
x? P (x? | )dx? d
61
Ahora,
ITAM

P ()E(x? | )d = EP () EP (x? | ) (x? ) EP () () = m.
P (x? ) =
(2 2 )1/2 e
(x)2
2 2
(2c2 )1/2 e
(m)2
2c2
AM
(x)2
(2 2 )1/2 (2c2 )1/2 e 22
Z
(x)2
(m)2
1
=
e 22 2c2 d.
2c
=
(m)2
2c2

( x2 + cm2 )
1 1
1
2
, analizando el exponente
y
=
2 + c2
1
1
0
( 2 + c2 )

1 (x )2
( m)2
exp
+
2
2
c2
2

1 x
2x 2
2
2m m2
=
2 + 2+ 2 2 + 2
2 2
c
c
c

2

1
1
x
m
m2
1
x
2
+ 2 2 2 + 2 +
+ 2
=
2
2
c
c
2
c
#
(
"

)
m
x
1
x2
1
1
m2
2
2 + c2
=
+
+ 2
+ 2
2 1
1
2
2
c
2
c
2 + c2

2

x
m2
1 1 2
20 +
+ 2
=
2
2
2 0
c

2

2
x
m
1 2
1 1
2
(
)
+
+
=
0
2 02
2
c2
02 0
2

1
m2
1
x
1 2
2
+
= 2 ( 0 )
20
2
2
c2
02 0

1
2
m2
2 c2 x 2
20 2 c2
2
= 2 ( 0 ) 20 2
+
.
20
2 c
02
2
c2
04
|
{z
}
IT
Y sean 0 =
Por lo que si se desarrolla A,

2 2 2

02 x2 + cm2
c
2 c2 x2
m2
A= 2
+ 2
0
2
c
04
x
1
m 2
= 2 c2 x2 + 2 m2
+ 2 2 c2
2
0
c

x

1
1
m 2 2 2
2 2
2 2
c
=
+
c
x
+
+
2
c2
2
c2
2

c2 x 2
2 m2
x
xm
m2
= 2 + x2 + m2 +
+
+
2 c2
c2
4
2 c2
c4
62
ITAM
x2 c2
m2 2
c2 x 2
2 m2
+ x2 + m2 +
2 2xm
2
2
c2
2
2
2
=x 2xm + m = (x m) ,
=
se obtiene que
AM
1
2
2
2
( 0 ) 20 2 (x m)
2
20
2 c
1
1
2
2
= 2 ( 0 ) 2 c2 (x m) .
20
2 2
exp =
As,
1
P (x? ) =
2c
1
2
20
(0 )2
1
2 c2
2 2
0
(xm)2
1/2 Z
12 c2 (xm)2
2
202
12 (0 )2
1
2
20
0
e
=
e
d
2c (2 2 )1/2
0
1/2 12 c2 (xm)2 Z

1/2 212 (0 )2
2
2 c2
2
0
e
d
202
e 0
= 2 2
0
|
{z
}
=1 (N ormal( | 0 ,02 ))
1/2 12 c2 (xm)2

2
2 c2
2
0
e
= 2 2
0
1/2 21 2 (xm)2
= 2 2 + c2
e 2( +c )
.
Por lo tanto, a priori, la distribuci

on predictiva es

P (x? ) = N ormal x? | m, 2 + c2 .
IT
Ahora, a posteriori se sabe que P ( | x(n) ) = N ormal( | mx , c2x ) donde

1
n
+ c12 m
n
1
2
2 x

y cx =
mx =
+ 2
,
1
n
2
c
2 + c2
por lo que, procediendo igual que antes, se obtiene que
Z
P (x? | x(n) ) =
P (x? | )P ( | x(n) )d
= N ormal(x? | mx , 2 + c2x ).
Entonces, bajo perdida cuadr

atica, resulta que
x
?B = EP ( | x(n) ) () = mx ,
y recordando que mx =
x + (1 )m se puede observar que, en general,
este pron
ostico no coincide con el estimador frecuentista habitual x
.
63
E (L ([a, b] , =
))(b= a)(b+ (1 a) +
) (F(1(b)
= (b
a) + (1
(1 P ( A))
F) (a))
)
(1
EP(x ){L(x,x)}
)P ( =A)
(b baa)
+ (1 a minimizar
) (F (b)la longitud
F (a)) = g(x )
Fijando P( A) el problema se= reduce
sicamente
del intervalo.
i.e. EP(x | a){L(
x,x)} no depende
de
Fijando P ( A) el problema se reduce basicamente
minimizar
la longitud
Para
el
caso
multiparam
e
trico
del intervalo.
Para el caso multiparametrico
Resulta entonces que el problema de prediccion es formalmente el mis5.3. Estimaci
on por
Regiones
P(, | x(n) ) P( | x(n) ) = P(, | x(n) )d = P( mo
| , problema
x(n) )P(que
| x(n)estimaci
)d on puntual utilizando la distribucion predictiva
Estad
P (, | x(n) ) P (
| x(n)stica
) = Bayesiana
P (, | x(n)
=
)P )d
)d
a prioriP(x
= | ,P(xxP(n)
| (x
)P(
)(
Sea x una
v.a.
con Pf.d.p.g.
| (
),| x(n)
)d, se desea estima
5.4. Predicci
Predicci
onon
5.4.
5.4.2.
ITAM
ITAM
por regiones. La
idea es encontrar una region A
que sea lo mas peque
na posible y que
Analogamente
si x(n) es una m.a. de
de xincluir
y x es condicionalmente
indetenga las mejores
probabilidades
a .
Pron
osticopendiente
por deregiones
x1,x2,...,xn dado , a posteriori:
5.4.1.
Puntual
5.4.1. Pronostico
Pronostico Puntual
P(x, P
) (xP(x| ),
, |x(n)
,x
)P( |x(n)pronosticar
) = P(x | )P( |x(n)por
) regiones
))(n)desea
Sea X una v.a. con f.d.p.g.
)L(C(
= P(x
,,| se
P( )
5.3: Rama tpica del

Sea x una v.a. conun
f.d.p.g. P x
(x? | de
), observaci
, se deseaon
pronosticar
unx valor
de
Figura
futura
Xonx. predictiva
De modounquevalor
a posteriori
resulta ser:
x una v.a.ocon
f.d.p.g.valor
P(x
, una
se desea pronosticar
x de dela distrubuci
arbol de decision para el probleunaSeaobservaci
n futura
de |x),X
una observacion futura de x X
P(x |x(n)) = P(x | )P( |x(n))d
P (x | )
(x , )
P (x , )
Ejemplo 5.4.1. C(x ,A)

P(x | ) (x , ) P(x , ) C(x , x)
C(
x , x )
ma de estimacon puntual.
AM
Si es conocido dx
Si es conocido dx
dA
L(A, )
Figura 5.8:
Rama
tpica
del
arbol de decision para el proble5.4.2. Pronostico por Regiones
ma de pronostico por regiones.

Procediendo de la misma forma que en la seccion 5.4.1 se puede ver que el
problema de pronostico por regiones se
De la misma forma que ocurre con el pronostico puntual, el problema de pronostico por regiones resulta ser completamente analogo a su contraparte de estimaci
on por regiones. Aqu, el espacio de opciones es D = {dA | A X }, con X
el soporte de X, y la distribucion de probabilidades relevante es la predictiva
para x, sea con desconocida (a priori o a posteriori) o con conocida.
5.5.
Ejercicios
Ejercicio 5.1. Sea X una variable aleatoria Normal con media y varianza
2 = 1. Si se cuenta con una muestra aleatoria de tama
no 10 de X, tal que su
media muestral es 0,35 y resulta que es de interes contrastar las hip
otesis
H0 : = 0
vs.
H1 : = 1,
compare las decisiones a las que se llega se se utiliza por una parte, el procedimiento frecuentista usual con = 0,05 y, por otra parte, el procedimiento
Bayesiano cuando no se tiene informaci
on sobre la validez de las hip
otesis y el
error de tipo I se considera 5 veces m
as grave que el error de tipo II.
Que ocurre si la muestra, con el mismo valor de la media muestral, proviniese

de una muestra de tama
no 30 en lugar de 10?
IT
Comente las diferencias que se observan en los cuatro casos considerados y

explique las causas de este comportamiento.
Ejercicio 5.2. Sea X la variable aleatoria que describe el tiempo que hay que
esperar a un autob
us en cierta parada un da determinado de la semana, a una
hora particular. Suponga que X sigue una distribuci
on Uniforme en (0, ) y que
se desea contrastar las hip
otesis
H0 : 5 15
vs.
H1 : > 15,
considerando los siguientes elementos:
A priori, el conocimiento sobre se describe razonablemente con una distribuci

on Pareto con par
ametros 5 y 3. Es decir, inicialmente se tiene que
p() = 3(5)3 4 para > 5.
64
ITAM
Se han observado cinco tiempos de espera con los siguientes valores:

x1 = 10, x2 = 3, x3 = 2, x4 = 5 y x5 = 14.
Calcule la probabilidad a priori de cada hip
otesis, la probabilidad a posteriori de
cada hip
otesis y sugiera la manera de tomar la decisi
on en este problema.
AM
Ejercicio 5.3. Imagine que cuenta con una observaci

on x de una variable aleatoria X con distribuci
on Bernoulli con par
ametro desconocido que toma valores en el intervalo (0, 1). Si a priori se asigna a la distribuci
on (), demuestre
que a posteriori el estimador de Bayes con perdida cuadr
atica de satisface la
ecuaci
on
B = E () +
V ()
x
[E ()] [E ()
1]1x
donde E y V representan respectivamente la esperanza y varianza inicial.

Ser
a cierto que la esperanza final es siempre mayor a la esperanza inicial?
Ejercicio 5.4. Sea X una variable aleatoria con f.d.p.g. f (x | ) con <
y suponga que inicialmente el conocimiento sobre se describe con la distribuci
on p(). Sea L(d, ) = |d | la funci
on de perdida asociada a la decisi
on de
estimar con el valor estimado d. Demuestre que la soluci
on de Bayes es una
mediana de la distribuci
on p().
Ejercicio 5.5. En el mismo contexto del ejercicio 5.4, considere ahora la funci
on de perdida
(
a( d) si d 0
L(d, ) =
b(d ) e.o.c
donde a y b son constantes positivas. Demuestre que la soluci

on de Bayes al
problema de estimaci
on de est
a dada por cualquier cuantil de orden a/(a + b)
de la distribuci
on p().
IT
Ejercicio 5.6. Suponga que desea estimar el par

ametro con un estimador d
y que la funci
on de perdida que desea utilizar es la siguiente:

2
d
L(d, ) =
d
Encuentre la soluci
on de Bayes para este problema e identifique todos los supuestos que sean necesarios para garantizar que exista soluci
on.
Ejercicio 5.7. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable X con
distribuci
on Uniforme en el intervalo (0, ) donde > 0. Si a priori se considera
que el conocimiento sobre el par
ametro est
a adecuadamente descrito con una
distribuci
on Uniforme en el intervalo (0, c) con c > 0 una constante conocida,
a) Plantee el problema de estimar como uno de decisi
on.
65
ITAM
b) Cu
al es la soluci
on al problema planteado en a) sin incorporar la muestra
y utilizando la funci
on de perdida cuadr
atica?
c) De la misma forma que en el inciso b), es decir, sin datos, Cu
al es la
soluci
on a este problema si se utiliza L(d, ) = |d |?
AM
d) Si se incorpora la muestra, Cu
al es la distribuci
on final de ?
e) Considerando los datos, Cu

al es la soluci
on utilizando L(d, ) = (d ) ?
f ) Cu
al es la soluci
on, con datos, utilizando la funci
on de perdida absoluta?
g) Considerando los datos, encuentre es la soluci

on si
(
0 si |d | < 0,001
L(d, ) =
1 e.o.c
Ejercicio 5.8. Sea X una variable aleatoria con f.d.p.g. f (x | ) con <.
Si cuenta con una muestra aleatoria de tama
no n de X y una distribuci
on inicial
P () para el valor desconocido del par
ametro, Cu
al es la soluci
on de Bayes al
problema de estimar puntualmente si, para un valor cercano de cero, la
funci
on de perdida est
a definida por:
(
1 si |d | >
L(d, ) =
0 e.o.c
Ejercicio 5.9. Considere un problema de estimaci

on en el que = D = (0, 1)
2
y se utiliza una funci
on de perdida de la forma L(d, ) = 100 (d ) . Suponga
que la distribuci
on inicial sobre est
a dada por p() = 2 para . Demuestre
que el valor d = 2/3 es la soluci
on de Bayes a priori, y el valor de Bayes es
50/9.
IT
Ejercicio 5.10. En el contexto del problema 5.9, suponga que un estadstico A

piensa que la distribuci
on de probabilidad de es en efecto la descrita en ese
problema, mientras que el estadstico B cree que la distribuci
on de probabilidad
de es PB () = 32 para en (0, 1). En que magnitud cree B que A incrementar
a su perdida esperada debido a su conocimiento incorrecto de la distribuci
on
de probabilidades de ?
Ejercicio 5.11. Se ha propuesto un procedimiento para clasificar la sangre de

cada individuo distinguiendo entre tipos O, A, B o AB. El procedimiento consiste en extraer una muestra de sangre del individuo en cuesti
on y medir la
cantidad X de una cierta sustancia. Se sabe que para cada individuo, X sigue
una distribuci
on determinada por la densidad
f (x | ) = exp{(x )}1(0,) (x)
donde es un par
ametro que, en cada individuo, determina el tipo de sangre;
de hecho, si 0 < 1, la sangre es de tipo AB; si 1 < 2, la sangre es de
66
ITAM
tipo A; si por otra parte, 2 < 3, la sangre es de tipo B, y si > 3 la sangre

es de tipo O.
Ahora bien, en la poblaci
on de interes el valor del par
ametro cambia de individuo a individuo, pero se sabe que su distribuci
on est
a determinada por la
densidad
AM
p() = exp{}1(0,) ().
En que grupo sanguneo clasificara a un individuo particular para el cual se

ha observado que X = 4 si la perdida por clasificaci
on incorrecta viene dada por
la siguiente tabla?
Tipo real
AB
A
B
O
Clasificacion
AB A B O
0
1 1 2
1
0 2 2
1
2 0 2
3
3 3 0
Ejercicio 5.12. El n
umero de incendios que se producen semanalmente en
una ciudad X, sigue una distribuci
on Poisson con media . Se desea construir
el intervalo de m
axima densidad de probabilidad a posteriori para . Puesto
que inicialmente no se conoce nada sobre , parece adecuado utilizar la funci
on
() = 1 1(0,) () para describir esta falta de informaci
on. Observe que ()
no es propiamente una funci
on de distribuci
on (pues no integra a uno), estas
funciones se conocen con el nombre de distribuci
ones impropias y se discutir
an
en el siguiente captulo. Por lo pronto, si durante cinco semanas se observaron:
x1 = 0, x2 = 1, x3 = 0, x4 = 0 y x5 = 0 fuegos respectivamente, Cu
al es el
intervalo de m
axima densidad a posteriori para con probabilidad 0,9?
IT
Ejercicio 5.13. Suponga que X una variable aleatoria Bernoulli con par
ametro
en el intervalo (0, 1) y el conocimiento sobre se describe con la distribuci
on
(inicial o final) P (). Cu
al es la distribuci
on predictiva para una observaci
on
futura de X?
Ejercicio 5.14. Suponga que X una variable aleatoria Normal con media y
precisi
on conocida. Si el conocimiento sobre se describe con una Normal de
media m y precisi
on Cu
al es la distribuci
on
futura de X?
Ejercicio 5.15. Suponga que X una variable aleatoria Normal con media conocida y precisi
on . Si el conocimiento sobre se describe con una Gamma(, )
Cu
al es la distribuci
on futura de X?
67
AM
IT
AM
Captulo 6
Inferencia Param
etrica
Bayesiana
Una vez que han sido establecidos los elementos generales de la Teora de Decisi
on, y que los problemas tpicos de la Inferencia Parametrica, al menos en
sus versiones m
as simples, han sido identificados como casos particulares de
problemas de decisi
on en ambiente de incertidumbre, es conveniente volver al
tema de Inferencia Parametrica en general para establecer sus caractersticas,
especialmente, cuando se aborda desde la perspectiva Bayesiana.
6.1.
Principio de verosimilitud
IT
Habitualmente, un problema de Inferencia Estadstica Parametrica se presenta

cuando se cuenta con una muestra aleatoria x(n) de una variable aleatoria X,
cuya f.d.p.g. f (x | ) es totalmente conocida excepto por el valor del paramero ,
que es un elemento del espacio parametrico <k . As, el problema general de
la inferencia consiste en utilizar la informacion disponible para describir, as sea
aproximada, el comportamiento de la variable X.
Por supuesto, si el valor del parametro fuese conocido, el modelo de probabilidad f (x | ) sera, a su vez, totalmente conocido y la descripcion de X sera
completa. M
as a
un, los problemas especficos de produccion de pronosticos, al
plantearse como problemas de decision, u
nica posibilidad bajo el enfoque Bayesiano, se habran de resolver utilizando f (x | ) como modelo predictivo para
X.
En el caso m
as com
un, en que es desconocido, y sea cual sea la manera en la
que se pretende describir a X, este desconocimiento representa una fuente de
incertidumbre que debe considerarse al producir la inferencia de interes. En el
lenguaje Bayesiano, es una fuente de incertidumbre cuyo efecto en el proceso de
68
ITAM
toma de decisiones debe tomarse en cuenta.
AM
En el caso particular de pronosticos, la u

nica forma
R en que esta incertidumbre
puede tomarse en cuenta es utilizando f (x) = f (x | )P ()d como modelo
predictivo para X. En esta expresion P () representa el modelo de probabilidad
que describe la incertidumbre del investigador sobre el valor de y, respecto
a la muestra x(n) , puede ser
R a priori o a posteriori en cuyo caso la notacion
apropiada es f (x | x(n) ) = f (x | )P ( | x(n) )d, que presupone que x y x(n)
son condicionalmente independientes dado . De cualquier manera, entonces,
el impacto de la informaci
on muestral x(n) en la produccion de pronosticos, se
produce a traves del efecto que x(n) tenga en la transformacion de la inicial P ()
en la final P ( | x(n) ).
Cundo la descripci
on de X se refiere al analisis de alguno de sus atributos
(momentos, cuantiles, moda, probabilidades especficas, etc.), solo puede ocurrir
que el atributo de interes sea independiente del valor de , en cuyo caso el
problema es an
alogo al que se enfrenta cuando el parametro es conocido, o
bien que el atributo, por ejemplo , sea funcion de , en cuyo caso el valor
de = () es desconocido y constituye la fuente de incertidumbre relevante.
El punto aqu es que es incierto porque es incierto, y que la distribucion
P () que describe el estado de conocimiento del investigador sobre el atributo
puede, en general, derivarse de la distribucion P (). Y entonces, de nuevo, si
la asignaci
on de este modelo se produce antes de contar con la muestra x(n) , se
cuenta con la a priori P () (y la correspondiente a priori P ()), mientras que
si ya se observ
o x(n) se utiliza la posteriori P ( | x(n) ) (y su respectiva posterior
P ( | x(n) )).
De esta manera, en todos los casos de la Inferencia Parametrica, el efecto de la

muestra x(n) en el proceso inferencial se reduce al impacto que esta tiene en la
transformaci
on de P () en P ( | x(n) ).
IT
En estas condiciones, es de interes fundamental el estudio del mecanismo a traves

del cual la inicial se combina con la informacion muestral, para dar origen a la
final. Es decir, resulta del mayor interes comprender como operan los elementos
de la, aparentemente simple, formula de Bayes:
P ( | x(n) ) P (x(n) | )P ()
que establece que la final es simplemente el producto de la inicial P () por la

verosimilitud P (x(n) | ).
Un primer resultado que, aun siendo evidente, es frecuentemente ignorado por

los procedimientos estadsticos habituales (no Bayesianos) es el siguiente: Si x(n)
influye en las inferencias u
nicamente a traves de su impacto en la transformacion
de la inicial en la final, y en ese mecanismo x(n) solo participa mediante la
funci
on de verosimilitud, entonces, dada una inicial P (), dos muestras distintas
que produzcan la misma verosimilitud (como funcion de ) deben dar lugar a las
mismas inferencias. Esta idea es tan importante que en la literatura Bayesiana
ha alcanzado el rango de principio.
69
ITAM
AM
Principio de verosimilitud: Considere dos colecciones de variables aleatorias

x(n) = (x1 , x2 , . . . , xn ) y y(m) = (y1 , y2 , . . . , ym ) con f.d.p.g. conjuntas dadas
por f (x(n) | ) y g(y(m) | ), donde es el mismo parametro en ambos modelos.
Si como funci
on de ocurre que f (x(n) | ) = k g(y(m) | ) con k una constante (respectiva a ), entonces, para una inicial com
un P (), las distribuciones
finales P ( | x(n) ) y P ( | y(m) ) coinciden y, por tanto, dan lugar a las mismas
inferencias.
Ejemplo 6.1.1. Sean X e Y dos v.a. con distribuci
on Binomial(x | , 10) y
BinomialN egativa(y | , 4) respectivamente, y x(1) e y(1) dos m.a. de tama
no
uno tales que x = 4 e y = 10, entonces:

10 4
9 4
L( | x = 4) =
(1 )6 y L( | y = 10) =
(1 )6 .
4
3
Observe, por tanto, que
1
10 9
L( | x = 4) =
L( | y = 10) = C L( | y = 10),
4
3
es decir,
L( | x = 4) L( | y = 10) = L( | x = 4)P () L( | y = 10)P ().
Lo que implica que
P ( | x = 4) P ( | y = 10)
o bien, que
P ( | x = 4) = KP ( | y = 10)
Por otro lado,

Z
P ( | x = 4)d = 1
K <.
P ( | y = 10)d = 1,
IT
por lo tanto
K = 1 = P ( | x = 4) = P ( | y = 10).
En otras palabras, para efectos de un an

alisis Bayesiano, es lo mismo observar
diez lanzamientos (n
umero fijo) de una moneda habiendo ocurrido cuatro exitos,
que haber fijado de antemano el n
umero de exitos (4) y que el cuarto exito
ocurra, precisamente, en el decimo lanzamiento. As, las inferencias sobre la
probabilidad de exito son la mismas con una muestra o la otra. M
as a
un, la
estimaci
on puntual
optima para ambos casos debe coincidir.
Este es un ejemplo particularmente interesante si se recuerda que, por ejemplo,
el valor del estimador insesgado (frecuentista) para en el modelo Binomial
negativo, no coincide, en general, con el estimador insesgado para en el modelo
Binomial.
70
ITAM
Ejemplo 6.1.2. Sean X e Y dos v.a. con distribuci

on P oisson(x | ) y distribuci
on Exponencial(y | ) respectivamente, y x(r) e y(s) dos m.a. de tama
no r
y s respectivamente, entonces:
i=1
s
Y
xi !
xi r
e
xi !
= L( | x(r) )
AM
P (x(r) | ) =
r xi
Y
e
P (y(s) | ) =
Por tanto, cuando
i=1
P
y
e
= s e yi = L( | y(s) ).
r
X
xi = s y
i=1
s
X
i=1
yi = r resulta que L( | x(r) ) L( | y(s) ).
De manera que, de nuevo, si se parte de la misma inicial P (), entonces necesariamente se tiene que P ( | x(r) ) = P ( | y(s) ).
Una vez establecido el principio de verosimilitud, existe otro rasgo general en

el proceso de aprendizaje que es particularmente interesante desde el punto de
vista conceptual. El concepto de suficiencia representa, posiblemente, el u
nico
concepto donde los enfoques frecuentista y Bayesiano coinciden plenamente. Por
otra parte, en el
ambito exclusivamente Bayesiano, posibilita el desarrollo de un
mecanismo para la asignaci
on de distribuciones iniciales que han probado ser
muy convenientes en la pr
actica.
6.2.
Suficiencia
Antes de introducir formalmente el concepto de suficiencia Bayesiana, es conveniente recordar la definici

on de estadstica.
IT
Definici
on 6.2.1. Se dice que Tn : X(n) <(n) es una estadstica si es
una v.a. que es funci
on de la muestra y no involucra en su expresi
on ning
un
on fija si
par
ametro desconocido. Se dice adem
as que Tn x(n) es de dimensi
(n) = k n.
Ahora s, una clase de estadsticas especialmente importantes son las que, en un
sentido Bayesiano, resultan suficientes para un parametro .
Definici
on 6.2.2.
Sea x(n) una m.a. de una v.a. X con f.d.p.g. P (x | ),

y sea Tn x(n) una estadstica de los datos, se dice que Tn x(n) es suficiente
(desde el punto de vista Bayesiano) para P ( | x(n) ) depende de x(n) s
olo a
traves de Tn x(n) n y P ().
Ejemplo 6.2.1. Sean X una variable aleatoria con distribuci
on Bernoulli(x | )
y x(n) una m.a. de X. Esto es
P (xi | ) = xi (1 )1xi i {1, 2, . . . , n}.
71
ITAM
As, para cualquier distribuci

on inicial P (), resulta que
" n
#
Y
P ( | x(n) ) P (x(n) | ) P () =
xi (1 )1xi P ()
i=1
AM
h P
P i
= xi (1 )n xi P (),
por lo que Tn (x(n) ) =
n
X
xi es una estadstica suficiente para .
i=1

Recuerde que, de acuerdo con la definicion tradicional, Tn x(n) es una estadstica suficiente
(desde el punto de vista frecuentista) para si y solo si
P x(n) | Tn x(n) no depende de . Adicionalmente, que una estadstica suficiente (desde el punto de vista frecuentista) puede ser caracterizada de acuerdo
con el criterio de factorizaci
on de Fisher-Neyman.
Teorema 6.2.1. (Factorizaci
on de Fisher-Neyman).
Sea x(n) una m.a. de una v.a. X con f.d.p.g. P (x | ), y Tn (x(n) ) una estadstica,
entonces Tn es suficiente (desde el punto de vista frecuentista) si y s
olo si existen
funciones h(x(n) ) y g(, Tn (x(n) )), donde h no depende de y g depende de la
muestra s
olo a traves de Tn , tales que P (x(n) | ) = h(x(n) ) g(, Tn (x(n) )).
Observe que el teorema 6.2.1 es ampliamente general en el sentido en que, si

Tn (x(n) ) es una estadstica suficiente, no impone una forma especfica sobre
la funci
on g. De hecho, cualquier funcion de y Tn (x(n) ) que dependa de la
muestra s
olo a traves de Tn puede jugar el papel de g, en cuyo caso h(x(n) )
ser
a la correspondiente constante de normalizacion para P (x(n) | ). As, puesto
que
P (x(n) | ) = P (x(n) , Tn (x(n) ) | ) = P (x(n) | Tn (x(n) ), )P (Tn (x(n) ) | ),
IT
y dado que Tn es una estadstica suficiente (desde el punto de vista frecuentista),

P (x(n) | Tn (x(n) ), ) = P (x(n) | Tn (x(n) )), de forma que
P (x(n) | ) = P (x(n) | Tn (x(n) ))P (Tn (x(n) ) | ),
pero de nuevo, como Tn es suficiente (desde el punto de vista frecuentista),

P (x(n) | Tn (x(n) )) no depende de . De manera que una posibilidad particular
es tomar g(, Tn (x(n) )) como la f.d.p.g. P (Tn (x(n) ) | ), caso en el que la funcion
h(x(n) ) resulta ser la condicional P (x(n) | Tn (x(n) )).
Como se coment
o previamente, el concepto de suficiencia es quiza el u
nico que
transita libremente entre los dos enfoques, Bayesiano y frecuentista. Y la equivalencia queda establecida a traves del siguiente teorema.
Teorema 6.2.2. Sea x(n) una m.a. de una v.a. X, discreta o continua, con
f.d.p.g. P
(x | ), , entonces:

Tn x(n) es suficiente Bayesiana Tn x(n) es suficiente frecuentista.
72
ITAM
Demostraci
on.
Sea Tn (x(n) ) una estadstica suficiente (desde el punto de vista Bayesiano). Es decir,
P ( | x(n) ) = P ( | Tn (x(n) )).
(6.1)
AM
Ahora, por el teorema de Bayes

P (x(n) | ) =
P ( | Tn (x(n) ))P (x(n) )

P ( | x(n) )P (x(n) )
=
,
P ()
P ()
en donde la u
ltima igualdad se obtiene sustituyendo 6.1. As, utilizando nuevamente el teorema de Bayes, se tiene que

P (Tn (x(n) ) | )P ()P (x(n) )
P (x(n) )
,
= P (Tn (x(n) ) | )
P (x(n) | ) =
P (Tn (x(n) ))P ()
|
{z
} P (Tn (x(n) ))
{z
}
|
=g(,Tn (x(n) ))
=h(x(n) )
donde h(x(n) ) no depende de , y g(, Tn (x(n) )) depende de x(n) solo a traves

de Tn . Por tanto, el teorema de factorizacion de Fisher-Neyman implica que
Tn (x(n) ) es una estadstica suficiente (en el sentido frecuentista).
Sea Tn (x(n) ) una estadstica suficiente (desde el punto de vista frecuentista). Entonces, por el criterio de factorizacion de Fisher-Neyman,
P (x(n) | ) = P (Tn (x(n) ) | )h(x(n) ).
(6.2)
Ahora, por el teorema de Bayes

P ( | x(n) ) =
P (x(n) | )P ()
,
P (x(n) )
en donde sustituyendo 6.2 resulta que
P (Tn (x(n) ) | )h(x(n) )P ()

P (x(n) )

P (Tn (x(n) ) | )P () h(x(n) )P (Tn (x(n) ))
=
P (Tn (x(n) ))
P (x(n) )

h(x(n) )P (Tn (x(n) ))
= P ( | Tn (x(n) ))
.
P (x(n) )
IT
P ( | x(n) ) =
Y por tanto, integrando con respecto a

Z
Z
h(x(n) )P (Tn (x(n) ))
1 = P ( | x(n) ) d =
P ( | Tn (x(n) )) d
P (x(n) )
|
{z
}
h(x(n) )P (Tn (x(n) ))
=
,
P (x(n) )
73
=1
ITAM
de donde se sigue que

P ( | x(n) ) = P ( | Tn (x(n) ))
AM
o equivalentemente, que Tn es una estadstica suficiente (desde el punto de vista

Bayesiano).
El teorema 6.2.2, adem
as de establecer una equivalencia interesante, resulta ser
muy u
til en la pr
actica, pues permite utilizar el teorema de factorizacion de
Fisher-Neyman en la identificacion de estadsticas suficientes bajo un contexto
Bayesiano.
Ejemplo 6.2.2. Sean X una variable aleatoria con distribuci
on P oisson(x | )
y x(n) una m.a. de X. Esto es
P (xi | ) =
e xi
i {1, 2, . . . , n},
xi !
de forma que la verosimilitud resulta

P (x(n) | ) =
n
Y
e xi
i=1
xi !
h
P i
1
i {1, 2, . . . , n} =
en xi
x1 ! x2 ! . . . xn !
y, por el criterio de factorizaci

on, es f
acil ver que Tn (x(n) ) =
xi es una
i=1
estadstica suficiente para .
6.3.
n
X
Familias conjugadas
IT
Cualquiera que sea el problema especfico de inferencia parametrica que se pretenda resolver, desde la perspectiva Bayesiana la distribucion que describe la
incertidumbre del investigador sobre el parametro desconocido juega un papel central. Especialmente cuando existe una muestra aleatoria, caso en el que
el an
alisis Bayesiano hace uso de la correspondiente distribucion a posteriori
P ( | x(n) ) P (x(n) | ) P () para producir las inferencias optimas (de perdida
esperada mnima).
Precisamente en ese sentido, y en tanto que P (x(n) | ) y P () son modelos que,

en general, describen aproximadamente el proceso de muestreo y el conocimiento
previo sobre , es interesante observar que la representacion de estos dos elementos no necesariamente es u
nica, y que algunas selecciones pueden resultar
m
as ventajosas que otras en terminos de los calculos involucrados. En particular, si el modelo de muestreo se considera fijo y la inicial P () se puede elegir de
manera que, adem
as de describir razonablemente el conocimiento a priori sobre
, permita que la final P ( | x(n) ) resulte en un modelo que conduzca a calculos
simples. Esta idea ha dado lugar a, entre otras, la siguiente propuesta.
74
ITAM
Definici
on 6.3.1. Sea X una v.a con f.d.p.g P (x | ) , entonces la familia de distribuciones F = {p ()} se dice que es cerrada o equivalentemente
conjugada bajo muestreo P (x | ) si cuando la inicial para pertenece a F,
la final correspondiente a cualquier muestra aleatoria de X tambien pertenece a
F.
AM
Esta definici
on es general e incluso, incluye casos que son irrelevantes. Por ejemplo, si P ( ) es la distribucion degenerada tal que P ( = ) = 1 y F es la
familia de la forma {P () | P () = P ( ), }. En este caso, los datos seran
irrelevantes y la distribuci
on final P ( | x(n) ) tambien sera P ( ) de forma que
para cualquier esquema de muestreo F es conjugada. En sentido contrario, si F
es la familia de todas las funciones de distribucion, entonces, necesariamente y
sin importar el esquema de muestreo, P () y P ( | x(n) ) pertenecen a la misma
familia F que es, evidentemente, conjugada e in
util para efectos de simplificar
el c
omputo.
De hecho, como puede comprobarse en los siguientes ejemplos, la idea iniciales
conjugadas es de utilidad practica cuando F es una familia parametrica de
modelos con caractersticas conocidas.
Ejemplo 6.3.1. Del ejemplo 5.2.1 se puede ver que P () = N ormal( | m, c2 )

es conjugada para los datos N ormal(x | , 2 ) con 2 conocido. De hecho, en este
caso, la f
ormula de Bayes se puede sustituir por dos ecuaciones de actualizaci
on
que adem
as de ser extraordinariamente simples, hacen posibles la interpretaci
on
de la manera en que se combinan la informaci
on muestral con la informaci
on
inicial:

n
+ c12 m
1
2 x

.
y c2x = n
mx =
n
1
1
2 + c2
2 + c2
Y equivalentemente, si se parametriza en terminos de la precisi
on se tiene entonces que
mx =
x + (1 )m
=
1
2 ,
x = n + ,
1
c2
y x =
IT
donde =
n
n + ,
1
c2x .
Estas ecuaciones de actualizaci

on son realmente interesantes, pues permiten
observar, por ejemplo, que x > y que mx x
cuando n o cuando
0.
En el ejemplo anterior, se observa que la familia Normal es conjugada bajo el
muestreo (tambien) Normal. Sin embargo, como puede observarse en el siguiente
ejemplo, esta coincidencia no es un caso general.
Ejemplo 6.3.2. Suponga que X es una v.a. con distribuci
on P oisson(x | )
y que el conocimiento inicial sobre se describe con una Gamma( | , ), de
forma que
P
P

P ( | X(n) ) 1 e en xi + xi 1 e(+n) .
75
ITAM
Es decir
P ( | X(n) ) = Gamma( | +
xi , + n),
AM
por lo que la clase Gamma es cerrada bajo muestreo Poisson. En cambio, si el

conocimiento inicial se describe con una distribuci
on P oisson( | ) resulta que
e en xi (en )
P ( | X(n) )
!
(xi !)
!
xi
de donde se puede ver que la clase Poisson no es conjugada bajo muestreo Poisson. En este caso, de hecho, ni siquiera es razonable en general considerar una
distribuci
on inicial discreta para puesto que el espacio parametral es <+ .
La construcci
on de familias parametricas conjugadas ha sido un amplio objeto
de estudio, el resultado de este trabajo se resume en el siguiente teorema que es
de gran utilidad
Teorema 6.3.1. Sea X una v.a. con f.d.p.g. f (x | ) .
Supongamos
on
que para toda m.a. x(n) de X existe una estadstica Tn x(n) de dimensi
fija r que es suficiente para . Si como
consecuencia
del
teorema
de
factoriza

ci
as se cumple que
P x(n) | = h x(n) g Tn x(n) , y adem
R on se tiene que
g
T
x
,
d
<
,
entonces
existe
una
familia
param
etrica conjugada
n
(n)
(b
asica) para .

T
Demostraci
on. Sean m N y X(m)
el contradominio de Tm x(m) , y sean
n
o
[
T
T
adem
as X T =
(m, tm ) | tm X(m)
, t = (m, tm ) con tm X(m)
,
m=1

t X T <r+1 y F = P ( | ) | P ( | )g(tm , ), X T .
IT
Si P () F , entonces P ( | ) = cg(tm , ) para alg

un m N. Y tomando una
m.a x(n) , resulta que

P ( | x(n) ) P (x(n) | )P () h x(n) g Tn x(n) , P ( | )

g Tn x(n) , g(tm , ).
Ahora, si y(m) es una m.a. tal que T(m) (y(m) ) = tm , entonces

P ( | x(n) ) g Tn x(n) , g Tm y(m) ,

P (x(n) | )g Tm y(m) ,
P (x(n) | )P (y(m) | )

P (z(n+m) | ) g Tn+m z(n+m) , ,
donde z es una m.a. de tama

no m + n. Por lo tanto

P | x(n) = P ( | x ) con x = (n + m, tn + m),

y as, P | x(n) F .
76
ITAM
Este teorema se ilustra con el siguiente ejemplo donde, ademas, se puede observar como la familia conjugada parametrica basica se puede extender a una
familia m
as general.
AM

on Bernoulli(x | ), [0, 1] de
forma que
n
P
P
Y
n xi
P x(n) | =
P (xi | ) = xi (1 )
i=1
P
Por el teorema de factorizaci
on Tn (x(n) ) =
xi es una estadstica
suficiente
P
P

n xi
xi
para , tomando h(x(n) ) = 1 y g Tn x(n) , =
(1 )
.
Observe que Tn : X(n) Tn < por lo que es de dimensi

on fija. Adem
as
Z
Z P
P
()()
1
n xi
<
d =
1 (1 )
d =
xi (1 )
( + )
P
P
Donde = xi +1 y = n xi +1. Por lo que existe un familia parametrica
conjugada b
asica para el muestreo Bernoulli y est
a dada por la forma
F = {P ( | ) | P ( | ) g(tm , ), con m N y tm Tm } ,
P
P

n xi
, y Tm = {0, 1, . . . , m}.
y donde g Tn x(n) , = xi (1 )
As, F est
a formado por un subconjunto de todas las distribuciones Beta( | , ).
Especficamente, aquellas tales que , N.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
IT
Figura 6.1: Espacio parametrico de la familia conjugada basica y la familia Beta.

Ahora bien, es un ejercicio elemental probar que si la familia b
asica F se
generaliza a la de las distribuciones Beta, la familia resultante sigue siendo
parametrica y conjugada.
En general, con el empleo de familias parametricas conjugadas, el proceso de
aprendizaje que se lleva a cabo a traves de la formula de Bayes, se reduce a la
actualizaci
on de los par
ametros de la inicial para obtener los de la final.
Considere F = {P () = P ( | ) : } y x(n) una m.a. de una v.a. X con
f.d.p.g. P (x | ). Si P () F , y F es conjugada para el muestreo P (x | ),
77
ITAM
entonces P () = P ( | ). Y si se calcula la final P ( | x(n) ) P (x(n) | )P ( | ),

resulta que P ( | x(n) ) F . Lo que implica que P ( | x(n) ) = P ( | x ) donde
x = g(, x(n) ).
As, la ecuaci
on de actualizacion
AM
x = g(, x(n) )
resume todo el proceso de aprendizaje.
6.4.
Distribuciones no informativas
Como se mencion
o en la seccion 4.2, en ocasiones interesa utilizar una distribuci
on inicial que sea no informativa. En ese caso, una pregunta relevante es
C
omo encontrar dichas distribuciones? Este problema ha recibido mucha atenci
on en la literatura estadstica Bayesiana, y a traves de las familias conjugadas
se puede proveer una posible respuesta.
6.4.1.
Distribuciones conjugadas mnimo informativas
Como se discuti
o, en el caso de las familias conjugadas el proceso de aprendizaje
y la combinaci
on de la informacion inicial con la muestral, quedan plasmados
en la ecuaci
on de actualizacion parametrica x = g(, x(n) ). En donde es claro
que la distribuci
on final es un elemento de la familia en cuestion, que al estar
determinada por el par
ametro x tiene influencia de la informacion muestral,
especficamente, a traves de una estadstica suficiente de dimension fija, y de la
distribuci
on inicial a traves del parametro .
IT
As, la idea de una final que fundamentalmente dependa de los datos se puede
llevar al terreno operativo si en la expresion para x , el parametro se fija
o se hace tender a un lmite convencional que, en alg
un sentido, elimine la
contribuci
on de la inicial en la distribucion final. Un ejemplo que puede clarificar
esta idea se presenta a continuacion.
on Bernoulli(x | ), [0, 1] de
forma que
1x
P (x | ) = x (1 )
y por tanto la verosimilitud cumple que
P
P

n xi
P x(n) | = xi (1 )
.
Por otro lado,

se sabe del ejemploo 6.3.3 que la familia parametrica dada por
n
1
F(,) = P () 1 (1 )
es conjugada bajo muestreo Bernoulli().
78
ITAM
Por tanto,
i
P ih
h P
1
n xi
1 (1 )
P | x(n) xi (1 )
+
P
+n x 1
xi 1
AM
i
(1 )
= Beta( | x , x )
P
P
con x = + xi y x = + n xi . De hecho, en la familia parametrica
conjugada b
asica se tiene que
1 (1 )1 =
yi
(1 )
yi
donde y(m) es una muestra aleatoria hipotetica de tama

noP
m de la misma
P v.a. X.
De esta forma,
a
priori
sigue
una
distribuci
o
n
Beta(
|
y
+1,
m
yi +1),
i
P
P
esto es, = yi + 1 y = m yi + 1. As, se puede interpretar como el
n
umero de exitos (m
as uno) en una muestra hipotetica de tama
no m, mientras
que equivale al n
umero de fracasos (m
as uno) en la misma muestra hipotetica.
La idea entonces, para encontrar una distribuci

on de referencia, es tomar (x , x )
de manera tal que anulen la presencia de la distribuci
on inicial. En este sentido,
si la inicial se puede interpretar como proveniente de la informaci
on contenida
en una muestra hipotetica de tama
no m, entonces una manera de minimizar
o eliminar la informaci
on inicial es tomar m = 0, es decir, trabajar como si
no hubiese muestra hipotetica.
Claramente, si m = 0 entonces el n
umero de exitos y fracasos hipoteticos tambien debe de ser cero y por tanto, = 1 y = 1. En consecuencia, la inicial
con menor informaci
on para es una Beta( | 1, 1), es decir, una distribuci
on
Uniforme en [0, 1]. A este tipo de distribuciones se les conoce como mnimo
informativas lmite de conjugadas.
Finalmente, observe que en este caso, cuando se utiliza esta distibuci
on inicial,
i
X

P
X
h P
P | X(n) xi (1 )n xi I[0,1] () = Beta |
xi + 1, n
xi + 1
IT
es decir, en el proceso de actualizaci

on, la distribuci
on final adquiere informaci
on u
nicamente a traves de la muestra.
En el caso Bernoulli la inicial mnimo informativa lmite de conjugadas, es un

modelo de probabilidad en toda la extension del termino; sin embargo, este no
es el caso en general. Considere el siguiente ejemplo.
on N ormal(x | , ) con conocida. Se sabe entonces que F() = {P () = N ( | m, )} con = (m, )
es conjugada bajo muestreo Normal y, por tanto, P | x(n) sigue una distribuci
on N ormal( | mx , x ) donde las reglas de actualizaci
on de los par
ametros
est
an determinadas de la siguiente manera:
mx =
(n )
x + m
n +
x = n + .
79
ITAM
As, en este caso, una muestra hipotetica (y(r) ) de tama

no r produce la siguiente
conjunta:
r
Y
P y(r) | =
P (yi | )
i=1
r/2
AM
r/2
e( /2)
(yi )2
e( /2)
(yi
y )2 (r /2)(
y )2
de tal manera que, como funci

on de , g(, yr ) e(r /2)(y) y, en consecuencia la inicial conjugada resulta P () = N ormal( | y, r ).
Procediendo como en el ejemplo Bernoulli, la manera de producir una inicial

que, en un sentido, refleje la ausencia de informaci
on a priori, consiste en
proceder como si no se contara con la muestra hipotetica yr o, equivalentemente,
tomando r = 0. En este caso, sin embargo, debe observarse que el hecho de
que r = 0 implica que la distribuci
on a priori P () tenga varianza infinita.
Evidentemente, no existe una distribuci
on Normal con varianza infinita. Sin
embargo, volviendo a las ecuaciones de actualizaci
on que conducen a la posterior,
se observa que si 0, entonces mx x
y x n.
Por tanto, cuando 0, se tiene que a posteriori sigue una distribuci
on
N ormal( | x
, n ). Lo que equivale, formalmente, a utilizar en la f
ormula de
Bayes una distribuci
on inicial que cumpla que
P () 1 <,
IT
que no es un modelo de probabilidad, en tanto que no tiene una integral finita.

De hecho, este tipo de funciones, que se pueden considerar lmite de una sucesi
on
de distribuci
ones de probabilidad se denominan distribuciones impropias y,
aparecen con frecuencia cuando se buscan iniciales no informativas.
Utilizar el lmite de conjugadas para proponer distribuciones mnimo informativas, es s

olo uno entre una variedad de procedimientos que se han propuesto
en la literatura para este fin. De hecho, estos trabajos se pueden rastrear hasta
el propio T. Bayes, quien utilizo la distribucion U nif orme como inicial para el
modelo Bernoulli sin recurrir al concepto de conjugadas, o mejor a
un a Laplace que, en su legendario principio de la razon insuficiente, propuso utilizar la
distribuci
on U nif orme como representacion general de la ignorancia.
Precisamente en contra del empleo indiscriminado de la distribucion U nif orme
como representaci
on de la falta de informacion, aparece el metodo atribuido a
Harold Jeffreys que se estudiara, en detalle, a continuacion.
80
6.4.2.
ITAM
Regla de Jeffreys
AM
El criterio de la raz
on insuficiente de Laplace establece que ante la ausencia de
informaci
on, no hay raz
on para que un resultado posible reciba una asignacion
de probabilidad distinta de otro. Esto es, que la ausencia de informacion se debe
representa mediante una distribucion U nif orme. Sin embargo, como se observa
en el siguiente ejemplo, el uso indiscriminado de la distribucion U nif orme como
representaci
on de la ignorancia, puede llevar a resultados inconsistentes.
Ejemplo 6.4.3. (La distribuci
on incicial U nif orme no es una representaci
on universal de la ignorancia).
Sea X una v.a. con distribuci
on Bernoulli(x | ), = [0, 1]. Esto es
x
P (x | ) = () (1 )
1x
Ahora, si se considera la reparametrizaci

on = 2 , de modo que [0, 1] es
una funci
on uno a uno de , el modelo de muestreo resulta

x
1x
P (x | ) = 1/2
1 1/2
.
De esta manera, si se carece de informaci

on inicial sobre , el principio de la
raz
on insuficiente implica necesariamente que a priori debe seguir una distribuci
on U nif orme( | 0, 1). Pero, puesto que = 2 , la ignorancia sobre implicar
a la ignorancia sobre y, por tanto, nuevamente, el principio de la raz
on insuficiente implica que a priori debe seguir una distribuci
on U nif orme( | 0, 1).
Sin embargo, la distribuci
on de puede derivarse a partir de , a traves del correspondiente cambio de variable. Esto es,
(
c si 0 c 1,
2
P ( c) = P ( c) = P ( c) =
1
si 1 < c.
que no es Uniforme H.
IT
El ejemplo anterior, ilustra el hecho de que la asignacion indiscriminada de la distribuci

on U nif orme como representacion de una situacion mnimo informativa,
contraviene el procedimiento de calculo de probabilidades a traves de cambios
de variable. En la literatura se dice que la idea de asignar una U nif orme siempre que se enfrenta una situacion de poca informacion no satisface el principio
de invarianza.
Existen varias soluciones para este problema. Una de ellas, consiste en utilizar la
mnimo informativa lmite de conjugadas para y definir la mnimo informativa
para = g() como la que se deriva, va cambio de variable, a partir de la
correspondiente .
La idea de Jefreys, en alguna forma, extiende la propuesta de Laplace al considerar que una distribuci
on U nif orme es una descripcion razonable para un
caso de poca informaci
on cuando el parametro es de localizacion, y mas en
81
ITAM
particular, cuando es la media de una distribucion N ormal. As, una distribuci

on mnimo informativa para = g() se puede inducir con un cambio de
variable. Precisamente, la importancia de la regla de Jeffreys es que extiende
este razonamiento a una clase de modelos muy general.
AM
La intenci
on entonces, es buscar una reparametrizacion del parametro original
, de manera que, al menos asintoticamente, pueda interpretarse como la
media de un modelo N ormal; una vez identificado el parametro , asignarle
la distribuci
on inicial mnimo informativa P () 1, y mediante el cambio de
variable determinar la distribucion mnimo informativa para . Esta distribucion
se conoce como la inicial de Jeffreys (para ), y se denota mediante PJ ().
Por supuesto, una vez determinada PJ (), la inicial de Jeffreys para cualquier
funci
on = h() se obtiene directamente como

d
1
PJ () = PJ h () .
d
As, el procedimiento general es el siguiente:
Sean X una v.a. con f.d.p.g. P (x | ), y x(n) una m.a. de X. Si P () es la

distribuci
on inicial, entonces

P | x(n) P x(n) | P ().
Adem
as, sean L() la funci
on de verosimilitud, l() = log(L()) la logverosimi
litud y el estimador de m
axima verosimilitud para . As, aproximando l()
como funci
on de a traves de la serie de Taylor de orden dos, alrededor de se
tiene que
00
+ l0 ()(
)
+ l () ( )
2,
l() w l()
2
pero, puesto que es un m

aximo, se cumplira que
y
< 0,
l00 ()
IT
=0
l0 ()
y as
+ 1 l00 ()(
)
2.
l() w l()
2
Por tanto, tomando la exponencial en ambos lados

+ 1 l00 ()(
)
2}
L() wexp{l()
2

h
i
i
1h
( )
2
= exp{l()}
exp l00 ()
2

h
i
1
( )2 ,
exp l00 ()
2
82
ITAM
AM
Esta expresi
on revela que, asintoticamente, la verosimilitud para guarda semejanza con la verosimilitud que se obtiene de una observacion de con distribuci
on N ormal de media , salvo que, la variable aleatoria tambien aparece
que debiera ser constante. Para solventar este inconveniente
en el termino l00 ()
es oportuno recordar que la aproximacion supone que n es grande, y mejora a
medida que n . Por otro lado, si se define ui = ln (P (xi | )) , se tiene que
!
n
Y

l() =ln (L ()) = ln P x(n) | = ln
P (xi | )
i=1
n
X
i=1
ln (P (xi | )) =
n
X
Y an
alogamente, tomando vi =
l00 () =
=
nE(u).
ui = n
u
n
i=1
2
2 ln (P
(xi | )) , que

n 2
n
X
2
2 X
ln
(P
(x
|
))
=
l()
=
ln
(P
(x
|
))
i
i
2
2 i=1
2
i=1
n
X
nE(v).
vi = n
v
n
i=1
Adem
as, en este u
ltimo caso observe que
2

E(v) = E
ln
(P
(x
|
))
= ix ()
2
donde ix () es la informaci
on de Fisher contenida en x para . Entonces, como
consecuencia, se tiene que
= nix ().
l00 ()
IT
Ahora, si se considera la reparametrizacion = () se tendra que cumplir que

i
1h
( )2 ,
L( | x(n) ) w exp l00 ()
2
o
n
nix () = nE 22 ln (P (x | )) . Pero, utilizando iteradadonde l00 ()
mente la regla de la cadena se obtiene que

ln(p(x | ))
ln(p(x | ))
0
=
= l ()
,
y tambien que
2 ln(p(x | ))
=
2
l ()

83
00
= l ()
2
+ l ()
2
2
ITAM
expresi
on que, tomando valor esperado en ambos lados, se convierte en
E

2
2
2

00
ln (P (x | )) =
E {l0 ()} .
E {l ()}
2
AM
As, utilizando que

E {l0 ()} =E
ln (P (x | )) = E
P (x | )
P (x | )

Z
1
=
P (x | ) P (x | )dx
X P (x | )
Z
P (x | ) dx =
=
1 = 0,
X
resulta que
E

2
2
2
00
ln
(P
(x
|
))
=
E
{l
()}
=
ix (),
2
y por lo tanto
ix () =
2
ix ().
Esta expresi
on permite la b
usqueda de una parametrizacion en cuyos terminos
la verosimilitud asint
otica se pueda interpretar como la asociada a una media
N ormal. Basta pedir que ix () 1 o equivalentemente que

2
ix () 1,
es decir,
IT
(ix ())1/2 ,
R
de modo que () necesariamente sera de la forma () = (ix ())1/2 d. Y por
tanto, si se toma P () 1 resulta que
p
PJ () ix ()
resultado que se conoce como la regla de Jeffreys.
Ejemplo 6.4.4. Sea x(n) una m.a. de una v.a. X con f.d.p.g. N ormal(x | , 2 )
y 2 conocida, de forma que
n
o
2
2
1
1
ln (P (x | )) = ln (2 2 )1/2 e1/2 (x) = ln(2 2 ) 2 (x )2 ,
2
2
84
ITAM
y, adicionalmente, la verosimilitud est

a dada por
L() =(2 2 )n/2 e1/2
e1/2
P
(xi )2
P
(xi
x)2 n/2 2 (
x)2
(
x)2
|x
,
2
n
AM
en/2
As, tomado la primera y segunda derivada, con respecto a , de ln (P (x | )) se

tiene que
(x )
ln (P (x | ))
=
2 ln(P (x | ))
2
= 12 ,
lo que implica que

= x
, y que ix () = 12 . Y entonces, la inicial mnimo
informativa de Jeffreys para est
a dada por
r
1
PJ ()
1
2
An
alogamente, para el caso en que en conocida y en terminos de la precisi
on
= 12 , se tiene que
n
o
2
1
1
ln (P (x | )) =ln (2 1 )1/2 e /2(x) = ln(2 2 ) 2 (x )2
2
2
1
=k + ln( ) (x )2
2
2
y la verosimilitud
L( ) =(2
1 n/2 /2

1
= Gamma ,
.
IT
1 e
P
(xi )2
n/2

P
(xi )2
Por lo que
ln (P (x | ))
1
(x )2
=
2
2
2 ln(P (x | ))
2
= 212 ,
lo que implica que = P(xin)2 , y que ix ( ) = 212 . Y entonces, la inicial

mnimo informativa de Jeffreys para est
a dada por
r
1
1
PJ ( )
.
2
2
85
6.5.
ITAM
Ejercicios
AM
Ejercicio 6.1. Se dice que una variable aleatoria X (discreta o continua) tiene
una distribuci
on que pertenece a la familia exponencial si su f.d.p.g. se puede
escribir como
k
X
f (x | ) = h(x)w()exp
cj ()uj (x)
j=1
donde el rango de X no depende del par

ametro y, para toda j, las funciones
h, w, cj y uj son totalmente conocidas. Demuestre que los modelos N ormal,
Bernoulli, P oisson y Exponencial pertenecen a esta familia. Puede sugerir
alg
un otro modelo que tambien pertenezca a la familia exponencial?
Ejercicio 6.2. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con una distribuci
on que pertenece a la familia exponencial. Determine
una estadstica suficiente para . Es de dimensi
on fija?
Ejercicio 6.3. Sea X una variable aleatoria continua con distribuci

on Bernoulli
de par
ametro , un valor en el intervalo (0, 1). Suponga que a priori el conocimiento sobre se describe con una distribuci
on Beta(, ). Suponga adem
as
que se obtiene una muestra de tama
no 10 de X, en la que se registran 7 exitos y
3 fracasos. Exhiba en una misma gr
afica la densidad inicial, la verosimilitud y la
final para , en cada uno de los siguientes casos para el vector (, ) : (0,5, 0,5),
(1, 1), (5, 5), (1, 9), (6, 14) y (7, 3). Analice y comente estas gr
aficas.
Ejercicio 6.4. Sea X una variable aleatoria continua con distribuci

on U nif orme
en (0, ). Construya una familia parametrica conjugada para en este caso.
Ejercicio 6.5. Sea X una variable aleatoria con distribuci

on P oisson de par
ametro > 0. Muestre que la familia parametrica Gamma(, ) es conjugada para
en este modelo.
IT
Ejercicio 6.6. Sea x1 , x2 , . . . , xn una muestra aleatoria de una variable aleatoria X con distribuci
on Exponencial de par
ametro . Esto es
f (x | ) = exp(x); x, > 0.
Suponga que a priori el conocimiento sobre se describe con una distribuci

on
Gamma(, ). Demuestre que entonces la distribuci
on final de es tambien una
Gamma, y exhiba explcitamente la regla de actualizaci
on de los par
ametros.
on N ormal de media conocida y precisi
on . Compruebe que si la distribuci
on inicial de es Gamma entonces la final tambien es
Gamma. Exhiba la relaci
on que guardan los par
ametros de la inicial con los de
la final.
86
ITAM
on N ormal de media y precisi
on . Suponga que la
distribuci
on inicial conjunta P (, ) se expresa como
P (, ) = P ( | )P ( ),
AM
y que, en terminos de media y precisi

on, P ( | ) = N ormal( | m, u ) con u > 0
y m constantes conocidas, y P ( ) = Gamma(, ) con y tambien conocidas.
En este caso, se dice que P (, ) sigue una distribuci
on N ormalGamma con
par
ametros , , m y u. Compruebe que esta familia es conjugada para (, ).

on N ormal de media
y precisi
on . Si a priori el conocimiento sobre los par
ametros (, ) se describe
con una distribuci
on N ormal Gamma de par
ametros , , m y u. Verifique
que, tambien a priori, la distribuci
on marginal de coincide con un modelo
muy conocido en la literatura estadstica. Cu
al es? Cu
al es el correspondiente
resultado para la distribuci
on final de ?

on P oisson de
par
ametro > 0. Determine la distribuci
on inicial mnimo informativa lmite
de conjugadas para . Determine tambien la distribuci
on inicial mnimo informativa de Jeffreys para . Compare estas iniciales.
Ejercicio 6.11. Sea una variable aleatoria X con distribuci
on N ormal de media conocida y precisi
on . Determine la distribuci
on inicial mnimo informativa lmite de conjugadas para . Determine tambien la distribuci
on inicial
mnimo informativa de Jeffreys para . Compare estas iniciales.
Ejercicio 6.12. En el contexto del problema 6.11, Cu
al es la distribuci
on
inicial mnimo informativa de Jeffreys para 2 la varianza de X?
IT

on Exponencial
de par
ametro > 0. Determine la distribuci
on inicial mnimo informativa de
Jeffreys para E(X).
on Bernoulli de
par
ametro , un valor en el intervalo (0, 1). Determine la distribuci
on inicial
mnimo informativa de Jeffreys para 2 .
87
AM
Bibliografa
[1] Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis.
Second edition. New York: Springer Verlag.
[2] Bernardo, J.M. (1981) Bioestadstica, una Perspectiva Bayesiana. Barcelona: Vicens Vives.
[3] Bernardo, J.M. & Smith, A.F.M. (1994). Bayesian Theory. Chichester: Wiley.
[4] Box, G.E.P. & Tiao, G.C. (1973). Bayesian Inference in Statistical Analysis.
Reading: Addison Wesley.
[5] Casella, G. & Berger, R.L. (2001). Statistical Inference. Belmont: Duxbury
Press.
[6] Congdon, P. (2001). Bayesian Statistical Modelling. Chichester: Wiley.
[7] De Groot, M.H. (1970). Optimal Statistical Decisions. New York: McGrawHill.
[8] De Groot, M.H. (1988). Probabilidad y Estadstica. Mexico: Addison Wesley
Iberoamericana.
IT
[9] Gamerman D. & Lopes, H.F. (2006). Markov Chain Montecarlo. Stochastic
Simulation for Bayesian Inference. Second edition. London: Chapman &
Hall.
[10] Gelman, A., Carlin, J.B., Stern, H.S. & Rubin, D.B. (2004). Bayesian Data
Analysis. Second edition. London: Chapman & Hall.
[11] Lindley, D.V. (1965). An Introduction to Probability and Statistics from a

Bayesian Viewpoint. Vol 2. Inference. Cambridge: Cambridge University
Press.
[12] Lindley, D.V. (1985). Making Decisions. Second edition. London: Wiley.
[13] Mignon, H.S. and Gamerman, D. (1999). Statistical Inference: An Integrated Approach. London: Arnold.
88
ITAM
[14] OHagan, A. (1994). Kendalls Advanced Theory of Statistics. Vol 2b. Bayesian Inference. Cambridge: Edward Arnold.
[15] Press, S.J. (1989). Bayesian Statistics. Principles, Models and Applications.
New York: Wiley.
IT
AM
[16] Robert, C.P. (2001). The Bayesian Choice. Second edition. New York:
Springer Verlag.
89

NotasBayesMR PDF

Cargado por

Copyright:

Formatos disponibles

NotasBayesMR PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

NotasBayesMR PDF

Cargado por

Copyright:

Formatos disponibles

Estadstica Bayesiana

1.2. Los lmites de la Estadstica Frecuentista

1.3. La conveniencia de una Teora Estadstica . . . . . . . . . . . . .

2.2. Problemas de decision con incertidumbre . . . . . . . . . . . . . .

2.3. Algunos criterios de solucion para problemas de decision con incertidumbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3.1. Criterio optimista . . . . . . . . . . . . . . . . . . . . . .

2.3.2. Criterio pesimista (solucion minimax) . . . . . . . . . . .

2.3.3. Criterio de la consecuencia mas probable

2.3.4. Criterio de la utilidad promedio . . . . . . . . . . . . . . .

2.3.5. Criterio de la utilidad esperada . . . . . . . . . . . . . . .

2.1. Problemas de decision sin incertidumbre . . . . . . . . . . . . . .

3. Elementos de la Teora de Decisi

3.1. Axiomas de coherencia (D, E, C, ) . . . . . . . . . . . . . . . . .

3.4. Principio de la utilidad esperada maxima . . . . . . . . . . . . .

3.6. Reglas de decisi

3.7. Extensiones del espacio del problema de decision . . . . . . . . .

4.1. Probabilidad subjetiva . . . . . . . . . . . . . . . . . . . . . . . .

4.3. Distribuciones no informativas . . . . . . . . . . . . . . . . . . .

4.4. Utilidad y perdida . . . . . . . . . . . . . . . . . . . . . . . . . .

4.6. Utilidad del dinero . . . . . . . . . . . . . . . . . . . . . . . . . .

5. La inferencia como problema de decisi

5.1. Contraste de hip

6.3. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . . .

6.4. Distribuciones no informativas . . . . . . . . . . . . . . . . . . .

6.4.1. Distribuciones conjugadas mnimo informativas . . . . . .

6.4.2. Regla de Jeffreys . . . . . . . . . . . . . . . . . . . . . . .

6.1. Principio de verosimilitud . . . . . . . . . . . . . . . . . . . . . .

Los lmites de la Estadstica Frecuentista

Las tecnicas que se presentan en un curso habitual de Estadstica Matem

Por otra parte, es com

generales (en la lista de ejercicios de este captulo se encuentra una peque

La conveniencia de una Teora Estadstica

rre Simon de Laplace (1749-1827), quien le dio su nombre: Probabilidad Inversa.

Ejercicio 1.1. Suponga que X es una variable aleatoria con distribuci

Asimismo, demuestre que en este caso el u

Si las dos muestras son independientes entre s y adem

Ejercicio 1.3. Sea x1 , x2 , . . . , xn una muestra aleatoria de una distribuci

con un nivel de significancia = 0,05. Construya la regi

Ejercicio 1.4. Considere la situaci

Coinciden ambos estimadores? Que opina de este resultado?

que la normatividad electoral exige. Como resultado, report

Con esta informaci

D = {d1 , d2 , . . . , dk }, el conjunto de decisiones.

Para cada di D, Ei = {Ei1 , Ei2 , . . . , Eini } una particion del evento

Para cada di D, Ci = {ci1 , ci2 , . . . , cini } donde cij es la consecuencia

di Ci i {1, 2, . . . , k}, i.e. a cada accion se le asocia un conjunto de

Figura 2.1: Arbol

Bajo las condiciones de un problema de decision sin incertidumbre, es posible

Ejemplo 2.1.1. Suponga que cuenta con una hoja de l

D = {dhl |dhl = dise

y bajo el supuesto de que el beneficio de un dise

En este problema las consecuencias son de entrada numericas y, m

En este ejemplo es interesante observar que el conjunto D de dise

Figura 2.2: Region factible para (l, h) con S = 16.

Figura 2.3: Conjunto de consecuencias en funcion de h, con S = 16.

Figura 2.4: Arbol

Tabla 2.1: Representaci

Algunos criterios de soluci

De cada grupo de ramas secundarias en el arbol, se eliminan todas excepto

Axioma 2. Transitividad: si di , dj , dk D y sucede que di dj , y adem

Ahora, dado un problema de decision con incertidumbre (D, E, C, ) con d D

dR1 dR2 H. = Area(R