STD 108 Bis
STD 108 Bis
STD 108 Bis
27 de octubre de 2008
Índice
1. Elementos básicos 2
1.1. Nociones y presupuestos básicos . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Familias paramétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4. Estimadores insesgados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1
6. Apéndice: Demostración del Teorema llave 34
6.1. Enunciado del Teorema 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.2. Preliminares de Análisis y Álgebra . . . . . . . . . . . . . . . . . . . . . . 35
6.3. Lema previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.4. Demostración del Teorema. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
7. Ejercicios Adicionales 37
1. Elementos básicos
La estadı́stica matemática forma parte de la teorı́a de probabilidades en el sentido de
que cada problema de la estadı́stica matemática es, en esencia, un problema (a veces
muy peculiar) de la teorı́a de las probabilidades. Pero la estadı́stica matemática, co-
mo tal, también ocupa una posición independiente en la clasificación de las ciencias.
La estadı́stica matemática puede considerarse como la ciencia del llamado compor-
tamiento inductivo del hombre (y no sólo del hombre) en condiciones cuando éste, a
base de su propia experiencia, debe tomar decisiones con las mı́nimas pérdidas para
él.
Borovkov, A. A. (1984). “Estadı́stica matemática”. Mir, Moscú.
0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0. (1)
2
Aunque están formuladas de un modo bastante impreciso, las preguntas planteadas en
el Ejemplo 1.1 son preguntas genuinas. Para hacerlas precisas y matemáticamente tratables
debemos construir un modelo probabilistico para los datos observados. Lo más simple es
suponer que los resultados observados son realizaciones de variables aleatorias independi-
entes identicamente distribuidas. Para el caso de los resultados observados en la secuencia
(1) se puede suponer que provienen de variables aleatorias cuya distribución es Bernoulli
de parámetro p.
Con este modelo para los datos observados en (1) la pregunta (a) podrı́a reformularse
del siguiente modo ¿Cuál es el valor del parámetro p? De acuerdo con la ley de los grandes
números (y el teorema central del lı́mite) lo más probable es que el valor del parámetro p
sea próximo al promedio de los datos observados. Para determinar el valor exacto de p se
necesita una sucesión infinita de datos y sólo disponemos de una cantidad limitada (20 en
este caso). La respuesta a la pregunta (a) deberá ser un valor aproximado.
La pregunta (b) es de naturaleza distinta ya que se trata de tomar una decisión. Usando
los resultados observados en (1) hay que decidir si p ≤ 1/2 o p > 1/2. Como no es posible
calcular exactamente el verdadero valor de p (ya que solamente podemos estimarlo), cuando
se tome la decisión se correra el riesgo de equivocarse. Cualquiera sea la regla que se adopte
para decidir si se apostará al 0 o al 1 habrá que evaluar qué probabilidad de equivocarse
se tendrá al tomar la decisión.
La pregunta (a) pertenece a una clase de problemas denominados estimación de parámet-
ros desconocidos. La pregunta (b) pertenece a una clase de problemas denominados verifi-
cación de hipótesis estadı́sticas.
En estas notas vamos a exponer los rudimentos básicos de la teorı́a general que permite
tratar problemas similares a los presentados en el Ejemplo 1.1.
3
3. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} son distinguibles: Fθ1 6= Fθ2 cuando
θ1 6= θ2 .
4. Las distribuciones de la familia F = {Fθ : θ ∈ Θ} tienen “densidad”. Si se trata
de una familia de distribuciones continuas esto significa que para cada θ ∈ Θ, existe
d
una función densidad de probabilidades (f.d.p.) fθ (x) tal que dx Fθ (x) = fθ (x). Si se
trata de una familia de distribuciones discretas esto significa que para cada θ ∈ Θ,
existe una función de probabilidad (f.p.) fθ (x) tal que Pθ (X = x) = fθ (x).
5. Es posible conseguir muestras aleatorias de la variable X del volumen que se desee.
Esas hipótesis son suficientes para trabajar con todas las familias de distribuciones consid-
eradas en este curso.
4
6. Distribución de Bernoulli. Es la distribución B(1, p) de parámetro p ∈ [0, 1], cuya
función de probabilidad es
fp (x) = (1 − p)1−x px , x = 0, 1.
1.3. Estimadores
El punto de partida de la investigación estadı́stica está constituido por una mues-
tra aleatoria, X1 , . . . , Xn , de la distribución desconocida F perteneciente a una familia
paramétrica de distribuciones F = {Fθ : θ ∈ Θ}. Como las distribuciones de la familia F
son distinguibles, lo que se quiere saber es cuál es el parámetro θ ∈ Θ correspondiente a la
distribución F . En otras palabras, se quiere hallar θ ∈ Θ tal que F = Fθ .
Estimar el párametro θ de la distribución desconocida F , basandose en la muestra
aleatoria X1 , . . . , Xn , significa construir una función de la muestra dada, θ̂ := θ̂(X1 , . . . , Xn ),
a valores en el conjunto paramétrico Θ, que permita aproximar el parámetro desconocido
θ. La variable aleatoria θ̂ se denomina un estimador puntual para θ.
Formalmente, “cualquier” función θ̂ de la muestra aleatoria X1 , . . . , Xn que no depende
de parámetros desconocidos se denomina una estadı́stica.
Ejemplo 1.3. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X. Ejemplos
de estadı́sticas son
(i) X(1) = mı́n(X1 , . . . , Xn ),
(ii) X(n) = máx(X1 , . . . , Xn ),
P
(iii) X = n1 ni=1 Xi ,
P
(iv) σ̂ 2 = n1 ni=1 (Xi − X)2 .
En (i) y (ii), mı́n(·) y máx(·) denotan, respectivamente, el mı́nimo y el máximo mues-
trales observados. Por otro lado, X y σ̂ 2 denotan, respectivamente, la media y la varianza
muestrales.
Cualquier estadı́stica que asuma valores en el conjunto paramétrico Θ es un estimador
puntual θ. El adjetivo puntual está puesto para distinguirla de las estimaciones por inter-
valo que veremos más adelante.
En muchas situaciones, lo que interesa es estimar una función g(θ). Por ejemplo, cuando
se considera una muestra aleatoria X1 , . . . , Xn de una variable X ∼ N (µ, σ 2 ) donde µ y
σ 2 son desconocidos entonces θ = (µ, σ 2 ) y el conjunto de parámetros es
Θ = {(µ, σ 2 ) : µ ∈ R y σ 2 > 0}.
5
Si el objetivo es estimar solamente µ, entonces g(θ) = µ.
Definición 1.4. Cualquier estadı́stica que solamente asuma valores en el conjunto de los
posibles valores de g(θ) es un estimador para g(θ).
Uno de los grandes problemas de la estadı́stica es construir estimadores razonables para
el parámetro desconocido θ o para una función g(θ). Existen diversos métodos para elegir
entre todos los estimadores posibles de θ. Cada elección particular del estimador depende
de ciertas propiedades que se consideran “deseables” para la estimación.
Más exigente, es pedirle que tenga la siguiente propiedad, llamada consistencia fuerte:
Pθ lı́m θ̂(X1 , . . . , Xn ) = θ = 1. (3)
n→∞
donde Z x
1 2
Φ(x) = √ e−t /2 dt
−∞ 2π
es la función de distribución de una N (0, 1).
6
Los problemas de consistencia y normalidad asintótica están relacionados con las leyes
de los grandes números y el teorema central de lı́mite. El siguiente ejemplo, bastante gener-
al, muestra dicha relación para el caso en que se quiere estimar la media de la distribución.
Ejemplo 1.5 (Estimación de media). Sea F = {Fθ : θ ∈ Θ} una familia de distribuciones.
Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza correspondientes
a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea X1 , . . . , Xn una
muestra aleatoria de alguna distribución perteneciente a F. Denotemos mediante X el
promedio de la muestra:
n
1X
X= Xi .
n i=1
Sea θ ∈ Θ, si la muestra aleatoria, X1 , . . . , Xn , proviene de la distribución Fθ , tenemos que
" n # n
1X 1X
Eθ X = Eθ Xi = Eθ [Xi ] = µ(θ)
n i=1 n i=1
y
n
! n
1X 1 X 1
Vθ X = Vθ Xi = 2 Vθ [Xi ] = σ 2 (θ).
n i=1 n i=1 n
7
1.4. Estimadores insesgados
La primera propiedad que se considera deseable de un estimador puntual es su consis-
tencia (débil). Como casi cualquier estimación razonable tendrá tal propiedad, en su lugar
se impone una propiedad ı́ntimamente relacionada con ella pero algo más restictiva. Esta
propiedad es que la estimación sea insesgada. En lo que sigue indicaremos el significado de
este término y mostraremos su relación con el problema de comparar estimadores.
Error cuadrático medio, sesgo y varianza. Uno de los procedimientos más usados
para evaluar el desempeño de un estimador es considerar su error cuadrático medio. Esta
noción permite precisar el sentido que se le otorga a los enunciados del tipo “el estimador
puntual θ̂(X1 , . . . , Xn ) está próximo de θ”.
Definición 1.6 (Error cuadrático medio). El error cuadrático medio (ECM) de un esti-
mador θ̂ para el parámetro θ se define por
h i
ECM(θ̂) = Eθ (θ̂ − θ)2 . (5)
donde Bθ (θ̂) := Eθ [θ̂]−θ es el llamado sesgo del estimador. El primer término de la descom-
posición (6) describe la “variabilidad” del estimador, y el segundo el “error sistemático”:
Eθ [θ̂] describe alrededor de qué valor fluctúa θ̂ y Vθ (θ̂) mide cuánto fluctúa.
Definición 1.7 (Estimadores insesgados). Diremos que un estimador θ̂ es insesgado para
el parámetro θ si
Eθ [θ̂] = θ.
para todo θ ∈ Θ, o sea Bθ (θ̂) ≡ 0. Si lı́mn→∞ Bθ [θ̂] = 0 para todo θ ∈ Θ, diremos que el
estimador θ̂ es asintóticamente insesgado para θ.
Nota Bene. Una consecuencia destacable de la descomposición (6) para grandes mues-
tras (n → ∞) es la siguiente: si a medida que se aumenta el volumen de la muestra, el
sesgo y la varianza del estimador θ̂ tienden a cero, entonces, el estimador θ̂ converge en
media cuadrática al verdadero valor del parámetro θ. Más aún, esas propiedades implican
la consistencia débil del estimador.
Teorema 1.8. Sea θ̂ un estimador de θ basado en una muestra de volumen n. Si θ̂ es
asintóticamente insesgado y su varianza tiende a cero, entonces θ̂ es débilmente consistente.
8
Demostración. El resultado se obtiene usando la desigualdad de Chebychev y la iden-
tidad (6):
1 h i 1
Pθ θ̂ − θ > ǫ ≤ 2 Eθ (θ̂ − θ)2 = 2 Vθ (θ̂) + B2θ (θ̂) → 0.
ǫ ǫ
para todo θ, con desigualdad estricta para al menos un valor de θ. En tal caso, el estimador
θ̂2 se dice inadmisible. Si existe un estimador θ̂∗ tal que para todo estimador θ̂ de θ con
θ̂ 6= θ̂∗
para todo θ, con desigualdad estricta para al menos un valor de θ, entonces θ̂∗ se dice
óptimo.
Cuando la comparación se restringe a los estimadores son insesgados, el estimador
óptimo, θ̂∗ , se dice el estimador insesgado de varianza uniformemente mı́nima. Esta de-
nominación resulta de observar que estimadores insesgados la relación (8) adopta la forma
Vθ (θ̂∗ ) ≤ Vθ (θ̂),
1.5. Ejemplos
Ejemplo 1.9. Sean X1 , X2 , X3 una muestra aleatoria de una variable aleatoria X tal que
Eθ [X] = θ y Vθ (X) = 1. Consideremos los estimadores
X1 + X2 + X3 1 1 1
X= y θ̂ = X1 + X2 + X3 .
3 2 4 4
Como vimos en el Ejemplo 1.5 Eθ [X] = θ y Vθ (X) = 31 . Tenemos también que
1 1 1 1 1 1
Eθ [θ̂] = Eθ [X1 ] + Eθ [X2 ] + Eθ [X3 ] = θ + θ + θ = θ
2 4 4 2 4 4
y
1 1 1 1 1 1 6
Vθ (θ̂) = Vθ (X1 ) + Vθ (X2 ) + Vθ (X3 ) = + + = .
4 16 16 4 16 16 16
Como X y θ̂ son insesgados, resulta que X es mejor que θ̂, pues Vθ (X) < Vθ (θ̂) para todo
θ.
9
Ejemplo 1.10 (Estimación de varianza). Sea F = {Fθ : θ ∈ Θ} una familia de dis-
tribuciones. Para cada θ ∈ Θ designemos mediante µ(θ) y σ 2 (θ) la media y la varianza
correspondientes a la distribución Fθ , respectivamente, a las que supondremos finitas. Sea
X1 , . . . , Xn una muestra aleatoria de alguna distribución perteneciente a F. Sean X y σ̂ 2
la media y la varianza muestrales definidas en el Ejemplo 1.3:
n n
1X 2 1X
X := Xi y σ̂ := (Xi − X)2 .
n i=1 n i=1
En el Ejemplo 1.5 se mostró que X es un estimador insesgado para la media µ(θ) y que su
varianza vale Vθ (X) = n1 σ 2 (θ). En consecuencia,
n
2 1X
Eθ [σ̂ ] = Vθ (Xi ) − Vθ (X)
n i=1
1 2
= σ 2 (θ) − σ (θ)
n
n−1 2
= σ (θ). (11)
n
Esto demuestra que σ̂ 2 no es un estimador insesgado para la varianza σ 2 (θ). La identidad
Eθ [σ̂ 2 ] = n−1
n
σ 2 (θ) significa que si tomamos repetidas muestras de tamaño n y se promedian
las varianzas muestrales resultantes, el promedio no se aproximará a la verdadera varianza,
1
La descomposición (9) se obtiene haciendo lo siguiente. Para cada i escribimos (Xi − X) en la forma
(Xi − µ(θ)) − (X − µ(θ)). Desarrollando cuadrados obtenemos (Xi − X)2 = (Xi − µ(θ))2 + (X − µ(θ))2 −
2(Xi − µ(θ))(X − µ(θ)). El resultado se obtiene observando que el promedio de los términos cruzados
(Xi − µ(θ))(X − µ(θ)) es igual a (X − µ(θ))2 . (Hacer la cuenta y verificarlo! )
10
sino que de modo sistemático el valor será más pequeño debido al factor (n − 1)/n. Este
factor adquiere importancia en las muestras pequeñas. Si n → ∞, el factor (n − 1)/n → 1
lo que demuestra que σ̂ 2 es un estimador asintóticamente insesgado para la varianza σ 2 (θ).
n
Para eliminar el sesgo en σ̂ 2 , basta multiplicar σ̂ 2 por n−1 . De (11) sigue que
n
2 n 1 X
S := σ̂ 2 = (Xi − X)2 (12)
n−1 n − 1 i=1
θ θ2
Eθ [θ̂1 ] = Eθ [X] = y Vθ (θ̂1 ) = ., (13)
2 12n
Por lo tanto, θ̂1 es un estimador sesgado para θ. Combinando las identidades (13) en (6),
tenemos que
2
2 θ2 θ θ2 θ2 (1 + 3n) 2
ECM(θ̂1 ) = Vθ (θ̂1 ) + Bθ (θ̂1 ) = + −θ = + = θ . (14)
12n 2 12n 4 12n
nxn−1
fθ (x) = 1{0 < x < θ},
θn
de donde se deduce que
n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = . (15)
n+1 (n + 1)2 (n + 2)
Por lo tanto, θ̂2 es un estimador asintóticamente insesgado para θ. Combinando las iden-
tidades (15) en (6), obtenemos
2
nθ2 n
ECM(θ̂2 ) = Vθ (θ̂2 ) + B2θ (θ̂2 )
= + θ−θ
(n + 1)2 (n + 2) n+1
nθ2 θ2 2θ2
= + = . (16)
(n + 1)2 (n + 2) (n + 1)2 (n + 1)(n + 2)
Es fácil, pero tedioso, ver que ECM(θ̂2 ) < ECM(θ̂1 ) para todo θ y todo n > 1. Por lo tanto,
X(n) es mejor que X para todo θ y todo n > 1.
11
2. Método de máxima verosimilitud
El método de máxima verosimilitud es un “método universal” para construir esti-
madores puntuales. Su base intuitiva es la siguiente: en los experimentos aleatorios los
resultados observados deben tener alta probabilidad de ocurrir.
Para hacer más precisa esa intuición consideremos una muestra aleatoria, X1 , . . . , Xn ,
de una variable discreta cuya distribución pertenece a una familia F = {Fθ : θ ∈ Θ}.
Sea fθ (x) la función de probabilidad de la distribución Fθ . La probabilidad de observar los
resultados X1 = x1 , . . . , Xn = xn se calcula del siguiente modo:
n
Y n
Y
Pθ (X1 = x1 , . . . , Xn = xn ) = Pθ (Xi = xi ) = fθ (xi ). (17)
i=1 i=1
Si los resultados observables deben tener una alta probabilidad de ocurrir y observamos
que X1 = x1 , . . . , Xn = xn , entonces lo razonable serı́a elegir entre todos los parámetros
posibles, θ ∈ Θ, aquél (o aquellos) que maximicen (17). En consecuencia, Qnse podrı́a estimar
θ como el valor (o los valores) de θ que hace máxima la probabilidad i=1 fθ (xi ).
Sobre la notación. Para destacar que el valor del estimador de máxima verosimilitud
depende de los valores observados, x1 , . . . , xn , en lugar de θ̂mv escribiremos θ̂mv (x1 , . . . , xn ):
θ̂mv = θ̂mv (x1 , . . . , xn ) := arg máx Lθ (x1 , . . . , xn ). (19)
θ∈Θ
12
1. El conjunto paramétrico Θ es abierto.
2. El soporte de las “densidades” asociadas no depende del parámetro. Esto es, existe
un conjunto S(F) tal que sop(fθ ) := {x ∈ R : fθ (x) > 0} = S(F) para todo θ ∈ Θ.
Esto nos habilita a tomar logaritmos y utilizar la propiedad el logaritmo del producto es
igual a la suma de los logaritmos. En otras palabras, para cada (x1 , . . . , xn ) ∈ S(F)n , la
función de θ, log Lθ (x1 , . . . , xn ) está bien definida y vale que
n
Y n
X
log Lθ (x1 , . . . , xn ) = log fθ (xi ) = log fθ (xi ).
i=1 i=1
13
Lema 2.3. El estimador de máxima verosimilitud θ̂mv , basado en los valores x1 , . . . , xn
de una muestra aleatoria, correspondiente a una distribución perteneciente a una familia
(uni)paramétrica regular, F, es solución de la siguiente ecuación:
n
X
ψθ (xi ) = 0, (22)
i=1
Nota Bene. Por supuesto que tanto (20) como (22) son condiciones necesarias para que
θ sea un máximo. Para asegurarse que es un máximo deberı́an verificarse las condiciones
de segundo orden. Además debe verificarse que no se trata de un máximo relativo sino
absoluto.
Ejemplo 2.4 (Distribuciones de Bernoulli). Es fácil ver que la familia de distribuciones
{B(1, p) : p ∈ (0, 1)} es una familia uniparamétrica regular: en este caso θ = p, Θ = (0, 1)
y las funciones de probabilidad son de la forma fp (x) = (1 − p)1−x px , x = 0, 1. Tratandose
de una familia regular podemos usar el resultado del Lema 2.3 para encontrar el estimador
de máxima verosimilitud basado en una muestra aleatoria X1 , . . . , Xn .
d
En primer lugar hallamos la expresión de la función ψp (x) = dp log fp (x). Observando
que
log fp (x) = log (1 − p)1−x px = (1 − x) log(1 − p) + x log(p),
y derivando respecto de p obtenemos
1 1
ψp (x) = (x − 1) + x
1−p p
Por lo tanto, la ecuación (22) adopta la forma
n n
1 X 1X
(xi − 1) + xi = 0. (24)
1 − p i=1 p i=1
14
Con un poco más de trabajo, se puede verificar que dicha solución maximiza el logaritmo
de la verosimilitud.
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para p resulta ser la media muestral
n
1X
p̂mv = p̂mv (x1 , . . . , xn ) = xi
n i=1
Por lo tanto, el estimador de máxima verosimilitud para p, basado en una muestra aleatoria
X1 , . . . , Xn de variables Bernoulli(p), es el promedio muestral
n
1X
p̂mv (X1 , . . . , Xn ) = Xi . (26)
n i=1
15
Nota Bene relacionada con el Ejemplo 2.4 Si la muestra aleatoria arrojó los valores
1, 1, . . . , 1, es fácil ver que p̂mv = 1, en cambio si arrojó 0, 0, . . . , 0 resulta que p̂mv = 0.
Estos resultados también coinciden con el promedio de los valores observados. Por lo tanto,
el resultado obtenido en (26) se puede extender al caso en que Θ = [0, 1].
cuya solución es
n
λ = Pn = (x)−1 .
i=1 xi
Por lo tanto, el estimador de máxima verosimilitud para λ, basado en una muestra aleatoria
X1 , . . . , Xn de variables Γ(1, λ), es
n
!−1
1X
λ̂mv (X1 , . . . , Xn ) = Xi .
n i=1
16
Ejemplo 2.7 (Distribuciones normales con varianza conocida). Sea σ 2 > 0 arbitrario, pero
fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : µ ∈ R} es una familia
regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el estimador de
máxima verosimilitud para µ, basado en una muestra aleatoria X1 , . . . , Xn de una variable
aleatoria X ∼ N (µ, σ 2 ), con σ 2 conocido, es
n
1X
µ̂mv (X1 , . . . , Xn ) = Xi = X
n i=1
Ejemplo 2.8 (Distribuciones normales con media conocida). Sea µ un número real arbi-
trario, pero fijo y conocido. La familia de distribuciones normales {N (µ, σ 2 ) : σ 2 > 0} es
una familia regular uniparamétrica. Usando el resultado del Lema 2.3 se puede ver que el
estimador de máxima verosimilitud para σ 2 , basado en una muestra aleatoria X1 , . . . , Xn
de una variable aleatoria X ∼ N (µ, σ 2 ), con µ conocido, es
n
2 1X
σ̂mv (X1 , . . . , Xn ) = (Xi − µ)2 .
n i=1
{N (µ, σ 2 ) : µ ∈ R, σ 2 > 0}
es una familia regular con parámetro bidimensional. Para encontrar el estimador de máxima
verosimilitud basado en una muestra aleatoria X1 , . . . , Xn usaremos el mismo razonamiento
que nos condujo al resultado del Lema 2.3.
En este caso θ = (µ, σ 2 ), Θ = R × (0, ∞), la función densidad es de la forma
− 21
1
2 −2 (x − µ)2
fµ, σ2 (x) = (2π) σ exp − ,
2σ 2
y la función de verosimilitud es
n
Y
Lµ, σ2 (x1 , . . . , xn ) = fµ, σ2 (xi )
i=1
n
!
−n
n
2 −2 1 X
= (2π) 2 σ exp − 2 (xi − µ)2 .
2σ i=1
17
Debido a que log es una función creciente, las funciones Lµ, σ2 (x1 , . . . , xn ) y log Lµ, σ2 (x1 , . . . , xn )
alcanzan su valor máximo en los mismos valores de (µ, σ 2 ). El punto (µ, σ 2 ) donde se al-
canza el máximo de log Lµ, σ2 (x1 , . . . , xn ) se obtiene resolviendo el sistema de ecuaciones
Es fácil comprobar que en ese punto de coordenadas (µ, σ 2 ) se alcanza el máximo absoluto
de la función log Lµ, σ2 (x1 , . . . , xn ).
En resumen, si la muestra aleatoria X1 , . . . , Xn arrojó los valores x1 , . . . , xn , el estimador
de máxima verosimilitud para (µ, σ 2 ) es el punto del conjunto parámetrico Pn R × (0, ∞)
1
cuyas coordenadas son el promedio y la varianza muestrales: µ̂mv = n i=1 xi = x y
P
σˆ2 mv = n1 ni=1 (xi − x)2 .
Por lo tanto, el estimador de máxima verosimilitud para (µ, σ 2 ), basado en una mues-
tra aleatoria X1 , . . . , Xn de variables normales, N (µ, σ 2 ), es el punto en R × (0, ∞) de
coordenadas aleatorias
n
1X
µ̂mv (X1 , . . . , Xn ) = X, σˆ2 mv (X1 , . . . , Xn ) = (Xi − X)2 . (28)
n i=1
18
Malas noticias! La familia de distribuciones gamma {Γ(ν, λ) : ν > 0, λ > 0} es una
familia regular con parámetro bidimensional. Sı́!, Sı́!, Ya lo sé!: derivamos el logaritmo de
la verosimilitud y toda esa sanata que ya me tiene ... Todo parece marchar sobre ruedas,
hasta que se intenta hallar un estimador de máxima verosimilitud, basado en una muestra
aleatoria X1 , . . . , Xn , para (ν, λ). (“Esta calle es más angosta de lo que pensás”, dijo el
maestro Zen)
= Lθ̂mv (x1 , . . . , xn )
= máx Lθ (x1 , . . . , xn )
θ∈Θ
= máx Lg−1 (λ) (x1 , . . . , xn )
λ∈Λ
= máx L∗λ (x1 , . . . , xn ).
λ∈Λ
Por lo tanto,
d = g(θ̂mv ).
g(θ)mv
19
Ejemplo 2.11. Sea X1 , . . . , Xn una muestra aleatoria de la variable aleatoria X ∼ N (µ, 1).
En el Ejemplo 2.7 vimos que µ̂mv = X es el estimador de máxima verosimilitud para µ.
Queremos estimar
g(µ) = Pµ (X ≤ 0) = Φ(−µ).
Por el principio de invariancia, tenemos que
g(µ̂mv ) = Φ(−X)
Pn Pn
xi
Lp2 (x1 , . . . , xn ) = (1 − p2 )n− i=1 xi
p2 i=1
Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ (1 − p1 )n−S pS1 > (1 − p2 )n−S pS2
S S
n p1 n p2
⇔ (1 − p1 ) > (1 − p2 )
1 − p1 1 − p2
S n
p1 (1 − p2 ) 1 − p2
⇔ >
p2 (1 − p1 ) 1 − p1
p1 (1 − p2 ) 1 − p2
⇔ S log > n log .
p2 (1 − p1 ) 1 − p1
20
Observando que
p1 (1 − p2 )
<1
p2 (1 − p1 )
se obtiene que
−1
1 1 − p2 p1 (1 − p2 )
Lp1 (x1 , . . . , xn ) > Lp2 (x1 , . . . , xn ) ⇔ S < log log .
n 1 − p1 p2 (1 − p1 )
Por lo tanto,
h i−1
1−p2 p1 (1−p2 )
p1
si x < log 1−p1
log p2 (1−p1 )
,
p̂mv (x1 , . . . , xn ) = (29)
h i−1
p si x > log 1−p2
log p1 (1−p2 )
.
2 1−p1 p2 (1−p1 )
y 0.55 < 0.55033, el estimador de máxima verosimilitud, basado en las observaciones (1),
será
p̂mv (0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0) = 0.5.
21
La función de verosimilitud es
n
Y 1
Lθ (x1 , . . . , xn ) = 1{0 ≤ xi ≤ θ}
i=1
θ
n
1 Y
= n 1{0 ≤ xi ≤ θ}
θ i=1
1
= n 1 máx xi ≤ θ .
θ i=1,...,n
Por lo tanto, el estimador de máxima verosimilitud para θ, basado en una muestra aleatoria
X1 , . . . , Xn de una variable aleatoria X ∼ U(0, θ), es el máximo de la muestra
θ̂mv = X(n) := máx Xi . (31)
i=1,...,n
22
3. Intermedio: Poblaciones Normales
En los Ejemplos 2.7, 2.8 y 2.9 se obtuvieron los estimadores de máxima verosimili-
tud para la media y la varianza de poblaciones normales. En esta sección estudiaremos
sus propiedades. Debido a que los estimadores de parámetros son variables aleatorias sus
propiedades dependen de su distribución de probabilidades. Para analizar el sesgo de un
estimador hay que conocer su esperanza; para analizar su consistencia débil hay que cono-
cer su varianza, etc. En lo que sigue, dependiendo del caso, mostraremos como se obtienen
las distribuciones de los estimadores mencionados. Los resultados que vamos a presentar
se utilizan con bastante frecuencia en la construcción de intervalos de confianza y test de
hipótesis.
Nota Bene sobre pivotes. En muchos casos, la distribución de una variable aleatoria se
obtiene relacionandola con alguna distribución conocida. Esto se consigue mediante alguna
transformación de variables. Para ser más precisos, sea X = (X1 , . . . , Xn ) una muestra
aleatoria de una variable aleatoria X cuya distribución depende del parámetro θ y sea
θ̂(X) una estadı́stica o un estimador puntual de θ. Una variable aleatoria de la forma
G(θ̂(X), θ) se llama un un pivote para θ basado en θ̂(X) si su distribución no depende de
θ (ni de ningún otro parámetro desconocido, cuando hay varios parámetros.)
23
para σ 2 , basado en X, es
n
1X
σb2 mv (X) = (Xi − µ)2 .
n i=1
X −µ
Zi := .
σ
Sumando los cuadrados de las variables estandarizadas obtenemos lo siguiente
n
X n
X n
(Xi − µ)2 1 X
Zi2 = = 2 (Xi − µ)2
i=1 i=1
σ2 σ i=1
n
!
n 1X n
= (Xi − µ)2 = 2 σb2 mv (X) (33)
σ2 n i=1 σ
Las igualdades (33) relacionan la variable aleatoria σb2 mv (X) con una suma de cuadrados de
normales N (0, 1) independientes que no depende de la varianza σ 2 ni de ningún parámetro
desconocido. Por lo tanto,
n b2
σ mv (X)
σ2
24
Caso n = 1. La función de distribución de una variable aleatoria χ21 es F (x) = P(Z 2 ≤ x),
donde Z es N (0, 1). Para cada x > 0, vale que
Z √
x
2
√ √ √ 1 2
F (x) = P(Z ≤ x) = P(|Z| ≤ x) = P(− x ≤ Z ≤ x) = √
√ e−t /2 dt.
− x 2π
La última expresión que aparece en el lado derecho de la identidad (34) es la expresión de
la densidad de la distribución Γ 12 , 12 . Por lo tanto,
2 1 1
χ1 = Γ , .
2 2
0.12
0.1
0.08
0.06
0.04
0.02
0
0 5 10 15 20 25
25
Corolario 3.2. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ conocida. El estimador de máxima verosimilitud para la varianza
P
σ 2 , σb2 mv (X) = n1 ni=1 (Xi − µ)2 , se distribuye como una variable aleatoria de la forma
σ2 2 n 1
n
Y n , donde Y n ∼ χ n = Γ ,
2 2
. En particular, para cada σ 2 > 0 vale que
σ2 σ 2 (n/2)
Eσ2 [σb2 mv (X)] = Eσ2 [Yn ] = = σ2, (35)
n n (1/2)
(σ 2 )2 (σ 2 )2 (n/2) 2(σ 2 )2
Vσ2 (σb2 mv (X)) = Vσ 2 (Y n ) = = . (36)
n2 n2 (1/2)2 n
La identidad (35) significa que σb2 mv (X) es un estimador insesgado para la varianza. La
identidad (36) implica que lı́mn→∞ Vσ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un
estimador insesgado y débilmente consistente.
Teorema 3.3 (Llave). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (µ, σ 2 ). Valen las siguientes afirmaciones:
√
n(X−µ)
(a) Z = σ
tiene distribución N (0, 1).
P
(b) U = n−1
σ2
S 2 = σ12 ni=1 (Xi − X)2 tiene distribución χ2n−1 .
(c) Z y U son variables aleatorias independientes.
Nota Bene. El calificativo de “llave” para el Teorema 3.3 está puesto para destacar que
sus resultados son la clave fundamental en la construcción de intervalos de confianza y de
reglas de decisión sobre hipótesis estadı́sticas para distribuciones normales. La prueba de
este Teorema es bastante técnica y puede verse en el Apéndice.
Corolario 3.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable aleatoria X ∼
N (µ, σ 2 ), con media µ y varianza σ 2 desconocidas. El estimador de máxima verosimilitud
P
para la varianza, σˆ2 mv (X) = n1 ni=1 (Xi − X)2 , se distribuye como una variable aleatoria
26
σ2 n−1 1
de la forma n
U, donde U ∼ χ2n−1 = Γ 2
,2 . En particular, para cada (µ, σ 2 ) vale que
b2
σ2 σ 2 ((n − 1)/2) n−1 2
E [σ mv (X)] =
µ,σ 2 Eµ,σ [U ] =
2 = σ , (38)
n n (1/2) n
(σ 2 )2 (σ 2 )2 ((n − 1)/2) 2(n − 1) 2 2
Vµ, σ2 (σb2 mv (X)) = 2
V µ,σ 2 (U ) =
2 2
= (σ ) . (39)
n n (1/2) n2
La identidad (38) significa que σb2 mv (X) es un estimador SESGADO para la varianza,
pero asintóticamente insesgado debido a que lı́mn→∞ Eµ,σ2 [σb2 mv (X)] = σ 2 . La identidad
(39) implica que lı́mn→∞ Vµ,σ2 (σb2 mv (X)) = 0. En consecuencia, σb2 mv (X) es un estimador
sesgado, asintóticamente insesgado y débilmente consistente.
27
Observación 4.3. Sean θ1 (X) una cota inferior de confianza de nivel β1 > 1/2 y θ2 (X)
una cota superior de confianza de nivel β2 > 1/2, tales que Pθ (θ1 (X) ≤ θ2 (X)) = 1 para
todo θ ∈ Θ. Entonces,
I(X) = [θ1 (X), θ2 (X)]
define un intervalo de confianza para θ de nivel β = β1 + β2 − 1. En efecto,
Definición 4.4 (Pivote). Una variable aleatoria Q(X1 , . . . , Xn ; θ) = Q(X; θ) se dice una
cantidad pivotal o un pivote para el parámetro θ si su distribución no depende de θ (ni de
ningún parámetro desconocido, cuando hay varios parámetros).
28
En tal caso puede verse que para cada X existen θ1 (X) y θ2 (X) tales que
y entonces
Pθ (θ1 (X) ≤ θ ≤ θ2 (X)) = β,
de modo que [θ1 (X), θ2 (X)] es un intervalo aleatorio que contiene a θ con probabilidad β.
4.2. Ejemplo
Ejemplo 4.5 (Poblaciones exponenciales). Sea X = (X1 , . . . , Xn ) una muestra aleatoria
de una varibale aleatoria X ∼ Γ(1, λ), λ > 0.
P
Construyendo un pivote para λ. Sabemos que la suma S = ni=1 Xi tiene distribución
Γ(n, λ). Como la distribución de S depende de λ, S no es un pivote para λ. Sin embargo,
podemos liberarnos de λ utilizando un cambio de variables lineal de la forma T = aS,
donde a es positivo y elegido adecuadamente para nuestros propósitos. Si a > 0 y T = aS,
entonces T ∼ Γ n, λa . Poniendo a = 2λ, resulta que T = 2λS ∼ Γ n, 21 = χ22n . Por lo
tanto,
n
X
Q(X, λ) = 2λ Xi ∼ χ22n
i=1
donde para cada γ ∈ (0, 1), χ22n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ22n .
Despejando λ de las desigualdades
n
X
χ22n,(1−β)/2 ≤ 2λ Xi ≤ χ22n,(1+β)/2
i=1
29
Consideremos ahora las siguientes 10 observaciones
Notación: En todo lo que sigue usaremos la siguiente notación: para cada γ ∈ (0, 1), zγ
será el único número real tal que Φ(zγ ) = γ. Graficamente, a izquierda del punto zγ el área
bajo la campana de Gauss es igual a γ.
Nota Bene. De la simetrı́a de la campana de Gauss, se deduce que para cada β ∈ (0, 1)
vale que z(1−β)/2 = −z(1+β)/2 . Por lo tanto, para Z ∼ N (0, 1) vale que
1+β 1−β
P −z(1+β)/2 ≤ Z ≤ z(1+β)/2 = Φ z(1+β)/2 − Φ −z(1+β)/2 = − = β.
2 2
30
obtenemos que el intervalo I(X) definido por
σ σ
I(X) = X − √ z(1+β)/2 , X + √ z(1+β)/2 ,
n n
donde para cada γ ∈ (0, 1), χ2n, γ designa el único punto de la recta a cuya izquierda queda
una región de probabilidad γ para la distribución χ2n .
Despejando σ 2 de las desigualdades
n b2
χ2n,(1−β)/2 ≤ 2
σ mv ≤ χ2n,(1+β)/2
σ
obtenemos que el intervalo I(X) definido por
" #
nσˆ2 mv nσˆ2 mv
I(X) = ,
χ2n, (1+β)/2 χ2n, (1−β)/2
31
Nota Bene. De la propiedad (b) sigue Q(X, σ 2 ) = (n−1)S 2 /σ 2 es un pivote para σ 2 cuya
distribución es χ2n−1 . Esto permite resolver el problema de la construcción de intervalos de
confianza para la varianza σ 2 adaptando la secuencia desarrollada en la Sección 5.2 para
el caso en que la media µ es conocida. Sin embargo, a diferencia de lo que ocurrı́a cuando
conocı́amos la varianza σ 2 , esta vez la propiedad (a), por si sola, resultará insuficiente
para construir intervalos de confianza
√ para la media µ. Esto es ası́ debido a que en este
caso aunque la distribución de n(X − µ)/σ es conocida, la transformación depende del
parámetro desconocido σ 2 y por lo tanto no es un pivote para µ.
Z
T =p
U/k
32
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−5 −4 −3 −2 −1 0 1 2 3 4 5
33
5.4. Ejemplo
Para fijar ideas vamos a construir intervalos de confianza de nivel β = 0.95 para la
media y la varianza de una variable normal N (µ, σ 2 ), basados en una muestra aleatoria de
volumen n = 8 que arrojó los resultados siguientes: 9, 14, 10, 12, 7, 13, 11, 12.
El problema se resuelve recurriendo a las tablas de las distribuciones χ2 y t y haciendo
algunas cuentas.
Como n = 8 consultamos las tablas de χ27 y de t7 . Para el nivel β = 0.95 tenemos
que (1 + β)/2 = 0.975 y (1 − β)/2 = 0.025. De acuerdo con las tablas χ27, 0.975 = 16.0127,
χ27, 0.025 = 1.6898 y t7, 0.975 = 2.3646. Por otra parte, X = 11, S 2 = 36/7 = 5.1428 y
S = 2.2677.
Algunas cuentas más (y un poco de paciencia) permiten rematar este asunto. Salvo
errores de cuentas, I1 = [2.248, 21.304] es un intervalo de confianza de nivel 0.95 para la
varianza, mientras que I2 = [9.104, 12.895] es un intervalo de confianza de nivel 0.95 para
la media.
En efecto, basta poner Xi∗ = Xi − µ. Las variables Xi∗ son independientes y tienen
distribución N (0, σ 2 ). Además
n n n
1X ∗ 1X 1X
X∗ = Xi = (Xi − µ) = Xi − µ = X − µ.
n i=1 n i=1 n i=1
34
6.2. Preliminares de Análisis y Álgebra
En la prueba del Teorema 3.3 se usarán algunas nociones de Álgebra Lı́neal2 y el
Teorema de cambio de variables para la integral múltiple3 .
Teorema 6.2 (Cambio de variables en la integral múltiple). Sea f : Rn → R una función
integrable. Sea g : Rn → Rn , g = (g1 , . . . , gn ) una aplicación biyectiva, cuyas componentes
tienen derivadas parciales de primer orden continuas. Esto es, para todo 1 ≤ i, j ≤ n, las
funciones ∂y∂ j gi (y) son continuas. Si el Jacobiano de g es diferente de cero en cası́ todo
punto, entonces,
Z Z
f (x)dx = f (g(y))|Jg (y)|dy,
A g −1 (A)
n ∂gi (y)
para todo conjunto abierto A ⊂ R , donde Jg (y) = det ∂yj
.
i,j
Por ende
Z
P (Y ∈ A) = fX (ϕ−1 (y))|Jϕ−1 (y)|dy.
A
35
6.3. Lema previo
Observación 6.4. Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una distribución
N (0, σ 2 ). Por independencia, la distribución conjunta de las variables X1 , . . . , Xn tiene
función densidad de probabilidad de la forma
n n
!
Y 1 1 2 1 1 X 2
f (x) = √ exp − 2 xi = exp − 2 x
i1
2πσ 2σ (2π)n/2 σ n 2σ i=1 i
1 1 2
= exp − 2 ||x||2 .
(2π)n/2 σ n 2σ
De la observación anterior es claro que la distribución conjunta de las variables X1 , . . . , Xn
es invariante por rotaciones. Más concretamente vale el siguiente resultado:
Lema 6.5 (Isotropı́a). Sea X = (X1 , . . . , Xn ) una muestra aleatoria de una variable
N (0, σ 2 ) y sea B ∈ Rn×n una matriz ortogonal, i.e. B T B = BB T = In . Si X = [X1 . . . Xn ]T ,
entonces Y = [Y1 . . . Yn ]T = BX tiene la misma distribución conjunta que X. En particular
las variables aleatorias Y1 , . . . , Yn son idependientes y son todas N (0, σ 2 ).
En segundo lugar,
n
X n
X
T T T T
Yi2 = Y Y = (BX) BX = X B BX = X X = T
Xi2 .
i=1 i=1
36
En consecuencia,
n
X n
X n
X n
X
2 2
Yi2 = Xi2 − Y12 = Xi2 − nX = Xi − X .
i=2 i=1 i=1 i=1
√
Las variables Y1 , . . . , Yn son idependientes. Como n(X) depende de Y1 , mientras que
Pn 2
i=1 Xi − X depende de Y2 , . . . , Yn , resulta que X y S 2 son independientes (lo que
√ √
prueba la parte (c)). Además, n(X) = Y1 ∼ N (0, σ 2 ), por lo tanto Z = n(X) σ
∼ N (0, 1)
(lo que prueba la parte (a)). La parte (b) se deduce de que
n n 2
(n − 1)S 2 1 X 2 X Yi
= 2 Xi − X = ∼ χ2n−1 ,
σ2 σ i=1 i=2
σ
pues las n − 1 variables Y2 /σ, . . . , Yn /σ son independientes y con distribución N (0, 1).
7. Ejercicios Adicionales
Error cuadrático medio
2. Sea X1 , X2 , X3 , X4 una muestra aleatoria de una variable aleatoria tal que Eθ [X] = θ
y Vθ (X) = 1. Comparar los siguientes estimadores para θ
4
1X X1 + 2X2 + 3X3 + 4X4 X1 + X2 + X3
X= Xi , , .
4 i=1 10 3
3. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria tal que Eθ [X] = µ(θ) y
Vθ (X) = σ 2 , donde σ 2 es conocido. Se consideran los siguientes estimadores para µ(θ):
n
X
µ̂(l1 ,...,ln ) := li Xi ,
i=1
37
(b) Hallar el óptimo entre todos los estimadores µ̂(l1 ,...,ln ) que resulten insesgados para µ(θ).
(Sugerencia: Utilizar multiplicadores de Lagrange.)
4. Sea X1 , . . . , Xn una muestra aleatoria de una variable aleatoria X ∼ U(0, θ). Se con-
sidera X(n) := máx(X1 , . . . , Xn ) como estimador para θ.
(a) Hallar la función densidad de X(n) y mostrar que
n nθ2
Eθ [X(n) ] = θ y Vθ (X(n) ) = .
n+1 (n + 1)2 (n + 2)
(b) Calcular el sesgo del estimador X(n) y demostrar que se trata de un estimador asintótica-
mente insesgado para θ.
(c) Usando la desigualdad de Chebychev demostrar X(n) es un estimador débilmente con-
sistente.
5. Sea X una variable aleatoria con distribución Bernoulli de parámtero θ. Sean θ̂1 = X
y θ̂2 = 1/2 dos estimadores para θ.
(a) Verificar si θ̂1 y θ̂2 son estimadores insesgados para θ.
(b) Comparar los ECMs. Hacer un gráfico de los ECMs como función de θ.
7. Sea X1 , . . . , Xn una muestra aleatoria de una distribución Binomial B(k, p), con k
conocido. Hallar el estimador de máxima verosimilitud para p.
Principio de invariancia
38
Cálculo del emv para familias no regulares
11. En un bolillero hay 6 bolitas. Se extraen dos: una es blanca, la otra es negra. Estimar
la cantidad de bolitas blancas que habı́a en el bolillero.
12. Para controlar un lote de 1000 latas de conserva, se elige al azar una muestra de 30
de las cuales 2 resultan defectuosas. Estimar la cantidad de latas defectuosas en el lote.
Intervalos de confianza
14. Luego del dı́a de la primavera se realiza a 10 adolecentes un análisis de sangre con el
fin de determinar el porcentaje de alcohol en sangre, obteniendose X = 12 %.
(a) Hallar un intervalo de confianza para la media, de nivel β = 0.90, suponiendo que la
concentración de alcohol en sangre se distribuye como una variable aleatoria normal cuyo
desvı́o es σ = 0.5 %.
(b) Si se quisiera que la longitud del intervalo hallado en (a) fuera a lo sumo 0.5, ¿a cuántos
adolecentes deberı́a analizarse?
(c) Idem (a), suponiendo que S = 0.5 %.
15. En un aserradero se cortan varillas de madera cuya longitu es una variable aleatoria
con distribución normal. Se miden 25 varillas al azar, obteniendose X = 180 cm. y S = 10
cm.
(a) Hallar un intervalo de confianza de nivel β = 0.90 para la varianza, suponiendo que
µ = 185.
(b) Idem (a), suponiendo µ desconocida.
39