11 Conceptos Basicos Inferencia
11 Conceptos Basicos Inferencia
11 Conceptos Basicos Inferencia
Caractersticas
(
E X n =
(
2 Jar X n =
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
( ) P X x p s =
Propiedad (Teorema de adicin)
Dadas
<
X
i
i
k
n
i
=
1
2
. independientes
2
...
1 2 1
k
X
n n n
i
k i
.
+ + +
=
Relacin con la normal
Si X .
n
2
, entonces Y = 2 X
~
N ( 2 n 1 , 1 ) si n es grande.
2.1.2. DISTRIBUCION t DE STUDENT
Dadas las variables aleatorias independientes X e Y tales que (0,1) X N e
2
Y
n
. , la
nueva variable aleatoria deIinida como
X
1
Y
n
= sigue una distribucion t de Student con n
grados de libertad, que denotamos por t
n
.
La prueba t de Student es muy utilizada en la practica para la comparacion de medias, sin
embargo a menudo su aplicacion se hace sin excesivo cuidado, no comprobando las hipotesis
que requiere, la Ialta de normalidad o la Ialta de homogeneidad en las varianzas invalida la
prueba t de Student.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Caractersticas
(
0 E 1 = para n~2; si n 1 no existe media.
(
2
n
Jar 1
n
=
para n ~3
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
( ) P 1 x p s =
Es una distribucion simetrica y por tanto se cumple que I(x) I(-x). Con lo cual se deduce que
P ( T s x ) 1- P ( T s x )
La distribucion t de Student converge a una normal cuando los grados de libertad tienden a
inIinito (sirve para n ~ 30).
2.1.3. DISTRIBUCION F DE SNEDECOR
Sus principales usos son los de la contrastacion de la igualdad de varianzas de dos poblaciones
normales y, Iundamentalmente, el anlisis de la varianza y el diseo de experimentos,
tecnicas que permiten detectar la existencia o inexistencia de diferencias significat ivas entre
muestras diIerentes.
Dadas dos variables aleatorias independientes X
1
, X
2
tales que sus distribuciones son
X
1
.
n
2
y X
2
.
m
2
, deIinimos la nueva variable F =
X
1
n
X
2
m
que sigue una distribucion
E de Snedecor con n grados de libertad en el numerador y m grados de libertad en el
denominador, que denotamos por F
n , m
.
Para el calculo de probabilidades, en las tablas podremos encontrar el valor de x tal que
P ( F
n , m
s x ) = p para p 0.9 y 0.99.
Se cumple que P ( F
n , m
s x ) = P ( F
n , m
>
1
x
) = 1 P ( F
n , m
s
1
x
)
Un resultado particular interesante es que si X t
n
X
2
F
1 , n
.
2.1.4. TEOREMA CENTRAL DEL LIMITE (TCL)
Sean X
1
, X
2
, . . . , X
n
variables aleatorias independientes con la misma distribucion y con
media 2 y varianza 8
2
. Entonces
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
X
X X X
n
n
n
aprox
N
n
=
+ + +
1 2
2 ...
( )
( , ) 2
8
Un enunciado mas riguroso seria: Lim
n
P ( X s x ) = u
x 2
8
n
|
\
|
.
|
|
2.2 DISTRIBUCIONES MUESTRALES DE LOS PRINCIPALES ESTADISTICOS.
Consideraremos los siguientes casos: la distribucion de la poblacion es desconocida, si la
poblacion se distribuye normalmente, consideraremos caso de una muestra y dos muestras
pareadas e independientes.
2.2.1 EN UNA POBLACION CUALQUIERA.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias identicamente distribuidas con
E X
i
| | = 2 y Var X
i
| | = 8
2
. Si no conocemos la distribucion de la poblacion, no podemos,
en general, calcular la distribucion de los estadisticos, pero si se podra, en cualquier caso,
determinar la esperanza y varianza de los principales estadisticos en Iuncion de los parametros
de la distribucion de la poblacion.
A. Media muestral
E X n
| |
= 2 (tanto para muestreo simple como para poblacion Iinita o muest reo sin reemplazo)
Var X n | | =
8
2
n
(para m. a. s.) Var X n | | =
8
2
n
N n
N 1
(para poblacion Iinita o
muestreo sin reemplazo)
Siempre que n sea muy grande (n ~ 30) podemos aplicar el TCL:
X n N 2 ,
8
2
n
|
\
|
.
|
B. Varianza muestral s
2
=
X
i
X n
( )
2
n
=
X
i
2
n
X n
2
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Los siguientes resultados seran para m. a. s: E s
2
| |
=
n 1
n
8
2
Llamando 2
n
= E X
n
| |
tenemos
Var s
2
| |
=
2
4
2
2
n
2 2
4
2 2
2
2
( )
n
2
2
4
3 2
2
2
n
3
2.2.2 EN UNA POBLACION NORMAL.
A partir de ahora supondremos que la poblacion tiene una distribucion normal, ya que los
resultados que vamos a obtener por el Teorema Central del Limite, lo requieren. Si ni lo tuviera
serian una aproximacion cuando la muestra que tomemos sea de tamao grande.
En estas circunstancias, ya no solo podre averiguar los valores de la esperanza y varianza, sino
que podremos hablar de sus modelos de distribucion.
A. UNA MUESTRA
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria simple de variables aleatorias tales que
X
i
N 2 , 8
2
( ) i
A.1 Media muestral
X n N 2 ,
8
2
n
|
\
|
.
|
Podemos ver que E X n | | = 2 Var X n | | =
8
2
n
ya que si X
i
N 2 , 8
2
( )
, por el teorema de la adicion del tema anterior se cumple que
X
1
+ X
2
+ . . . + X
n
N n 2 , n 8
2
( )
, y por las transIormaciones lineales
X
1
+ X
2
+ . . . + X
n
n
N 2 ,
8
2
n
|
\
|
.
|
Si la poblacion es inIinita o si el muestreo es con reposicion los resultados anteriores se reducen
a: E X n
| |
= 2 Var X n
| |
=
8
2
n
N n
N 1
Ejemplo
Las masas de 1500 bolas de rodamientos estan normalmente distribuidas, con media 22,40 g y
desviacion tipica 0,048 g. Si se toman 300 muestras aleatorias de tamao 36 en esa poblacion.
(i) Determinar la media y la desviacion tipica esperada de la distribucion de muestreo de
medias, (a) si el muestreo es con reposicion y (b) si el muest reo es sin reposicion.
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
(ii) Cuantas de las muestras aleatorias tendrian sus medias entre 22,39 y 22,41 g.
Solucion
(i) (a) Si el muestreo es con reposicion
(b) Si el muestreo es sin reposicion
(ii) (a) Para calcular la probabilidad P(22,39 x 22,41) , primero normalizamos los valores
(22, 39 22, 41) ( 1, 25 1, 25) 2 (0 1, 25) Por simetria
2(0, 3944) 0, 7888 de la tabla de la distribucion normal
Luego el numero de muestras es 300(0,7888) 237
P x P : P : < < = < < < <
= =
~
A.2 Varianza muestral
s
2
=
X
i
X n
( )
2
n
=
X
i
2
n
X n
2
No conocemos exactamente la distribucion de s
2
, solamente:
ns
2
8
2
.
n 1
2
pero podemos calcular
E s
2
| |
=
n 1
n
8
2
Var s
2
| |
=
2 ( n 1 ) 8
4
n
2
Debemos recordar que una distribucion chi-cuadrado se deIine como una suma de normales
tipiIicadas elevadas al cuadrado.
A.3 Media muestral con varianza desconocida
Si no conocemos el valor de 8
2
, la distribucion que hemos deducido anteriormente para el
estadistico media muestral no nos sirve, podemos utilizar entonces:
X
n
2
s
n 1 t
n 1
0, 048
22, 40 Var 0, 008
36
n n
x x
E X g X g
n
8
2 2 8
( (
= = = = = =
3
0, 048 1500 36
22, 40 7, 9061 10
1500 1 36
x x
g g 2 2 8
= = = =
1 2
22, 39 22, 40 22, 41 22, 40
1, 25 1, 25
0, 008 0, 008
: :
= = = =
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
Recordemos que la distribucion t de Student se deIinia como el cociente entre una normal
tipiIicada y la raiz cuadrada de una chi-cuadrado dividida por sus grados de libertad.
A.4 Proporcin muestral
Tenemos una poblacion Bernouilli y elegimos una muestra donde
i
X Bernoulli p .
Consideremos la variable aleatoria X "n de exitos en la muestra", que sigue una distribucion
Binomial(n, p). DeIinimos P "proporcion de exitos en n extracciones" entonces P X/n
E P | | = p Var P | | =
pq
n
B. DOS MUESTRAS INDEPENDIENTES
Supongamos ahora que queremos comparar dos variables o dos poblaciones. Para ello
necesitamos tomar dos muestras y vamos a suponer que estas muestras se toman
independientemente. Ejemplo: Supongamos que queremos comparar la produccion por planta de
Irambuesa de la variedad A y la produccion por planta de la variedad B.
Seguimos suponiendo que la distribucion de las dos poblaciones es Normal.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias independientes tales que
X
i
N 2
x
, 8
x
2
( ) i = 1 , 2 , . . . , n e Y Y Y
m 1 2
, ,..., una muestra aleatoria de variables aleatorias
tales que Y
j
N 2
y
, 8
y
2
( ) j = 1 , 2 , . . . , m .
B.1 Diferencia de medias muestrales con varianzas conocidas
X
n
Y
m
N 2
x
2
y
,
8
x
2
n
+
8
y
2
m
|
\
|
.
|
Un caso particular seria la diIerencia de proporciones
P
1
P
2
N p
1
p
2
,
p
1
q
1
n
+
p
2
q
2
m
|
\
|
.
|
B.2 Diferencia de medias muestrales con varianzas desconocidas pero iguales
X
n
Y
m
( )
2
x
2
y
( )
ns
x
2
+ ms
y
2
n + m 2
1
n
+
1
m
|
\
|
.
|
t
n + m 2
Ciencia .Ahora, N 15, ao 8, marzo-abril 2005
B.3 Cociente de varianzas muestrales
No conocemos la distribucion de
s
x
2
s
y
2
exactamente, solo:
n s
x
2
8
x
2
( n 1 )
m s
y
2
8
y
2
( m 1 )
F
( n 1 ) , ( m 1 )
C. DOS MUESTRAS RELACIONADAS
Supongamos ahora que queremos comparar dos variables pero que las dos muestras que se
toman no son independientes (los datos estan apareados). Ejemplo: Por ejemplo si queremos
comparar la produccion de Irambuesas un mismo ensayo se toman muestras antes y despues de
aplicar el nuevo metodo de Iertirrigacion.
Sean X
1
, X
2
, . . . , X
n
una muestra aleatoria de variables aleatorias tales que
X
i
N 2
x
, 8
x
2
( )
i = 1 , 2 , . . . , n e Y
1
, Y
2
, . . . , Y
n
una muestra aleatoria de variables
aleatorias tales que Y
j
N 2
y
, 8
y
2
( )
j = 1 , 2 , . . . , n . Las muestras estan relacionadas. Notar
que en este caso n m.
C.3 Diferencia de medias muestrales
Sea D
i
= X
i
Y
i
y sea s
d
su desviacion tipica muestral. podemos usar el siguiente resultado:
n 1
X Y ( 2
x
2
y
)
s
d
t
n 1
BIBLIOGRAFIA
Mendenhall, W., Terry, Sincich. Introduccion a la Probabilidad y la Estadistica. Grupo Editorial
Iberoamerica. Mexico, D.E. (1995).
Mora / Cid /Valenzuela. Probabilidades y estadistica. Universidad de Concepcion (1996).
Pea Sanchez de Rivera, Daniel. Estadistica Modelos y Metodos. Vol 1. Alianza Editorial,
Madrid Espaa. 1995.
En internet
|llp://|ore.uoa|l.edu/rlsoars|/8us|ress-slal/opre5013.|lr#rslal