ESTADÍSTICA 2 Resumen

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 122

ESTADÍSTICA

2
HERRAMIENTAS MATEMÁTICA 5

AZUL HERNANDEZ | CEX204-10162 | 2024


REVISIÓN DE DISTRIBUCIÓN DE MUESTREO

INTRODUCCIÓN

Comenzamos este curso de Estadística II con una revisión sobre el tema de


distribución de muestreo para la media poblacional y la proporción poblacional. Si
recuerdas, puedes observar que estos temas fueron estudiados en el último módulo
de Estadística I. En él, hablábamos de la estadística inferencial.

¿Por qué lo repetimos? Porque este tema nos muestra las bases de la estimación y la
razón por la cual se pueden hacer inferencias desde los estadísticos de la muestra
a los parámetros poblacionales correspondientes con fundamento estadístico.
De este tema se nutren todos los contenidos del presente módulo y posteriores.

Antes de iniciar esta lectura, tienes que tener bien consolidados los siguientes temas:

 distribución normal;
 estandarización;
 uso de las distintas tablas de la distribución normal;
 resolución de problemas en los que interviene la distribución normal.

Por eso, como primera tarea, te recomendamos cualquiera de las publicaciones que
detallamos a continuación para que repases los temas indicados.

1. Este texto es básico de la materia. Deberás leer el capítulo 6, “Distribución


normal” (páginas 177 a 202). Fuente: Levine, D. M.; Krehbiel, T. C.; y
Berenson, M. L. (2014). Estadística para administración (6.a ed.). México:
Pearson.

2. El siguiente texto conforma un elemento básico de Herramientas Matemáticas


III. Debes leer el capítulo 6: “Muestreo y distribuciones de muestreo”.
Fuente: Levin, R.; y Rubin, D. (2004). Estadística para administración y
economía (7.a ed.). México: Pearson.

1. CASO DE LA PRODUCTORA DE TÉ

La productora de té Ackerman e Hijos, oriunda del litoral y con envíos a todo el país,
necesita saber cuál es el porcentaje del consumo de té por hogar en la República
Argentina. Considera, de acuerdo con estudios realizados con anterioridad, que el
consumo anual por hogar está normalmente distribuido con una desviación estándar
de 1,25 kg, pero desconocen la media µ.

La productora te encarga que realices un estudio estadístico para determinar lo


siguiente.

En primer lugar, si se toma una muestra de 36 hogares seleccionados azarosamente y


se calcula el promedio del consumo de té durante un año, ¿cuál es la probabilidad de
que la media de esa muestra no difiera respecto del consumo promedio de toda la
población en más de 0,5 kg?

PÁGINA 1
¿Cuál será la probabilidad de que el consumo medio de la muestra supere al consumo
promedio poblacional en más de 0,75 kg?

En segundo lugar, si se conoce que en la población el 60 % de las familias consumen


la marca de té de la productora Ackerman e Hijos, ¿qué probabilidad hay de que en la
muestra seleccionada, la media de la proporción de las familias que consumen su
marca de té no difiera de la media poblacional más allá de ± 5 %?

2. DISTRIBUCIÓN DE MUESTREO DE LA MEDIA

Conceptos previos
Antes de comenzar, repasemos los conceptos estudiados en Estadística I.

Población y muestra: la población es el conjunto de todas las unidades de estudio


(individuos) que cumplen con una característica o atributo observable que es de
interés para la investigación. Pueden ser personas, animales, cosas o hechos
seleccionados según un criterio. Se pueden medir o contar. El criterio de selección
está dado por el objetivo de la investigación.
Ejemplo: si nos interesa estudiar las condiciones laborales de los empleados de una
determinada fábrica automotriz, la población podrá ser la cantidad de personas que
trabajan en dicha fábrica o se podría limitar el estudio a un área determinada de esa
fábrica, según el criterio de selección que se utilice para la investigación.
Una muestra estará constituida por una porción de la población. Por lo tanto, es un
subconjunto de ella. Cada uno de los elementos que forman parte de la muestra
también se denomina unidad de observación. La muestra debe representar a la
población.

Estadísticos y parámetros: los estudios sobre una muestra permiten determinar


valores denominados estimadores o valores estadísticos. Ellos permiten efectuar
una correcta estimación sobre los valores de la población.
Por su parte, los valores en estudio que en la muestra toman el nombre
de estadísticos en la población se denominan parámetros. Si necesitásemos
determinar el salario de los docentes del país, deberíamos tomar una muestra
constituida por docentes de distintas escuelas, distintas provincias y distintos niveles.
El salario promedio obtenido en la muestra se denomina estadístico, mientras que el
salario promedio de toda la población docente constituye el parámetro.
Asimismo, se define como bondad al margen de seguridad con el que se realiza la
inferencia de acuerdo con los estudios realizados sobre la o las muestras.

Estadística inferencial:
“Es el conjunto de métodos y técnicas que permiten determinar, de una muestra
debidamente representativa de una población, los valores estadísticos, a fin de poder
inferir sobre los parámetros poblacionales con un cierto grado de bondad” (Berenson
et al., 2014, p. 2).
También puede entenderse como el “conjunto de métodos que hacen posible la
estimación de una característica de la población o la toma de una decisión referente a

PÁGINA 2
una población basándose solo en los resultados de una muestra” (Berenson et al.,
2014, p. 4).

Definición de distribución de muestreo de la media

 Has estudiado en Estadística I los diferentes tipos de muestreo para extraer la


muestra de una población con el objeto de definir un estadístico y así inferir sobre
el parámetro de la población correspondiente. Es lógico pensar que los estadísticos
calculados en cada muestra que se extrae no serán iguales entre sí, por lo tanto,
tampoco podemos esperar que los estadísticos de una muestra sean iguales a los
parámetros poblacionales.

 También, recuerda que los parámetros poblacionales más usuales en la estimación


son: a) la media; b) el desvío estándar; y c) la proporción de los elementos de la
población que cumplen con determinada característica.

Es decir, la media de la muestra nos permite inferir sobre la media


poblacional, mientras que el desvío estándar o la proporción de los
elementos con la característica en estudio de la muestra nos
permite inferir sobre el comportamiento de los parámetros
poblacionales.

Sin perder de vista que el objetivo nuestro es hacer buenas estimaciones, pasaremos
a definir qué es una distribución de muestreo de la media, ya que es el
fundamento de la estimación estadística y a la vez uno de los temas centrales de esta
lectura. Se hace necesario conocerla para resolver la situación problemática
planteada.

Ejemplo 1
Supongamos que tomamos muestras de un tipo de arandelas en una producción de
autopartes. Las muestras constan de 10 arandelas cada una. La población se
considera infinita por ser un proceso continuo. También supongamos que deseamos
medir el diámetro interior de la arandela. Al calcular la media y la desviación estándar
correspondiente a cada una de estas muestras, veríamos rápidamente que la media y
la desviación estándar de cada muestra son diferentes. Podemos definir entonces lo
siguiente.

“Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los especialistas en estadística la conocen
como distribución de muestreo de la media” (Levin y Rubín, 2004, p. 247).

Generalización
Ahora plantearemos un ejemplo teórico, no porque no se encuentre un caso práctico
para aplicar, sino porque habitualmente es tedioso y costoso comprobarlo.
Consideremos una población infinita o finita con un N lo suficientemente grande que
implique que una muestra extraída sin reposición no modificará las probabilidades
que tienen otras muestras de ser elegidas.

 La población en estudio tiene una media µ y un desvío estándar σ.


 De esa población se extraen todas las muestras posibles de un mismo tamaño n en
cada una de ellas.
PÁGINA 3
De cada muestra se calcula la media ▁x y la desviación estándar s.

La siguiente figura es una esquematización teórica sobre la extracción de todas las


posibles muestras del mismo tamaño de una población. Además, muestra cómo llegar
a la distribución de muestreo de la media a partir del cálculo de la media y la
desviación estándar de cada una de las muestras.

FIGURA 1: ESQUEMA DEL PROCESO DE OBTENCIÓN DE UNA DISTRIBUCIÓN DE


MUESTREO PARA LA MEDIA

 Si consideramos ahora las medias de todas esas muestras y generamos con


ellas una distribución, obtendríamos lo que denominaremos una distribución
de medias, distribución de muestreo de las medias o distribución de
probabilidad de las medias muestrales. Las tres formas de nombrarla son
correctas.

 A cada media muestral, se la considera como variable aleatoria, pues es el


resultado numérico de un experimento aleatorio. El experimento es tomar
muestras aleatorias de una población y calcular la media de cada muestra. Esto
nos permite confeccionar una tabla de distribución de frecuencias e incluso un
gráfico con todas las medias de todas las muestras posibles tomadas de la
población. Esta distribución se denomina distribución de muestreo de la
media.

 Podrá observarse que la distribución de medias muestrales tendrá una forma


aproximadamente normal, independientemente de la forma original de la
población (haya sido normal o no).

 Como toda distribución de variables aleatorias, esta distribución tendrá una


media que, en este caso, puede calcularse como la medida de todas las
medias y también un valor esperado. Esta media tiene un significado
importante en la inferencia estadística y la retomaremos en el próximo tema.

PÁGINA 4
 Al desvío estándar de esta distribución de medias muestrales, se lo
denomina error muestral estándar. Cuanto más pequeño sea este valor,
menor será el error que se cometa cuando se infiera sobre la media poblacional
a través de la media de una muestra.

De la misma manera, también podemos obtener una distribución de muestreo


para la proporción, con base en la proporción en que una característica se
encuentra en todas las muestras posibles tomadas de la población. Este tema lo
estudiaremos más adelante en esta lectura.

ERROR ESTÁNDAR O ERROR MUESTRAL ESTÁNDAR


Ahora ampliaremos el concepto de error muestral estándar. El apartado tiene como
objetivo remarcar la importancia del concepto de error estándar o error muestral
estándar.
Podemos decir entonces que la desviación estándar de la distribución de las medias
muestrales es lo mismo que el error estándar de la media. El error estándar de la
muestra es distinto a la desviación estándar de la población (aunque existe una
relación entre ellos).
Recuerda que el error estándar indica qué tan dispersas (separadas) están las medias
de las muestras entre sí. El término error estándar se utiliza para explicar que la
variabilidad de los estadísticos calculados en las muestras proviene de un error de
muestreo. Este error es debido a la aleatoriedad de las muestras. Tal como
mencionamos anteriormente, hay diferencias tanto entre cada muestra y la población
como entre las diversas muestras, debido únicamente a los elementos que decidimos
escoger.

3. CARACTERÍSTICAS DE LA DISTRIBUCIÓN DE MUESTREO DE LA MEDIA A


PARTIR DE UN CASO
Hasta aquí todo lo visto es para que comprendas qué es una distribución de muestreo
de la media. Seguidamente, analizaremos con más precisión matemática lo que
ocurre cuando se aumenta el tamaño de la muestra. En otras palabras, haremos un
análisis, a partir de una población y basándonos en un caso, para extraer
conclusiones matemáticas sobre las distribuciones de muestreo de la media.

En el ejemplo 1, hemos supuesto una población infinita. Ahora la supondremos finita


para facilitar los cálculos y poder explicar matemáticamente a qué conclusiones se
llegan. Luego de ver y definir a esas características, podremos generalizarlas a todo
tipo de poblaciones con algunas salvedades.

Ejemplo 2. En este ejemplo, explicaremos paso a paso la variabilidad de los


estadísticos a medida que aumenta la muestra seleccionada. Lo analizaremos por
etapas para ir extrayendo conclusiones en cada etapa. El objetivo no es que
memorices estos pasos, sino que pongas atención en los análisis que se realizan y las
conclusiones a las que se arriba.
Comenzaremos con una población pequeña por razones de practicidad en los cálculos
y la cantidad de muestras que pueden tomarse de toda la población. Iremos haciendo
salvedades por haber tomado una muestra pequeña y una variable discreta, pero
como dijimos antes, una vez analizados los estadísticos en cada etapa, lo
PÁGINA 5
generalizaremos.

Analicemos el siguiente ejemplo que corresponde a una empresa de ventas que


cuenta con cinco vendedores a los que designaremos como A, B, C, D y E. Sus salarios
mensuales son $40 000, $40 000, $50 000, $60 000 y $60 000, respectivamente.
Dichos salarios constituirán la población en estudio. En este caso, dicha población es
finita y consta de solo 5 elementos.

ETAPA 1: CALCULAR LOS PARÁMETROS DE LA POBLACIÓN


Volcaremos los datos del ejemplo 2 en una tabla y calcularemos los siguientes
parámetros: la media poblacional µ, la varianza poblacional Var(x) o (σ2) y la
desviación poblacional σ. La tabla 1 resume los datos de los 5 vendedores de la
empresa del ejemplo con las columnas auxiliares para calcular la varianza y la
desviación estándar.

TABLA 1: TABLA DE LOS SALARIOS DE LOS VENDEDORES DEL EJEMPLO 2 CON


LOS CÁLCULOS PARA LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR

1. El salario promedio será:

2. Varianza:

3. Desviación estándar:

Nota: esta es una situación ideal de una población muy pequeña, por eso, no se
considera N-1 en el denominador para la varianza y la desviación estándar (no se
PÁGINA 6
trata de una muestra).

Resumen: μ=$50 000 σ=$8944,27

También, podemos resumir los datos en una tabla de distribución de frecuencias para
poder luego ver la forma de la distribución de la población. Entonces, en la tabla 2 se
muestra la distribución de las frecuencias absolutas de la variable en estudio.

TABLA 2: TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA LOS VENDEDORES


DEL EJEMPLO 2

En la figura 2, se graficó el histograma correspondiente al ejemplo 2. Se le asoció un


polígono para ver la forma que adopta la distribución.

FIGURA 2: HISTOGRAMA CORRESPONDIENTE A LA TABLA 2 DEL


EJEMPLO 2

ETAPA 2: SELECCIONAR DE LA POBLACIÓN TODAS LAS MUESTRAS POSIBLES


DE TAMAÑO 2
Consideremos de esta población todas las muestras posibles de dos elementos en
cada una de ellas. Tenemos que formar grupos de 2 personas tomadas de un grupo
de 5. No importa si una persona está en más de un grupo. Lo que diferencia un grupo
de otro es que por lo menos hay una persona distinta. Tampoco importa en qué orden
se nombran los grupos. Estamos hablando de las combinaciones de 5 elementos
tomados de dos en dos. Por lo tanto, necesitamos calcular. Como aprendimos a
calcular mediante calculadora científica o mediante su fórmula, es igual a 10 grupos
PÁGINA 7
de personas.

En la tabla 3, se escriben todos los posibles grupos de vendedores combinándolos de


a 2. Se calculan los promedios de sueldos de cada muestra.

TABLA 3: MUESTRAS DE 2 PERSONAS TOMADAS DE LA POBLACIÓN DE 5 EN EL


EJEMPLO 2 CON SUS PROMEDIOS DE SUELDO

ETAPA 3: DISTRIBUCIÓN DE MEDIAS MUESTRALES DE TAMAÑO 2


Con las medias de todas las muestras podemos generar una nueva distribución que
denominaremos distribución de medias muestrales de tamaño 2 o distribución de
muestreo de la media. Recuerda que primero se ordenan los valores de la variable de
menor a mayor y luego se cuentan las veces que se repite (fi).

Así, en la tabla 4 se muestra la distribución de las frecuencias absolutas de la variable


aleatoria. En este caso, la variable aleatoria es el promedio de los 2 sueldos
correspondientes a los dos vendedores que forman cada muestra.

TABLA 4: TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA LAS MUESTRAS DE


VENDEDORES DEL EJEMPLO 2, TOMADOS DE A 2

PÁGINA 8
En la figura 3, se graficó el histograma con las frecuencias respectivas,
correspondientes a la tabla 4. También se le asoció un polígono para ver la forma que
adopta la distribución de medias.

FIGURA 3: HISTOGRAMA CORRESPONDIENTE A LA TABLA 4 DEL EJEMPLO 2

ETAPA 4: CALCULAR LOS ESTADÍSTICOS DE LA DISTRIBUCIÓN DE MEDIAS


MUESTRALES DE LA ETAPA 3

Puesto que tenemos una distribución de una variable aleatoria representada por la
media de cada una de las muestras, podemos calcular ahora algunos de sus
estadísticos. Los estadísticos convenientes a calcular según el caso que estamos
analizando son los siguientes.

La media de la distribución muestral:

La desviación estándar de las medias muestrales o error estándar.

Varianza: Var(x) =

Desviación estándar:

Además, nos interesa calcular:

 La probabilidad de ocurrencia de las medias muestrales, ya que la probabilidad de


ocurrencia de las medias muestrales viene dada por las frecuencias relativas

Así, la probabilidad de que una muestra de tamaño 2, tomada de esa población,


proporcione un promedio salarial de $50 000 es de P (x = 50 000) = 0,4.

PÁGINA 9
Resumen:

Conclusiones parciales 1
Como conclusión, podemos decir que, si de la población se extraen todas las muestras
posibles de tamaño 2 y de cada una de ellas se determina su media, la distribución
generada con las medias de todas las muestras presenta las siguientes
características.

1. La media de la distribución de las medias de todas las muestras posibles de la


población de tamaño (n = 2) es igual a la media de la población (ver etapa 4).

2. El desvío estándar de dicha distribución, también denominado como error muestral


estándar, es menor que el desvío estándar poblacional (ver etapa 4).

3. Mientras que la población presenta un diagrama de frecuencias bimodal, en este


caso el correspondiente a la distribución de las medias muestrales tiende a ser
normal (ver figura 3).

ETAPA 5: SELECCIONAR DE LA POBLACIÓN TODAS LAS MUESTRAS POSIBLES


DE TAMAÑO N=3
Regresemos a la población y consideremos ahora todas las muestras posibles de tres
elementos en cada una de ellas (n = 3). El número de muestras posibles estará dado
por las combinaciones de 5 tomadas de 3 en 3. Por lo tanto, necesitamos calcular: . Ya
aprendimos a calcularlo mediante calculadora científica o mediante su fórmula y es
igual a 10 grupos de personas.

En la tabla 5, se escriben todos los posibles grupos de vendedores, combinándolos de


a 3. Se calculan los promedios de sueldos de cada muestra.

TABLA 5: MUESTRAS DE 3 PERSONAS TOMADAS DE LA POBLACIÓN DE 5 EN EL


EJEMPLO 2 CON SUS PROMEDIOS DE SUELDO

PÁGINA 10
ETAPA 6: DISTRIBUCIÓN DE MEDIAS MUESTRALES DE TAMAÑO N = 3
Con las medias de todas las muestras, podemos generar una nueva distribución que
denominaremos distribución de medias muestrales de tamaño 3 o distribución de
muestreo de la media. Recuerda que primero se ordenan los valores de la variable de
menor a mayor y luego se cuentan las veces que se repite (fi).
En la tabla 6, se muestra la distribución de las frecuencias absolutas de la variable
aleatoria. En este caso, la variable aleatoria es el promedio de los 3 sueldos
correspondientes a los tres vendedores que forman cada muestra.

TABLA 6: TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA LAS MUESTRAS DE


VENDEDORES DEL EJEMPLO 2, TOMADOS DE A 3

PÁGINA 11
En la figura 4, se graficó el histograma con las frecuencias respectivas,
correspondientes a la tabla 6. También se le asoció un polígono para ver la forma que
adopta la distribución de medias.

FIGURA 4: HISTOGRAMA CORRESPONDIENTE A LA TABLA 6 DEL EJEMPLO 2

Si en lugar de escribir en el eje vertical las frecuencias absolutas pusiéramos las


frecuencias relativas, estaríamos hablando de una distribución de probabilidades tal
como estudiamos en el módulo 3. Si se tratase de una población más grande que la
tomada en el ejemplo 2 y la variable aleatoria fuera continua, el polígono se suaviza.
Observamos que esta curva va tomando forma acampanada. También se cambió la
escala del eje vertical por las frecuencias relativas para observar mejor la distribución
de probabilidades.

ETAPA 7: CALCULAR LOS ESTADÍSTICOS DE LA DISTRIBUCIÓN DE MEDIAS


MUESTRALES DE LA ETAPA 6
Ya tenemos una distribución de una variable aleatoria representada por la media de
cada una de las muestras, ahora podremos calcular algunos de sus estadísticos. Los
que nos convienen para el ejemplo que estamos analizando son los siguientes (debes
ver la tabla 6 para realizar los cálculos).

 La media de la distribución muestral:

 La desviación estándar de las medias muestrales o error estándar.

 Desviación estándar:

Resumen:

PÁGINA 12
CONCLUSIONES PARCIALES 2
La media de la distribución de las medias de todas las muestras posibles de n =
3 elementos cada una de ellas es igual a la media de la población, lo que también
ocurría en el caso de n = 2.

1. La distribución tiende a adquirir las características propias de una distribución


normal.

2. El desvío estándar de la distribución es menor que el desvío estándar


poblacional. El desvío estándar de la distribución muestral de n = 3 es menor
que el desvío estándar de la distribución muestral de n = 2, es decir, a medida
que el número de elementos que componen la muestra aumenta, disminuye la
dispersión de la distribución muestral.

En la tabla 7, se resumen los estadísticos media, error estándar y rango de las


muestras tomadas según el tamaño, n = 2 y n = 3.

TABLA 7: RESUMEN DE LOS ESTADÍSTICOS CALCULADOS

Del análisis del ejemplo 2 y la tabla 7, podemos extraer las siguientes conclusiones.

1. La distribución de las medias muestrales para n grande tiene forma normal.

a) Cuando la población es grande y está normalmente distribuida, la


distribución de las medias muestrales será normal.

b) Cuando la población no está distribuida normalmente, la distribución de


las medias muestrales se aproximará a una distribución normal si el
tamaño de la muestra es suficientemente grande (30 o más elementos).

2. La distribución de las medias muestrales tiene una media igual a la media


poblacional: x̿=μ.

3. La desviación estándar de las distribuciones de las medias muestrales,


denominado error estándar, está dado por la expresión: (que probaremos
seguidamente).

Las conclusiones extraídas del análisis realizado con las distribuciones de las medias
muestrales a medida que se aumenta el tamaño de la muestra nos llevan al
enunciado del teorema fundamental de la estadística inferencial: el teorema del
límite central.

TEOREMA DEL LÍMITE CENTRAL


Si de una población de media μ y desviación estándar σ se extraen todas las muestras

PÁGINA 13
posibles del mismo número de elementos n en cada una de ellas y de cada muestra
obtenemos su media , la distribución de todas esas medias tendrá una distribución del
tipo normal, independientemente del tipo de distribución que sea la población, con
una media x̿ igual a la media poblacional μ y un desvío estándar menor al desvío
estándar poblacional, el cual es denominado error muestral estándar. Su valor es
igual a (cociente entre el desvío estándar poblacional sobre la raíz cuadrada de n:
tamaño de muestra). Entonces, para calcular el error estándar se utiliza la siguiente
fórmula.

Repasa las conclusiones generales del tema anterior y podrás confirmar todas estas
afirmaciones.

4. FACTOR DE CORRECCIÓN PARA POBLACIONES FINITAS


Poblaciones infinitas y finitas
Ya hablamos de poblaciones infinitas, pero en términos generales se trata de
comparar la población con la muestra.

 La población se considera infinita cuando el tamaño de la muestra es menor al 5


% del tamaño de la población: n < 0,05 N

 Análogamente, la población es finita cuando el tamaño de la muestra es mayor


o igual al 5 % del tamaño de la población: n ≥ 0,05 N

Lo que es lo mismo:

Factor de corrección
Si estamos frente a una población finita, es necesario introducir un factor de
corrección para poblaciones finitas. Para el cálculo del error estándar, sería lo
siguiente.

Por lo tanto, la fórmula de cálculo para el error estándar en caso de que la población
sea finita es:

APLICACIÓN DEL TEOREMA DEL LÍMITE CENTRAL AL CASO DEL EJEMPLO 2

Para n = 2

1. El error estándar a partir de la distribución de medias muestrales, cuando n = 2,


nos dio (ver tabla 7): $5477,23.

PÁGINA 14
2. El error estándar por teorema del límite central, aplicando en este caso el factor
de corrección para poblaciones finitas, sería (ver etapa 1 del ejemplo 2):

Para n = 3

 El error estándar a partir de la distribución de medias muestrales, cuando n=3,


nos dio (ver tabla 7): $3651,48.

 El error estándar por teorema del límite central, aplicando en este caso el factor
de corrección, sería:

Como puede comprobarse, los errores estándar en ambos casos dan iguales. Por
tanto, el teorema del límite central nos permite extraer una muestra representativa
de una población e inferir a partir de los estadísticos (la media y la desviación
estándar, en este caso) los parámetros poblacionales correspondientes, con un cierto
grado de error manejable.

Resolución del caso de la productora de té, preguntas a) y b)


Por teorema del límite central sabemos lo siguiente. Si se pudieran extraer de la
población todas las muestras posibles de 36 hogares en cada una de ellas y de cada
una obtuviéramos el consumo medio anual de té, con las medias de todas las
muestras se generaría una distribución muestral de consumos medios, con forma
aproximadamente normal, pues n > 30.

Por otra parte, la media de dicha distribución de medias coincide con la media
poblacional, la cual es desconocida.
Además, la media de la muestra diferirá respecto a la media de la distribución
muestral en: .

 Para una distribución normal:

 En el caso de una distribución de medias muestrales:

 Entonces, , como se observa en la figura 5.

PÁGINA 15
Así, en la figura 5 tenemos la descripción del caso de la productora de té. Se puede
observar cómo quedaría la distribución de medias muestrales con forma acampanada.
Además, encontramos media poblacional y la diferencia entre cualquier media
muestral y la media poblacional.

FIGURA 5: ESQUEMA GENÉRICO DE LA DISTRIBUCIÓN MUESTRAL DE MEDIAS


PARA EL CASO DE LA PRODUCTORA DE TÉ

Como en la primera pregunta del caso planteado se nos pregunta cuál es la


probabilidad de que la diferencia entre la media de la muestra tomada de 36 familias

y la media poblacional no sea mayor a 0,5 kg, planeamos lo siguiente. en


valor absoluto, pues lo que se pretende es que la media muestral no esté más allá de
± 0,5.

También lo podemos interpretar de la siguiente manera. Si la media poblacional es


desconocida, podemos plantear que el intervalo a considerar es el que está
dentro .

Se estandariza y se trabaja con la tabla de la distribución normal, tal cual se estudió


en Estadística I y se repasó al comienzo de esta lectura. No obstante, es así si
tenemos en cuenta que aquí la variable aleatoria es una media muestral, la media
poblacional es la media de todas las medias muestrales (desconocida en este caso) y
la desviación estándar se llama aquí error estándar y tiene su propia fórmula en
función inversa al tamaño de la muestra.

Comencemos a resolver la pregunta a). Aquí nos encontramos con un problema: no


tenemos la media de la muestra ni la media poblacional, pero sí tenemos la diferencia
entre ambas. Entonces, tenemos dos casos:

si:

Por otra parte,si

PÁGINA 16
Por último, buscamos en la tabla de la distribución normal acumulada:

Respuesta: la probabilidad que la media muestral esté a 0,5 kg (o menos) de la media


poblacional es 0,9826. El porcentaje es del 98,26 %.

Pregunta b)

Acá se quiere saber cuál será la probabilidad de que el consumo medio de la muestra
supere al consumo promedio poblacional en más de 0,75 kg. Si la media poblacional
es desconocida, podemos plantear lo siguiente.

Se quiere averiguar , entonces estandarizamos de la siguiente forma.


Como la media muestral debe ser mayor a la media poblacional en 0,75 (por lo

menos), podemos considerar


La P(z > 3,57) = 0, pues se consideran las desviaciones estándar hasta 3,5
aproximadamente. Más allá de eso, las probabilidades son prácticamente nulas.
Recuerda que la tabla te da P(z<3,57) = 1. Entonces, tienes que restárselo a 1 para
obtener la probabilidad buscada: 1 – 1 = 0.

Respuesta: la probabilidad de que la muestra supere a la media poblacional en 0,75


kg es 0. El porcentaje es 0 %.

ACTIVIDADES DE REPASO

En el caso de la productora de té, si la media poblacional se conoce y es de 300 kg


por familia por año con una desviación estándar poblacional de 82,2 kg, ¿cuál es la
probabilidad de que al elegir una muestra aleatoria de 64 familias la media muestral
obtenida sea menor a 270 kg?

La probabilidad de que el consumo medio de las 64 familias sea menor a 270 kg es de


0,0018.

5. DISTRIBUCIÓN DE MUESTREO PARA LA PROPORCIÓN.


¿Qué es una distribución muestral para la proporción?

En muchas oportunidades, es necesario determinar una proporción en una población.


Por ejemplo:

 porcentaje o proporción de votantes que se estima que votarán en la próxima


elección por un cierto candidato;
PÁGINA 17
 porcentajes de alumnos del nivel primario que no terminan el ciclo;

 porcentaje de enfermos con VIH;

 porcentaje de niños de una determinada edad que estén vacunados contra el


sarampión, entre otros ejemplos.

Se trata ahora de extraer una muestra, calcular la proporción de la característica de


interés en dicha muestra y analizar qué sucede en la población con esa característica,
basándonos en los datos muestrales.

La fórmula para calcular la proporción muestral es:

x: número de elementos de la muestra que poseen la característica de interés.


n: tamaño de la muestra.

La proporción muestral es una variable aleatoria y su distribución de probabilidad se


conoce como distribución muestral de .

CARACTERÍSTICAS DE LA DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN


Al igual que en la distribución de medias, para determinar cuán cerca está la
proporción de una muestra de la proporción poblacional p, se necesita saber cuáles
son las propiedades de la distribución muestral de :

 el valor esperado de ;

 la desviación estándar de ;

 la forma de la distribución muestral de .

Valor esperado o media de la distribución muestral de la proporción


El valor esperado de es la media de todos los posibles valores de . A su vez, es
igual a la proporción poblacional p.

Desviación estándar de la proporción muestral


También es llamado error estándar de la proporción. Al igual que en la distribución
de medias muestrales, diferenciaremos entre poblaciones infinitas y finitas.

 Error estándar de la proporción para poblaciones infinitas:


p: proporción en que se encuentra la característica en estudio dentro de la
población.
q = 1 – p.
n: tamaño de la muestra.
 Error estándar de la proporción para poblaciones finitas:

PÁGINA 18
Solo se le agrega el factor de corrección.

Forma de la distribución muestral de la proporción


 Conocemos entonces la media y la desviación estándar de la distribución

muestral de . Ahora nos queda por analizar la forma de esa distribución


muestral.

 La fórmula para calcular la proporción muestral es , como acabamos de


estudiar en esta lectura.
 También sabemos que x es una variable aleatoria binomial que indica el número
de los elementos de la muestra que tienen la característica de interés. Recuerda
que la muestra fue tomada en forma aleatoria de una población grande (ver
características de la distribución binomial, tema de Estadística I). Los eventos se
consideran independientes y como n es una constante, la probabilidad de x/n es
la misma que la probabilidad de x, lo que significa que la distribución muestral
de también es una distribución de probabilidad discreta y la probabilidad de
cada x/n es la misma que la probabilidad de x.
 Recuerda que una distribución binomial se aproxima mediante una distribución
normal, siempre que el tamaño de la muestra sea lo suficientemente grande
para satisfacer las siguientes condiciones.
n.p ≥ 5 y n.q ≥ 5
Podemos afirmar entonces que la distribución muestral de se aproxima mediante
una distribución normal siempre que: n.p ≥ 5 y n.q ≥ 5
APLIQUEMOS ESTOS CONCEPTOS AL CASO DE LA PRODUCTORA DE TÉ
En el caso de la productora de té, el valor esperado o media de la distribución
muestral de es 0,60.

Podemos calcular el error estándar de la distribución de la proporción de todas las


familias que consumen la marca de té Ackerman e Hijos. Como se trata de una
población infinita frente a la muestra (recuerda que es una muestra de 36 familias, de
entre todas las familias argentinas), no agregaremos el factor de corrección.

El error estándar de la distribución de muestras de la proporción de clientes que


consumen la marca de té Ackerman e Hijos es de 0,0816.

Por otra parte, la proporción poblacional de las familias que consumen el té de la


productora Ackerman e Hijos es de 0,60.

Con una muestra aleatoria de n = 36, tenemos:


n.p = 36×0,60 = 21,6 que es > 5

Además, debe cumplirse:


n.q = 36×0,40 = 14,4 que es >

Por tanto, la distribución muestral de se calcula mediante la distribución normal.


PÁGINA 19
LA PROPORCIÓN Y EL TEOREMA DEL LÍMITE CENTRAL
Podemos resumir lo estudiado sobre distribución muestral de la proporción en los
siguientes conceptos.

 La proporción se encuentra en una población como un nuevo parámetro, el cual


se determinará en la mayoría de los casos con una inferencia a través del
estadístico correspondiente de una muestra.

 El valor práctico de la distribución muestral de es que permite obtener


información probabilística acerca de la diferencia entre la proporción muestral y
la proporción poblacional.

Para la obtención y análisis del estadístico tendremos presente que el teorema del
límite central puede ser aplicado para las proporciones. Por lo tanto, si de una
población con una proporción p (de los elementos con la característica en estudio) se
extraen todas las muestras posibles del mismo tamaño y de cada muestra se
determina la proporción, con las proporciones de todas las muestras posibles se
genera una distribución de proporciones muestrales que será normal, ajustándose a
las pautas ya mencionadas de las medias muestrales. Además, la media de esa
distribución de proporciones será igual a la proporción de la población y el desvío
estándar de la distribución de proporciones muestrales será igual a

Resolución del caso de la productora de té, pregunta c)


De acuerdo con las propiedades descritas anteriormente, podemos ver el caso de la
productora de té, en la siguiente figura. De esta manera, en la figura 6 se muestran
las propiedades de una distribución muestral de la proporción: forma normal, media y
error estándar.

FIGURA 6: DISTRIBUCIÓN MUESTRAL DE PARA EL CASO DE LA PRODUCTORA DE


Conocemos la media y el error estándar de la muestra, ahora tenemos que averiguar


la proporción de las familias que consumen la marca del té que no difiera de la media
poblacional en más de ± 5 %. Observa que primero tomamos la muestra, calculamos
la proporción de interés, el error estándar y recién entonces comenzamos a sacar
conclusiones sobre la proporción de la población.

Si queremos que el estadístico de la proporción muestral no difiera de la proporción


poblacional más allá del 5 %, es decir, de 0,05, entonces tenemos que calcular la
probabilidad de que la proporción poblacional esté dentro del intervalo: [0,60 - 0,05;

PÁGINA 20
0,60 + 0,05] o [0,55; 0,65]. Dicho de otra forma, ¿cuál es la probabilidad de obtener
una muestra en la que el valor de esté entre 0,55 y 0,65?

Como la forma de la distribución de la muestra de la proporción se puede aproximar a


la normal, usamos la estandarización, aplicada ahora a la proporción muestral:

: es cualquier proporción de la distribución de proporciones de la muestra. En


nuestro caso, son los límites del intervalo p ± 0,05.
p: es la proporción de la población.

: es el error muestral de la distribución de proporciones de la muestra. En


nuestro caso, 0,0816.

Comenzamos estandarizando = 0,65:

Ahora estandarizamos =0,55:

En la tabla de probabilidad normal estándar aparece que la probabilidad acumulada


que corresponde a z = 0,61 es 0,7291. En la misma tabla y la probabilidad
correspondiente a z = -0,61 es 0,2709.

De esta manera, la probabilidad de seleccionar una muestra en la cual el valor de no


difiera más de 0,05 de la proporción poblacional p está dada por 0,7291 - 0,2709 =
0,4582. Como se dice cotidianamente, es del 45,82 %.

Importante
Se puede verificar analizando las fórmulas respectivas que si se aumenta el tamaño
de la muestra, el error estándar de la proporción disminuye y la probabilidad de que
la proporción muestral no esté más allá del 5 % de la proporción de la población
aumenta.

ACTIVIDADES DE REPASO
Si la proporción poblacional de votantes del partido A en una ciudad es 0,35, calcula
el error estándar de la proporción de votantes del partido para los tamaños de
muestra 100 y 700. ¿Qué puedes decir acerca del tamaño del error estándar a medida
que el tamaño de la muestra aumenta? Justifica, calculando los valores involucrados
en el problema.
PÁGINA 21
ESTIMACIÓN Y ESTIMADORES

INTRODUCCIÓN
El hombre permanentemente se encuentra haciendo estimaciones. Estima el gerente
de marketing las ventas del próximo mes, estima el gerente de producción la
cantidad de mano de obra necesaria para un período de producción, el gerente de
una entidad bancaria efectúa una estimación sobre el cumplimiento de un cliente
para el otorgamiento de un crédito o un descubierto, estima el ama de casa las
cantidades de comestibles necesarios para que toda la familia sea satisfecha con una
comida, entre una infinidad de ejemplos. Es en función de esas estimaciones que se
decide.
Recuerda cómo definíamos la estadística inferencial. Quedaba claro que el objetivo
final era el de inferir algo acerca de una población a partir de la información adquirida
de una muestra. La inferencia, entonces, se hace a través de estimadores. En esta
lectura, hablaremos de los estimadores, es decir, la medida que se calcula en la
muestra para inferir esa medida en la población.

Caso: Cámara de Artículos Electrónicos para el Hogar


Debido a los aumentos reiterados de la inflación en el país, la Cámara de Artículos
Electrónicos para el Hogar desea estimar el precio medio de un modelo de hornos a
microondas de una conocida marca. Por experiencias anteriores, la distribución
poblacional es normal. Para este análisis, se toma una muestra aleatoria en 35
establecimientos de ventas al por menor de una misma ciudad con el fin de estimar el
precio promedio de venta poblacional de cada horno y su varianza poblacional. Los
resultados obtenidos se muestran en la siguiente tabla.

TABLA 1: PRECIOS DE VENTA DE LOS HORNOS A MICROONDAS


Muest Precio de venta en
ras pesos

1 17 999

2 17 000

3 18 000

4 16 550

5 17 560

6 16 480

7 17 000

PÁGINA 22
8 18 000

9 16 599

10 23 000

11 22 500

12 20 300

13 19 900

14 19 999

15 18 999

16 18 000

17 17 800

18 18 889

19 18 800

20 17 500

21 18 900

22 17 999

23 16 900

24 18 800

25 17 500

26 18 900

27 17 999

28 16 900

29 22 500

30 20 300

31 18 900

PÁGINA 23
32 17 999

33 16 900

34 16 550

35 17 560

Además, se quiere estimar qué proporción de la población vende el horno a


microondas en más de $20 000. Se te solicita que determines puntualmente las 3
estimaciones que desea realizar la Cámara de Artículos Electrónicos para el Hogar.

1. ESTIMACIÓN

¿Qué es la estimación?
Venimos diciendo que la base de la inferencia estadística es la estimación. La mayoría
de las aplicaciones actuales de la estadística se relacionan con la obtención de
conclusiones referidas a la población, a partir de la evidencia recogida en una
muestra correspondiente a una pequeña porción de casos. Algunos ejemplos son las
siguientes situaciones:

 analizar la evolución del total de desempleados en las grandes ciudades de un


país;
 medir el gasto promedio de las familias en cierto rubro de interés;
 cuantificar la variabilidad de un producto surgido de cierto proceso industrial
estandarizado;
 conocer el porcentaje de votantes que prefieren a cierto candidato, con
anterioridad a una elección.

Las técnicas correspondientes a la inferencia estadística permiten dar respuesta a


estos interrogantes, se utiliza solo una pequeña porción de casos de la población de
interés. Para los objetivos de información propuestos como ejemplos, podrían tomarse
muestras de las poblaciones, respectivamente:

 al seleccionar individuos residentes en las ciudades de interés y registrar su


estado ocupacional;
 al obtener por muestreo un conjunto de familias y consultarles sobre el gasto en
ese rubro;
 al estudiar por muestreo la característica de análisis de un grupo de productos
elaborados en tal sistema;
 al indagar a un conjunto representativo de votantes del lugar en cuestión.

Como primer paso en este estudio de la estadística inferencial, nos detendremos (en
esta lectura) en las diferentes técnicas que permiten dar como plausible un valor de
un parámetro poblacional de interés. De estos parámetros a estimar, los más
comunes son:

 la media poblacional;
 la varianza poblacional;
 la proporción poblacional;
PÁGINA 24
 las entre medias o entre proporciones.

PARÁMETROS Y ESTADÍSTICOS O ESTADÍGRAFOS


En primer lugar, recordemos la diferencia entre parámetro y estadístico.

 Los parámetros son las medidas de resumen poblacional que permiten


describir el conjunto de datos analizados. Ejemplos de parámetros son la media
poblacional, la varianza poblacional, entre otras.

 Los estadísticos son las medidas análogas obtenidas a partir de datos


muestrales. Este tipo de medida incluye la media muestral, la varianza
muestral, la proporción muestral, entre otras. Estos valores, también conocidos
como estimadores, se utilizan para proporcionar una idea del valor de la
medida poblacional correspondiente, pero considerando solo datos muestrales.

2. DIFERENCIA ENTRE ESTIMADOR Y ESTIMACIÓN

Por un lado, “un estimador es un estadístico de la muestra utilizado para estimar un


parámetro poblacional” (Levin y Rubín, 2004, p. 275). Por otro lado, “una estimación
es un valor específico observado de un estadístico” (Levin y Rubín, 2004, p. 275).

Algunos estadísticos son mejores estimadores que otros. Gracias a algunos criterios
que mencionaremos a continuación, podremos evaluar cuáles son los que tienen
mayor calidad para estimar el parámetro poblacional correspondiente.

CARACTERÍSTICAS DE UN BUEN ESTIMADOR


Los cuatro criterios más destacados son:

1) imparcialidad (insesgada);
2) eficiencia;
3) consistencia;
4) suficiencia.

Algunos autores muestran otras propiedades, todas son importantes, pero como
objetivo de esta lectura definiremos estas cuatro. Aun así, te animo a que profundices
el tema con los elementos de lectura que se indican más adelante. Igualmente,
puedes profundizar en las demostraciones de estas propiedades para poder comparar
cuáles de los estimadores son más adecuados que otros.

1. Imparcialidad
Decimos que un estimador es imparcial o insesgado cuando su valor esperado
coincide con el parámetro poblacional que estima. Dicho de otra forma, sucede si la
media de la distribución del estimador es igual al parámetro.

a. Comenzaremos estudiando la media muestral, que es el estimador natural de la


media poblacional, y la medida de tendencia central más utilizada. La media, a su
vez, es la medida más adecuada para describir un conjunto de datos que se distribuye
siguiendo el modelo normal.

La media muestral es un estimador imparcial o insesgado de la media poblacional.


Esto se demuestra partiendo de la fórmula de la media muestral, estudiada en el
PÁGINA 25
curso anterior de estadística:

Por otro lado, sabemos que la esperanza matemática de la media poblacional


es E(x)=μ.

Tenemos que demostrar que , es decir, la esperanza de la media muestral o


de la distribución de medias muestrales es igual a la media poblacional. Esto se
demuestra fácilmente a través de algunos pasos algebraicos, se desarrollan a
continuación.

La esperanza o valor esperado de la media muestral se da al sustituir:

La esperanza de n (que es una constante) es la misma constante, por lo que podemos


extraerla fuera del paréntesis.

Luego, la esperanza de una suma es igual a la suma de las esperanzas y podemos


realizar:

Por su parte, sabemos que la esperanza de la media en una distribución normal es μ y


como tenemos la suma de μ, n veces, nos queda:

Fíjate que partimos de la esperanza de la media muestral y llegamos a la esperanza


de la media poblacional que coincide. Ya sabíamos que el valor esperado en una
distribución normal es igual a la media poblacional, por lo que la media muestral es
un estimador insesgado de la media poblacional.

Ejemplo 1. En un proceso de producción de varas de madera, el promedio de las


longitudes de todas las varas de maderas en una corrida de producción es de 2,06
cm. Si después se toman varias muestras de varas de madera de 100 unidades cada
muestra, se miden las longitudes de las varas de cada muestra, se extrae el promedio
de cada muestra y luego se confecciona con esos promedios una distribución de
medias muestrales, el promedio de todos los promedios de todas las muestras
también dará 2,06 cm. Esto es lo que dice el teorema del límite central, lo cual
demuestra que la media muestral es un estimador insesgado de la media poblacional.

b. La cuasivarianza muestral es un estimador imparcial o insesgado de la varianza


poblacional.
PÁGINA 26
La cuasivarianza es la que conociste en el curso anterior de estadística como varianza
de una muestra: restando 1 al tamaño de la muestra. Por lo tanto:

Si no le restásemos 1 al denominador tanto de la varianza como de la desviación


estándar de la muestra, no sería un estimador insesgado sino sesgado. No sería un
buen estimador.

Ejemplo 2. Si en el proceso de producción del ejemplo 1, la varianza poblacional es


de 0,02 cm, entonces la media de la distribución de varianzas muestrales
(cuasivarianzas) también es 0,02 cm.

c. La mediana muestral es un estimador sesgado o parcial de la mediana


poblacional.

Ejemplo 3. Seguimos con el caso de las varas de madera, pero si la mediana son 2
cm, la media de las medianas de todas las muestras tomadas no necesariamente
tiene que dar igual.

2. EFICIENCIA
Un estimador es eficiente si en promedio se acerca más al parámetro estimado que
cualquier otro estimador. La media muestral cumple este requisito para la media
poblacional, ya que tiene la mínima varianza entre los estimadores de la media
poblacional. La eficiencia se refiere al tamaño del error estándar del estadístico.

Ejemplo 4. Si comparásemos dos estadísticos de una muestra del mismo tamaño,


por ejemplo, la media de la muestra y la mediana de la muestra, y confrontásemos el
error estándar de la media con el error estándar de la mediana, decidiríamos que el
estimador más eficiente es el que tiene menor error estándar. Generalmente esto
ocurre con la media.

Tiene sentido pensar que un estimador con un error estándar menor (con menos
variación) tendrá mayor oportunidad de producir una estimación más cercana al
parámetro poblacional que se está considerando.

3. CONSISTENCIA
Decimos que un estimador es consistente si a medida que se aumenta el tamaño de
la muestra, el estimador se aproxima sistemáticamente al valor del parámetro
poblacional. Al aumentar el tamaño de la muestra cada vez más, las diferencias entre
la media muestral y la media poblacional se van haciendo más reducidas. El
cumplimiento de estas propiedades hace de la media muestral el mejor estimador de
la media poblacional.

Recuerda la relación entre el tamaño de la muestra y el error muestral que repasamos


en la lectura. 1. En la fórmula se ve esta relación que es inversa:

PÁGINA 27
Si un estimador es consistente, se vuelve más confiable al tener tamaños de muestra
más grandes. No obstante, hay un factor de riesgo. Tienes que contemplar la
posibilidad que surge al aumentar el tamaño de la muestra, ya que allí obtendrás
mayor información sobre el parámetro poblacional que deseas estimar, pero debes
asegurarte de la consistencia del estadístico o estimador, porque de lo contrario
desperdiciarás tiempo y dinero si decides hacer un muestreo grande, es decir,
tomando tamaños grandes de cada muestra.

De esta forma, la media y la cuasivarianza son estimadores consistentes.

4. SUFICIENCIA
“Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro
estimador puede extraer información adicional acerca del parámetro de población que
se está estimando” (Levin y Rubín, 2004, p. 276).

Aclaraciones para escoger un buen estimador


Un estadístico de la muestra determinado no siempre es el mejor estimador de su
parámetro poblacional. Observa los siguientes casos.

Si la distribución poblacional es simétrica y, por lo tanto, coinciden los valores de la


media y la mediana, sucede lo descrito a continuación.

 La media de la muestra sería un estimador imparcial o insesgado de la mediana


de la población. También sería un estimador consistente de la mediana de la
población, pues al aumentar el tamaño de la muestra, el valor de la media de la
muestra tenderá a acercarse bastante a la mediana de la población. También, la
media de la muestra sería un estimador más eficiente de la mediana de la
población –más que la mediana de la muestra–, ya que para muestras grandes
la media de la muestra tiene un error estándar menor que la de la mediana.

 Recíprocamente, la mediana de la muestra de una población con distribución


simétrica sería un estimador imparcial y consistente de la media de la
población, pero no el más eficiente porque en muestras grandes su error
estándar es mayor que el de la media de la muestra.

3. APLICACIÓN AL CASO DE LA CÁMARA DE ARTEFACTOS ELECTRÓNICOS


PARA EL HOGAR

Si analizamos el caso propuesto, la distribución de precios de la población tiene una


distribución normal. Además, aunque así no lo fuese, la muestra tomada es lo
suficientemente grande para suponer que los estadísticos de la muestra se aproximan
a distribuirse de una forma también normal (teorema central del límite).

Con estas aclaraciones, la media de la muestra es un buen estimador puntual,


especialmente en este caso en que la muestra es lo suficientemente grande para
suponer una distribución de la media muestral aproximadamente normal. Asimismo,
la media es un estimador insesgado, eficiente y consistente, según lo estudiado.
PÁGINA 28
También la varianza es un buen estimador puntual y la distribución de la proporción
cumple con la condición para ser aproximada por la normal, como mostraremos más
adelante al calcular los estadísticos o estimadores solicitados.

Enunciado 1
¿Qué papel juega la consistencia de un estimador en la determinación del
tamaño de la muestra?
El estimador es más consistente cuanto mayor sea el tamaño de la muestra.
Justificación: la respuesta correcta es «el estimador es más consistente cuanto mayor
sea el tamaño de la muestra». El tamaño de la muestra está inversamente
relacionado con la desviación estándar de la muestra. Por ello, si disminuye, el
estimador se acercará al verdadero parámetro de la población y esto ocurre cuando la
muestra aumenta.

Enunciado 2
¿Puede decirse que un estimador de la media es insesgado cuando la diferencia entre
su esperanza matemática y la media poblacional es igual a cero?
Verdadero
Justificación: la respuesta correcta es verdadero. Para que un estimador sea
insesgado o imparcial, su esperanza matemática debe ser igual al parámetro que está
estimando.

4. ESTIMACIÓN PUNTUAL

Tipos de estimaciones
Ya hemos estudiado que la inferencia estadística utiliza los datos muestrales para
inferir los parámetros poblacionales, es decir, podemos estimar el valor de un
parámetro poblacional -de una característica de la población- con los datos de la
muestra. A estos datos se los conoce como estadísticos muestrales.

De esta manera, podríamos estimar la media de la población, su varianza, desvío


estándar y proporción, los cuales conforman los parámetros más estimados. Existen
dos tipos de estimaciones sobre una población a partir de una muestra:

 una estimación puntual; y


 una estimación de intervalo.

Estimación puntual
Es cuando al parámetro le asignamos un valor único, un número que se utiliza para
estimar un parámetro desconocido de la población. Si bien la experiencia y los datos
históricos pueden ayudar a hacer buenas estimaciones puntuales, consideraremos
como estimadores puntuales a los estadísticos que obtenemos de una muestra
representativa de la población.
En otras palabras, a este número, por lo general, lo obtenemos a través de una
fórmula. Se desarrolla a continuación.

 La media de la muestra puede ser un estimador puntual de la media de la


población μ.

PÁGINA 29
 La desviación estándar de la muestra s, puede ser un estimador puntual de la
desviación estándar de la población σ.
 La proporción de la muestra p, puede ser un estimador de la proporción de la
población π. Al estimador de la proporción de la muestra, se lo designa con .

La media de la muestra es el mejor estimador de la media de la población μ. Es


insesgada, consistente, el estimador más eficiente y, siempre y cuando la muestra
sea suficientemente grande, su distribución muestral puede ser aproximada por
medio de la distribución normal. (Levin y Rubín, 2004, p. 277)

Es de esperarse que las estimaciones puntuales difieran de los correspondientes


parámetros poblacionales, justamente porque las estimaciones puntuales son
realizadas a partir de una muestra. Estas estimaciones se realizan en la práctica, se
acude a las fórmulas conocidas en la estadística descriptiva. Repasaremos estas
fórmulas en la resolución del caso planteado.

Estimación por intervalos


Se construye un intervalo de estimación para tener información acerca de qué tan
cerca está la estimación muestral del parámetro poblacional. Este intervalo se
construye bajo la premisa de que con un cierto porcentaje de confianza -que se
establece previamente- la media poblacional estará contenida en ese intervalo. Este
tema lo estudiaremos en la siguiente lectura.

Resolución del caso


Vayamos al caso presentado al principio de la lectura. Calculemos las estimaciones
puntuales de la media, la varianza y la proporción. Como los 3 son estimadores
insesgados y eficientes de sus respectivos parámetros poblacionales, lo que haremos
es calcular la media muestral, la varianza muestral (cuasivarianza) y la proporción
muestral. Además, son consistentes porque la muestra es lo suficientemente grande
para asegurar esta característica.

Para calcular la estimación de la media poblacional, usamos la fórmula que ya


conocemos sobre la definición de media o promedio, aplicada sobre la muestra:

Hemos estimado la media poblacional mediante una estimación puntual obtenida de


la media muestral: μ = 18 442,34. Podemos decir entonces que, con una estimación
puntual a partir de la muestra de 35 comercios, el promedio del precio de venta del
horno a microondas en los comercios de la ciudad es de $18 442,34.

Para la estimación de la varianza, aplicamos la definición de varianza a la muestra de


35 comercios (puedes hacerlo en la planilla Excel o por calculadora):

Aunque no se solicite, puede ser más útil en este problema extraer la raíz cuadrada
de la varianza y así obtener la desviación estándar de la muestra, un buen estimador
de la desviación estándar poblacional (de lo contrario quedarían las unidades
PÁGINA 30
elevadas al cuadrado):

Por lo tanto, la estimación puntual de la desviación estándar poblacional


es: . Decimos entonces que, a partir de la muestra de 35 comercios, la
desviación estándar poblacional se estima puntualmente en $14 87,61.

Para la estimación de la proporción poblacional, por su parte, el estadístico que más


se adapta es el de la proporción muestral. La proporción de casos que venden el
artículo a más de $20 000 son 5, por lo tanto, la proporción muestral es:

Además, más allá de que sepamos o no la forma de la distribución poblacional,


podemos aproximarla por la normal, ya que se cumplen las condiciones n.p > 5 y n.q
> 5. Observa: n.p = 35×0,1429 = 5,0015 y n.q = 30. Por ello, se puede estimar en la
población que la proporción de casos en los que se vende el artículo a más de $20
000 es 0,1429 o un 14,29 % de los comercios.

Enunciado 3
En una muestra de 400 trabajadores gastronómicos, 124 de ellos se mostraron
insatisfechos por las condiciones sanitarias en las que trabajaban. Determina la
proporción poblacional a través de una estimación puntual de la proporción de
trabajadores que se mostraron satisfechos por las condiciones de trabajo.

Enunciado 4
La siguiente es una muestra aleatoria de los cobros en pesos de una empresa
telefónica por 15 llamadas realizadas en un día determinado a un programa televisivo
para votar en un reality show: 4, 12, 3, 4, 5, 7, 8, 24, 35, 2, 20, 8, 24, 34 y 12. ¿Qué
parámetros poblacionales pueden estimarse puntualmente con esta muestra?

 El costo promedio de las llamadas.


 La desviación estándar del costo de las llamadas.
 La proporción de llamadas menores a $10.

Justificación: las respuestas correctas son el costo promedio de las llamadas, la


desviación estándar del costo de las llamadas y la proporción de llamadas menores
a $10. Estos son 3 de los estimadores puntuales que pueden calcularse porque se
refieren a la variable en estudio que es el costo de las llamadas. Los datos
obtenidos de la muestra no se refieren a la duración de las llamadas.

Dejando de lado todas las definiciones, la razón para estudiar los estimadores es
aprender acerca de las poblaciones mediante el muestreo, sin contar cada elemento
de la población. Por supuesto, tampoco en este caso el viaje es gratis y al decidir no

PÁGINA 31
contar todo, se pierde cierta exactitud. Los administradores desearían saber la
exactitud que se logra cuando se hace un muestreo y si usamos las ideas de este
capítulo, podemos decírselo. Los estadísticos pueden establecer cómo se comporta el
error estándar conforme aumenta o disminuye el tamaño de la muestra y los
investigadores de mercados pueden determinar el costo de tomar más muestras o
hacerlas más grandes; pero deberá usar su propio juicio para combinar estos dos
datos y tomar una decisión gerencial correcta. (Levin y Rubín, 2004, p. 280)

ESTIMACIÓN MEDIANTE INTERVALOS DE CONFIANZA

Introducción

Para seguir con la estimación, estudiaremos ahora la estimación intervalar para la


media y para la proporción de una población. A partir de una muestra aleatoria,
estudiamos, en la lectura anterior, que pueden estimarse los parámetros
poblacionales a partir de los estadísticos de la muestra en forma puntual.

Sin embargo, son muy utilizadas las estimaciones por intervalos de confianza, tanto
para la media como para la proporción.

En esta lectura, repasaremos los temas de estadística I, sobre estimación intervalar


con desviación estándar poblacional conocida. Dejaremos, para la próxima lectura,
qué sucede si no se conoce la desviación estándar poblacional; hasta qué punto
podemos seguir utilizando la distribución normal y cuándo tenemos que recurrir a otra
distribución llamada “t de Student”.

1. CASO: EMBOTELLADORA DE GASEOSAS

Al Instituto de Defensa al Consumidor de nuestra ciudad ha llegado un reclamo de un


comerciante referido a irregularidades sobre el contenido de varias botellas de una
bebida gaseosa. El comerciante reclama que la capacidad que tiene la botella de 2
litros de dicha bebida está fuera de especificaciones, tiene menos cantidad de bebida
que la especificada en la botella. El departamento de calidad de la empresa de la
bebida gaseosa realiza un análisis para estudiar si, en efecto, hubo alguna partida
cuya capacidad en el contenido de la gaseosa esté fuera de especificaciones. Se
proponen, entonces, estimar la cantidad real de líquido en las botellas de 2 litros de
gaseosa en una planta embotelladora local. La planta embotelladora ha informado al
ente de defensa al consumidor que la desviación estándar poblacional para las
botellas de 2 litros es de 0,05 litros. Se toma una muestra aleatoria de 100 botellas de
2 litros y se calcula la media muestral que es de 1,99 litros.

El departamento de calidad elabora un informe en el que consta:

1) Una estimación de intervalo de confianza del 95 % de la media poblacional de la


cantidad de bebida contenida en cada botella.

2) Puede suponerse que la población de llenado de bebida en cada botella se


distribuye normalmente, ¿por qué?

3) ¿Por qué un valor de 2,02 litros de bebida en una sola botella no es inusual?
PÁGINA 32
4) ¿Cuál es el error estándar de la distribución de medias muestrales?

5) Si, en otra muestra de 120 botellas, se encontraron 12 botellas fuera de


especificaciones, se solicita estimar la proporción de botellas fuera de
especificaciones en la población con un 99 % de confianza.

¿Puedes colaborar con el departamento de calidad de la embotelladora para brindarle


los datos que necesitan para que luego elaboren un informe?

2. ESTIMACIÓN MEDIANTE INTERVALOS DE CONFIANZA

¿Qué es un intervalo de confianza?

“Una estimación de intervalo es un rango de valores que se utiliza para estimar un


parámetro de la población” (Levin y Rubin, 2004, p. 281).

Una estimación puntual, como dijimos, es insuficiente, ya que solo podemos decir que
es correcta o incorrecta. Es mucho más útil si está acompañada por una estimación
del error que podría cometerse en la inferencia.
Por eso, es necesario tener en cuenta que, debido a la variabilidad de muestreo, los
estadísticos no coincidirán con los parámetros poblacionales.
Por tal motivo, se calcula una estimación por intervalo. Este intervalo se construye
al sumar y restar al estimador puntual un valor llamado margen de error que
designamos con E.
Por lo tanto, la fórmula general de una estimación por intervalo es la siguiente:

Estimación puntual ± E
Este margen es el que está dispuesto a aceptar el investigador o la persona que
realiza el estudio estadístico.

E: también se llama error estimado o margen de error.

La medida de la probabilidad que el valor del parámetro esté dentro del intervalo:
[estimación puntual –E ; estimación puntual +E], puede estimarse con más precisión.
De esta manera, tendremos una mejor idea de la confiabilidad de la estimación y se
podrán tomar mejores decisiones.

En estadística, la probabilidad que asociamos con una estimación de intervalo se


conoce como nivel de confianza.

3. ESTIMACIÓN DE LA MEDIA POBLACIONAL Μ A PARTIR DE LA MEDIA


MUESTRAL X MEDIANTE UN INTERVALO DE CONFIANZA

ERROR DE ESTIMACIÓN O MARGEN DE ERROR. CONFIABILIDAD


Para una muestra cualquiera, la media estará ubicada bajo la curva a una
distancia máxima e de la media poblacional, por lo tanto, si estimamos la
media poblacional a través de la media de esa muestra cometemos un error,
el cual está dado por e.

PÁGINA 33
FIGURA 1: VISUALIZACIÓN DE UN INTERVALO DE CONFIANZA PARA LA MEDIA EN UN CASO
GENERAL

Si consideramos una de las muestras, su media tendrá un valor y se ubicará sobre el


eje de las abscisas a una distancia E de la media poblacional μ. Por lo tanto, si
estimamos la media poblacional a través de la media de esa muestra cometemos un
error, que es igual a:

(En realidad, el error es ±, pues está a la derecha y a la izquierda de la media).

Pero, además, como vimos en la lectura 2, podemos expresar el margen de error E


(también llamado error de estimación) en función del error muestral o error estándar ,
entonces:

Si tenemos en cuenta la fórmula del error estándar de una distribución de medias:

La expresión del error de estimación será:

Observa que el error de estimación o margen de error es función directa de z e


inversa de n (tamaño de la muestra), en dónde:

z : nos definirá el grado de bondad o nivel de confianza.


σ: indica el desvío estándar poblacional.
n : representa el tamaño de la muestra.

El error de estimación es un valor que lo podemos estimar a priori como:

El máximo error permitido entre el valor de la media de una muestra y el valor de la


media poblacional.

Si se conoce la desviación estándar de la población, entonces, el error muestral queda


sujeto a la variación del tamaño de la muestra y del grado de seguridad
(confiabilidad) con que se quiera estimar el parámetro poblacional.
Los grados de confiabilidad más utilizados son los de: 90 %, 95 %, 98 % y 99 %.
Supongamos que adoptamos un valor de confianza del 95 % en la estimación de la
PÁGINA 34
media poblacional. Esto implica que el valor de z = 1,96, y el área encerrada por la
curva normal en el intervalo: μ - 1,96 y μ + 1,96 es de 0,95.
Es decir, que el 95 % de todas las muestras tienen una media comprendida en ese
intervalo.
El nivel de confianza que se establezca a priori define el valor de z. Este valor se
extrae de la tabla de distribución normal estándar. Debe ingresarse a dicha tabla por
el cuerpo de esta, que son las probabilidades correspondientes a la confianza
establecida y buscar el z correspondiente.

ACLARACIONES IMPORTANTES SOBRE LOS VALORES DE Z PARA UNA CONFIANZA


DETERMINADA
Muchas veces, encontrarás en algunos textos la expresión z_(α/2). Es una expresión
muy utilizada y se refiere a lo siguiente: ¿cómo se obtiene que el valor de z
correspondiente es 1,96?

 Primero, tenemos que definir el coeficiente de confianza: el coeficiente de


confianza es el nivel de confianza expresado como valor decimal. Por ejemplo, 0,95

Al coeficiente de confianza se lo designa con (1 - 𝛼), en donde 𝛼 es el área bajo la


es el coeficiente de confianza correspondiente al nivel de confianza de 95 %.

central la abarca el coeficiente de confianza 0,95. Entonces:(1 - 𝛼) = 0,95.


curva que queda en la cola inferior más el área de la cola superior. Pues al área

Teniendo en cuenta la simetría de la curva como lo muestra la figura 2.

un coeficiente de confianza (1 - 𝛼) = 0,95 y, por tanto, 𝛼 = 0,05.


 En la tabla de la distribución normal estándar tendremos que buscar un área con

Pero a este valor de 𝛼 = 0,05 hay que dividirlo en dos partes iguales, para buscar
en la tabla el valor de z correspondiente. Por lo que 𝛼/2 = 0,05/2 = 0,025.

 Según el tipo de tabla que se utilice es fácil comprobar que, para un área de 0,025,
el valor de z para la cola superior es 1,96.

En la siguiente figura, se visualiza la ubicación del coeficiente de confianza y el área


ocupada por este. Además, se muestra el z = 1,96 correspondiente a la confianza del
95 %.

FIGURA 2: DISTRIBUCIÓN MUESTRAL DE LA MEDIA ESTANDARIZADA, PARA UN


INTERVALO DE CONFIANZA DEL 95 %

Los niveles de confianza más utilizados son los que se muestran en la tabla 1.
PÁGINA 35
TABLA 1: VALORES DE Z PARA LOS PRINCIPALES NIVELES DE CONFIANZA
Descripción: se muestran los niveles de confianza más utilizados, con los
correspondientes valores de z que muestran la tabla de la distribución normal
estándar.

Nivel de confianza Valor de z

90 % 1,645

95 % 1,96

98 % 2,33

99 % 2,575

APLICACIÓN AL CASO DE LA EMBOTELLADORA DE GASEOSAS


Con lo estudiado hasta aquí, ya podemos responder el caso planteado al comienzo de
la lectura, en su ítem 3, en el que se nos pide el error estándar de la distribución de
medias muestrales.
Aplicamos la fórmula del error estándar. El factor de corrección no lo aplicamos pues
la población se considera infinita frente a la muestra (ver lectura 1), la producción ni
se da como dato, se supone una gran cantidad de botellas en la corrida de producción
de un día cualquiera.

Recordemos que la desviación estándar de la población es de 0,05 litro y la muestra


tomada es de 100 botellas:

La desviación estándar de la distribución de muestras (error estándar o error


muestral) es de 0,005.

También, podemos determinar el margen de error con un 95% de confianza:

El máximo error permitido para estimar la media poblacional con una confianza del
95% es de 0,0098.

4. FÓRMULAS DEL INTERVALO DE CONFIANZA PARA LA MEDIA CUANDO ES


CONOCIDA LA DESVIACIÓN ESTÁNDAR POBLACIONAL: Σ (REPASO DE
ESTADÍSTICA 1)
Supongamos que es necesario estimar la media de una población a través de la
media de una muestra de tamaño n.

PÁGINA 36
Por lo tanto, para determinar un intervalo de confianza para la estimación de la media
poblacional, será necesario:

 adoptar un nivel de confianza con el cual queda determinado el valor de z;


 determinar la media de una muestra y utilizarla como estimador puntual de la
media poblacional;
 definir los límites del intervalo sobre la base de la desviación estándar de la
población, que es conocida.

Límite inferior de confianza:

Límite superior de confianza:

Nótese que el tamaño de la muestra n es inversamente proporcional al margen de


error E. Esto puede manejarlo el investigador, o establece el E que está dispuesto a
aceptar o establece la muestra mediante una fórmula que se estudiará en la próxima
lectura.

Decir que σ es conocida significa que se cuenta con datos históricos o con otra
información que permita obtener una buena estimación de la desviación estándar
antes de tomar la muestra que se usará para obtener la estimación de la media
poblacional. De manera que, técnicamente, esto no significa que σ se conozca con
seguridad. Lo que significa es que solo se obtuvo una buena estimación de la
desviación estándar antes de tomar la muestra.

En consecuencia, si un determinado tamaño de muestra da un intervalo demasiado


amplio, para que tenga utilidad práctica, se aumenta el tamaño de la muestra.
Si n está en el denominador, con un tamaño de muestra mayor se obtendrá un
margen de error menor, un intervalo más estrecho y mayor precisión (Anderson,
Sweeney y Williams, 2012).
Ejemplo 1:
En un restaurante se desea estimar la media gastada por cliente en una comida. Se
tomó una muestra de 50 clientes y se obtuvo una media de $ 345,20. Si la desviación
estándar poblacional se estima en $125,40, entonces,
a. determina el margen de error para un 98 % de confianza;
b. determina el intervalo de confianza de 98 % para la media poblacional.

Solución:
a. . Según la tabla 1, el valor de z para una confianza del 98% es z = 2,33.

Entonces:

PÁGINA 37
Es decir que el máximo error permitido para una confianza del 98% es 41,31

b.

Existe un 98% de confianza, de que el intervalo [303,89 – 386,51] contenga a


la media poblacional.

Recuerda:
En este caso, no aplicamos el factor de corrección para poblaciones finitas, pues la
población se considera infinita.

5. DESVIACIÓN ESTÁNDAR POBLACIONAL DESCONOCIDA

Si la desviación estándar no se conoce y la muestra es grande, n ≥ 30, se utiliza la


desviación estándar de la muestra como estimador de la desviación estándar
poblacional, es decir:
A se llama estimador de la desviación estándar poblacional. Recuerda utilizar el
factor de corrección para poblaciones finitas, si es necesario.

Si la muestra es pequeña y se desconoce la desviación estándar poblacional y se


desconoce la forma de la población, se utiliza para la estimación otra distribución que
no es la normal, sino la de Student, que estudiaremos en la próxima lectura.

Ejemplo 2

En una empresa de turismo, se realizó un estudio y se encontró que las familias


estaban dispuestas a gastar en promedio $ 675 185 durante un mes de vacaciones
durante el mes de enero. Suponga que en el estudio participaron 600 familias y que la
desviación estándar muestral fue $10 500.
a. Con 95 % de confianza, ¿cuál es el margen de error?
b. ¿Cuál es el intervalo de confianza de 95 % para estimar la media poblacional?

Solución

a. . Según la tabla 1, el valor de z para una confianza del 95% es z = 1,96.


Además, utilizaremos como estimador de la desviación estándar poblacional,
a y no utilizaremos el factor de corrección para poblaciones finitas,
pues la población se supone infinita frente a la muestra.

PÁGINA 38
Entonces:

Es decir que el máximo error permitido para una confianza del 95% es 840,17.
b.

Existe un 95% de confianza, de que el intervalo [674344,83-676025,17] contenga a la


media poblacional

APLICACIÓN AL CASO DE LA EMBOTELLADORA DE GASEOSAS


Podemos resolver los puntos 1) 2) 3)

1. Estimación del intervalo de confianza del 95% de la media poblacional de la


cantidad de bebida contenida en cada botella.

Utilizaremos el margen de error para un 95% de confianza ya calculado en el ítem 4)


del caso planteado.

Entonces, sabiendo que la media muestral de las 100 botellas de gaseosas


seleccionadas es de 1,99 litros: x = 1,99 litros,

Existe un 95% de confianza, de que el intervalo [1,9802 ;1,9998] contenga a la media


poblacional.

2. Puede suponerse que la población de llenado de bebida en cada botella


se distribuye normalmente, ¿por qué?
En realidad, no podemos asegurar que se distribuye normalmente, pero sí que tiene
forma aproximadamente normal, pues tenemos el dato de la desviación estándar
poblacional (que no tenemos que estimar) y, además, la muestra es lo
suficientemente grande como para suponer que la distribución de medias muestrales
se va acercando a una distribución normal con las características que indica el
teorema del límite central.

CONCLUSIONES IMPORTANTES

 Si la población es normal y utilizamos la fórmula: , el intervalo de


confianza que se obtiene es exacto.

PÁGINA 39
¿Qué significa que sea exacto? Que, si esa fórmula se usa repetidas veces para
generar intervalos de, por ejemplo, el 95% de confianza, exactamente 95 de 100 de
esos intervalos contendrán a la media poblacional.

 Si la población no tiene forma normal, el intervalo de confianza obtenido

mediante la fórmula: , será aproximado. El grado de aproximación


dependerá tanto de la distribución de la población como del tamaño de la
muestra.

 Si el tamaño de la muestra es mayor o igual a 30, la fórmula dará un resultado


más preciso.

 En caso de que no se conozca σ y si la distribución de la población es muy


sesgada, se recomienda que el tamaño de la muestra sea mayor o igual a 50.

 Para muestras menores, habrá que analizar la simetría de la población para

decidir si utilizar la fórmula:

 Cuando σ es conocida, E es fijo y es el mismo para todas las muestras del


mismo tamaño n.

 Cuando σ no se conoce, el margen de error varía de una muestra a otra, pues la


desviación estándar muestral s varía con la muestra seleccionada.

 En la próxima lectura estudiarás otra distribución para solucionar los casos de


muestras menores a 30 y distribuciones no normales con σ desconocida.

RESUMEN DE LOS CASOS PARA LA ESTIMACIÓN DE LA MEDIA POBLACIONAL POR


INTERVALOS DE CONFIANZA

Según lo estudiado hasta aquí, podemos presentar el siguiente cuadro como resumen
de los casos planteados para saber las fórmulas que se utilizan cuando la desviación
estándar es conocida o desconocida, en los casos de poblaciones finitas e infinitas.

TABLA 2: FÓRMULAS PARA INTERVALOS DE CONFIANZA EN LA ESTIMACIÓN DE LA MEDIA


POBLACIONAL

Descripción: se resumen las fórmulas de los límites para construir un intervalo de


confianza para la media poblacional, diferenciando si la desviación estándar
poblacional es conocida o no y si la población en finita o no.

PÁGINA 40
ACTIVIDADES DE REPASO DE LECTURAS

Enunciado 1:
¿Cómo le explicarías a tu jefe que las baterías de un automóvil tienen una duración
entre 33,56 meses y 35,23 meses, con una confianza del 99 %, si has realizado todos
los cálculos correctamente?

 Si seleccionamos muchas muestras aleatorias del mismo tamaño y calculamos un


intervalo de confianza para cada una de esas muestras, entonces en el 99 % de los
casos, la media de la población caerá dentro de dicho intervalo.
 Si generamos intervalos de confianza del 99 %, podemos afirmar que es seguro
que el 99 % de los intervalos generados contendrán a la media poblacional.
 Podemos afirmar que el 99 % de las baterías seleccionadas en la muestra, tendrán
una media contenida en el intervalo: 33,56 meses y 35,23 meses

Justificación: no se trata de interpretar de que la vida media de todas las


baterías caigan dentro de ese intervalo, pues de hecho habrá algunas que tengan
una media que no esté en ese intervalo. Se trata de que el intervalo puede ser uno de
los que contenga a la media poblacional, con un cierto grado de confiabilidad. Es
decir, cada 100 baterías, 99 caerán dentro de ese intervalo.

Enunciado 2:
La amplitud del intervalo de confianza aumenta a medida que el nivel de confianza
aumenta.

 Es verdadero, porque aumenta el error estimado.

Justificación: es verdadero. La amplitud del intervalo de confianza está directamente


relacionada con el valor de z, y este con el nivel de confianza. Por lo tanto, es lógico
que, si queremos más seguridad o más confiabilidad, aumente también la amplitud

PÁGINA 41
del intervalo, pues nos estamos permitiendo un error mayor para asegurarnos que el
intervalo contenga a la media poblacional.

6. ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL Π A PARTIR DE LA


PROPORCIÓN MUESTRAL P MEDIANTE UN INTERVALO DE CONFIANZA

Con frecuencia, se utiliza una muestra para estimar la proporción de ocurrencias de


un evento en una población π. Por ejemplo, el gobierno estima, mediante un
procedimiento de muestreo, la cantidad de desocupados o la proporción de votantes
del país a un partido determinado.

La proporción se constituye en una población como un nuevo parámetro, que se


determinará, en la mayoría de los casos, como una inferencia a través del estadístico
correspondiente de una muestra.

Para la obtención y análisis del estadístico tendremos presente el Teorema del Límite
Central, que también se aplica, como vimos, a las proporciones. Pues también la
distribución de muestras de la proporción tiende a una normal cuando n ≥ 30.

Acá se debe tener en cuenta que a la media de la distribución muestral de


proporciones se la puede designar de distintas formas: o o , según los
distintos autores.

Recuerda que la distribución de muestras de la proporción tiene lo siguiente:

 Una media igual a la proporción poblacional:

 Y el error estándar o la desviación estándar de la distribución muestral de la


proporción:

error estándar de la distribución de proporciones muestrales


Donde:
: la proporción de éxitos de la muestra.
: la proporción de fracasos de la muestra.

Por otra parte, recordemos que la distribución de la proporción surge de una


aproximación de la binomial a la normal, por lo que todo lo referente a la estimación
por intervalos de la proporción es utilizado cuando el tamaño de la muestra es grande
y se cumplen las condiciones: n.p ≥ 5 y n.q ≥ 5

ERROR ESTIMADO (E) EN UNA ESTIMACIÓN POR INTERVALO DE CONFIANZA


DE LA PROPORCIÓN
De manera similar a lo analizado para la estimación por intervalos de la media,

PÁGINA 42
comenzaremos por obtener una estimación por intervalo para la proporción
poblacional a partir de la proporción muestral .

 Donde es el estimador puntual de π, tal como lo definimos al principio de


esta lectura, podemos decir que:

La fórmula general de una estimación por intervalo para la proporción será:


± margen de error (E)

 Construyamos ahora la ecuación de E, para la distribución muestral de éxitos de


la proporción, partiendo de la fórmula de estandarización de π para una
distribución normal, pero ahora aplicada a la distribución de muestras de :

Donde es la desviación estándar de la distribución muestral de proporciones o


error estándar.

Entonces:

El error de estimación es un valor que lo podemos estimar a priori como:

El máximo error permitido entre el valor de la proporción de la muestra y el valor de


la proporción poblacional.

 Los grados de confiablidad más utilizados son los mismos que los utilizados para
estimar la media poblacional y se encuentran en la tabla 1: de: 90%, 95%, 98%
y 99%.

 Supongamos que adoptamos un valor de confianza del 95% en la estimación de


la proporción poblacional. Esto implica que el valor de z = 1,96 y el área
encerrada por la curva normal en el intervalo: es de 0,95.

 Todas las características sobre la forma de la población y tamaño de la muestra


son aplicables también para la proporción. Por supuesto que aquí no tendremos
el problema de si la desviación estándar es conocida o no, pues no interviene en
la fórmula del intervalo de confianza para la proporción.

 Cuando la relación entre el tamaño de la muestra n y el de la población N es


mayor o igual a 0,05 debemos aplicar el factor de corrección para poblaciones
finitas. Al igual que para calcular el error estándar y permitido para la media.

FÓRMULAS DEL INTERVALO DE CONFIANZA PARA LA PROPORCIÓN

PÁGINA 43
Si comparamos las fórmulas en el caso del límite inferior y superior de confianza, con
las que necesitamos para estimar la media, solo tendremos que cambiar el error
estándar poblacional.
Límite inferior de confianza:

Límite superior de confianza:

Observa que n es inversamente proporcional al error permitido igual que en el caso


de la estimación por intervalos de la media poblacional.

A mayor tamaño de la muestra, menor es el error estimado E y el error estándar .

RESUMEN DE LOS CASOS PARA LA ESTIMACIÓN DE LA PROPORCIÓN


POBLACIONAL POR INTERVALOS DE CONFIANZA
Podemos presentar el siguiente cuadro como resumen de los casos planteados para
estimar la proporción muestral.

TABLA 3: FÓRMULAS PARA INTERVALOS DE CONFIANZA EN LA ESTIMACIÓN DE LA PROPORCIÓN


POBLACIONAL
Descripción: se resumen las fórmulas de los límites para construir un intervalo de
confianza para la proporción poblacional, diferenciando si la población en finita o
infinita.

Cuando la población Cuando la


es finita: población es
n ≥ 0,05 N infinita:
n < 0,05 N

Estimación
de (porpo
rción de la
población),
cuando
n ≥ 30 y

Ejemplo 3:
La caja de jubilaciones de una provincia de la Argentina ha determinado que de los
últimos 100 empleados públicos que deciden iniciar los trámites de jubilación sin
recurrir a ningún gestor es del 40%.

PÁGINA 44
Se solicita determinar:
a. puntualmente, la proporción poblacional de empleados que encaran personalmente
su jubilación; y
b. que se genere un intervalo de confianza que contenga a la proporción poblacional
con una bondad del 95 %.

Datos: n = 100; = 0,4; = 0,6

a. Estimación puntual : = π = 0,4


El 0,4 de los empleados gestionan personalmente su jubilación (40%).

b. La población se considera infinita frente a la muestra, por lo que no utilizaremos el


factor de corrección para poblaciones finitas.

Entonces:

Con un 95% de confianza el intervalo [0,304 ; 0,496] contiene a la proporción


poblacional

RESOLUCIÓN DEL CASO DE LA EMBOTELLADORA DE GASEOSAS, PUNTO 4

3. Si, en otra muestra de 120 botellas, se encontraron 12 botellas fuera de


especificaciones, se solicita estimar mediante un intervalo la proporción de botellas
fuera de especificaciones en la población con un 99% de confianza.

La población se sigue considerando infinita frente a la muestra.

Datos:

n = 120
z = 2,575 para un 99% de confianza

PÁGINA 45
Entonces:
Calculemos, primero, el margen de error:

Con un 99% de confianza el intervalo [0,029; 0,171] contiene a la proporción


poblacional de botellas fuera de especificaciones.

ACTIVIDADES DE REPASO DE LECTURAS


Enunciado 3:
En la práctica, los tamaños de muestra empleados en estimaciones por intervalo de
una proporción poblacional suelen ser grandes.

Es verdadero, porque la estimación puede realizarse siempre que la distribución de


muestras de la proporción sea normal.
Justificación: es verdadero, ya que el procedimiento para estimar proporciones
poblacionales mediante intervalos de confianza se basa en distribuciones normales y
eso se asegura con muestras grandes.

DISTRIBUCIÓN T DE STUDENT. DETERMINACIÓN DEL TAMAÑO DE LA


MUESTRA

1. CASO: EMBOTELLADORA DE GASEOSAS


Repasemos el caso de la lectura 3 y adaptémoslo a la siguiente situación (se
desconoce ahora la desviación estándar poblacional y la muestra es menor a 30
botellas). Al Instituto de Defensa al Consumidor de nuestra Ciudad ha llegado un
reclamo de un comerciante referido a irregularidades sobre el contenido de varias
botellas de una bebida gaseosa. El comerciante reclama que la capacidad que tiene la
botella de 2 litros de dicha bebida está fuera de especificaciones, tiene menos
cantidad de bebida que la especificada en la botella. El departamento de calidad de la
empresa de la bebida gaseosa realiza un análisis para estudiar si, en efecto, hubo
alguna partida cuya capacidad en el contenido de la gaseosa esté fuera de
especificaciones. Se proponen, entonces, estimar la cantidad real de líquido en las
botellas de 2 litros de gaseosa, de una planta embotelladora local. La planta
embotelladora ha informado al ente de defensa al consumidor que la distribución de
la cantidad de bebida en cada botella de 2 litros se comporta aproximadamente como
una distribución normal, pero se desconoce la desviación estándar poblacional. Al
tomar una muestra aleatoria de 20 botellas de 2 litros, su media muestral es de 1,99
litros y la desviación estándar muestral es de 0,06 litros.
El departamento de calidad elabora un informe en el que consta:

PÁGINA 46
1. Una estimación de intervalo de confianza del 95 % de la media poblacional de la
cantidad de bebida contenida en cada botella.

2. ¿Cuál es el error estándar estimado de la distribución de medias?

3. ¿Qué sucedería si retrocedemos al caso de la lectura 3 en el que la desviación


estándar poblacional es conocida e igual a 0,05 litros, la estimación sigue siendo
con el 95 % de confianza, tomáramos también una muestra de 20 botellas y
utilizáramos la distribución z? Construye el intervalo de confianza con estos datos,
compara los resultados con los obtenidos en 1) y extrae conclusiones.

¿Puedes colaborar con el departamento de calidad de la embotelladora para brindarle


los datos que necesitan para que luego elaboren un informe?

2. DISTRIBUCIÓN T DE STUDENT: DESVIACIÓN ESTÁNDAR DESCONOCIDA


Necesidad de la distribución t de Student para estimar un intervalo de
confianza para la media poblacional cuando no se conoce la desviación
estándar poblacional.
¿Qué sucedería si solo conociéramos la media y la varianza (o desviación estándar)
muestrales y desconociéramos no solo la media poblacional, sino también la varianza
o la desviación estándar poblacional?

Cuando, en la lectura anterior, estimamos la media poblacional mediante intervalos


de confianza, los supuestos eran los siguientes:

 La varianza poblacional es conocida (o la desviación estándar poblacional).

 La distribución poblacional es normal o aproximadamente normal.

 Si la distribución poblacional no es normal, el tamaño de la muestra tiene que


ser lo suficientemente grande (mayor que 30), como para considerar una
distribución de muestreo que se aproxime a la normal.

Pero, si no conocemos la desviación estándar poblacional y la muestra es pequeña


(menor o igual a 30), ¿cómo podremos estimar la media poblacional?
La distribución normal no es la distribución de muestreo adecuada para estimar
intervalos de confianza de la media poblacional si desconocemos la desviación
estándar poblacional y la muestra es pequeña.

Para solucionar esta situación, afortunadamente, existe otra distribución: la


distribución t, que presentaremos ahora, para luego aplicar en la estimación de
intervalos de confianza.

El uso de la distribución t para hacer estimaciones se requiere siempre que el tamaño


de la muestra sea menor o igual que 30 y la desviación estándar de la población no se
conozca. Además, al utilizar la distribución t, suponemos que la población es normal o
aproximadamente normal. (Levin y Rubin, 2004, p. 297)

Entonces, podremos utilizar s para estimar σ y así también estimar el error estándar y
el intervalo de confianza para la media poblacional.
PÁGINA 47
¡Importante! Debes tener presente que la distribución t supone que la distribución de
la variable aleatoria x es normal o aproximadamente normal.

Para distribuciones no normales con desviación estándar desconocida y muestras


pequeñas, debe complementarse el análisis con otros estudios para ver cuál es la
distribución que menor error produce en la estimación. Esto no lo estudiaremos en
este curso.

De todas maneras, cuando nada se dice de la forma de la población, muchas


investigaciones han demostrado que la distribución t se aplica en casos en los que la
distribución se aleja significativamente de la normal.

La distribución t de Student fue estudiada por William Gosset (1876-1937), quien se


ocupaba de tareas de control de calidad en la fábrica de cervezas Guinness, en
Irlanda. Desarrolló trabajos acerca de esta distribución que le permitieron analizar
muestras pequeñas. Debido a ciertas restricciones que le imponía la fábrica, no pudo
publicar sus trabajos con su nombre y usó el seudónimo de Student, pues consideró
que su aporte podría servir a otros.

La distribución t es una familia de distribuciones de probabilidad similar y cada una


depende de un parámetro conocido como grados de libertad. La distribución t para un
grado de libertad es única, como lo es para dos grados o tres grados de libertad, etc.
A medida que este número aumenta, la diferencia entre la distribución t y la
distribución normal estándar se reduce. (Anderson, Sweeney y Williams, 2012, p. 316)

3. GRADOS DE LIBERTAD

La idea de grados de libertad remite a la cantidad de valores que pueden asumir


libremente, las variables aleatorias de una muestra.
Si conocemos o calculamos en función de tales datos un estadístico, podemos perder
grados de libertad o valores que pueden variar del total de datos disponibles de la
muestra.

Por ejemplo: si tenemos como dato la media de una muestra y su tamaño: n,


tenemos n-1 variables aleatorias que podemos especificar libremente, con la
condición de que la suma de las variables dividido n de por resultado la media. Por
eso, a la expresión n-1 se la llama grados de libertad. Si tenemos una muestra de 8
variables, n-1=7, tiene siete grados de libertad.

El Diccionario de metodología estadística (Gonzalvo Maynar, 1978) indica que, cuando


un estadístico se usa en la estimación de un parámetro poblacional, los grados de
libertad dependen de las restricciones impuestas sobre las observaciones: cada
restricción hace perder un grado de libertad.

En esta lectura, utilizaremos siempre los grados de libertad con la fórmula gl=n-1,
donde n es el tamaño de la muestra.

PÁGINA 48
Cuando expliquemos la tabla de la distribución t, verás cómo buscar los grados de
libertad en esta.

CARACTERÍSTICAS DE LA DISTRIBUCIÓN T

La distribución t tiene una forma similar a la distribución normal estándar:

 tiene forma de campana;

 tiene una media de 0 y es simétrica;

 tiene una varianza mayor que 1;

 tiene una varianza más cercana a 1 y se aproxima más la distribución t de


Student a la normal estándar cuantos más grados de libertad posee.

Completaremos estas características con las conclusiones de la comparación con la


normal estándar.

COMPARACIÓN DE LA DISTRIBUCIÓN T CON LA NORMAL ESTÁNDAR: CONCLUSIONES

Observemos las figuras y, luego, extraeremos conclusiones.


En la siguiente figura, se muestran los gráficos de la distribución normal (línea roja) y
la distribución t (línea azul) para 2 grados de libertad.

FIGURA 1: COMPARACIÓN DE LA DISTRIBUCIÓN NORMAL ESTÁNDAR CON LA DISTRIBUCIÓN T,


PARA 2 GRADOS DE LIBERTAD

En la figura siguiente, se muestran los gráficos de la distribución normal (línea roja) y


la distribución t (línea azul) para 5 grados de libertad.

Figura 2: Comparación de la distribución normal estándar con la


distribución t, para 5 grados de libertad

PÁGINA 49
En la siguiente figura, se muestran los gráficos de la distribución normal (línea roja) y
la distribución t (línea azul) para 15 grados de libertad.

Figura 3: Comparación de la distribución normal estándar con la


distribución t, para 15 grados de libertad

En la siguiente figura, se muestran los gráficos de la distribución normal (línea roja) y


la distribución t (línea azul) para 30 grados de libertad. Observa que prácticamente no
hay diferencias entre ambas distribuciones.

Figura 4: Comparación de la distribución normal estándar con la


distribución t, para 30 grados de libertad

En la figura 5, se muestran, a modo de resumen, los gráficos de la distribución normal


estándar y las distribuciones t para 10 y 20 grados de libertad.

PÁGINA 50
Figura 5: Comparación de la distribución normal estándar con las
distribuciones t con distintos grados de libertad

Conclusiones:

 Ambas distribuciones son simétricas.

 Hay una distribución t diferente para cada posible tamaño de la muestra.

 La distribución t, en una visualización general, es más plana que la normal, pero


cuando el tamaño de la muestra crece se hace menos plana y se aproxima a la
normal.

 Observa que en los gráficos de las figuras 1, 2 y 5, cuando la muestra es


menor a 30, la distribución t abarca menos área en el sector de la media y
mayor área en las colas que una distribución normal.

4. USO DE LA TABLA T: DETERMINACIÓN DEL T CRÍTICO

Si la variable aleatoria x es normal, el estadístico:

se distribuye con una distribución t de Student con n – 1 grados de libertad.


Hemos comparado las gráficas de las distribuciones z y t. Ahora, compararemos las
tablas.
Recordemos que aún no estamos estimando el intervalo de confianza, estamos en el
primer paso que es la determinación del t crítico, para luego construir el intervalo.

TRES DIFERENCIAS ENTRE LAS TABLAS Z Y T:

1. La tabla t es más compacta. Muestra las probabilidades más usadas.

2. La tabla t nos da, como encabezado de columnas, la probabilidad de que el


parámetro de la población que se está estimando no quede atrapado en el

PÁGINA 51
intervalo de confianza que se está construyendo, como veremos seguidamente
en un ejemplo.

3. Al utilizar la tabla t, debemos especificar los grados de libertad que se manejan


(estos están en las filas de la tabla).

Presentaremos dos tipos de tablas para la distribución t, es importante familiarizarte


con las dos, aunque siempre elijas una para hacer los problemas. Tu profesor será el
que te indique cuál conviene usar, pero ambas llegan al mismo resultado.
La tabla nos da el t crítico, es decir, aquel valor de t (como antes era z) que abarca
una cierta área bajo la curva. Cada tabla tiene un dibujo que te indica cuál es el área
de probabilidades bajo la curva que contiene esa tabla. Pero, como dijimos, esa área
es la que está fuera del intervalo de confianza.

Ejemplo 1:

Se desea estimar un intervalo de confianza del 95 % con una muestra de tamaño 10.
Determinar los valores de t crítico utilizando las dos tablas que se presentan.

 Buscamos en la fila de la tabla t para 9 grados de libertad,

 Buscamos la probabilidad asociada, en la columna, según el tipo de tabla de


que se trate.

 Explicamos la situación del ejemplo en el siguiente gráfico:

FIGURA 6: DISTRIBUCIÓN T PARA EL CASO DEL EJEMPLO 1

En esta figura, se observa que, en la distribución t –en este caso para 9 grados de
libertad–, la parte central ocupa la confianza del 95 %. Como es simétrica, las colas
superior e inferior que quedan son de igual área. Para buscar los límites del intervalo,
tenemos que encontrar el valor de t crítico al dividir por 2 el área restante.

FIGURA 7: PORCIÓN DE LA TABLA DE LA DISTRIBUCIÓN T, COLA SUPERIOR, PARA VISUALIZAR


EL T CRÍTICO DEL EJEMPLO 1

PÁGINA 52
En esta figura, se busca el valor de los grados de libertad en las filas, en este caso, los
grados de libertad son n-1=10-1=9. En las columnas, se busca el área de
probabilidades que está en la cola superior que, según el diseño de la tabla, es igual
a: , y el valor crítico de t encontrado es, para este ejemplo: 2,262.

ACLARACIONES IMPORTANTES SOBRE COMO CALCULAR EL VALOR DE T CRÍTICO


PARA LA TABLA DE COLA SUPERIOR Y SU SIGNIFICADO
Para una confianza determinada y un determinado grado de libertad, el t crítico se
calcula de la siguiente manera (muy similar al cálculo del z crítico en una distribución
normal, pero teniendo en cuenta aquí lo que hemos dicho sobre lo que nos da la
tabla: la probabilidad de que la estimación no quede atrapada por el intervalo de
confianza).
Por tal motivo, vemos necesario interpretar la expresión . Lo haremos sobre la
base del ejemplo 1.

 Primero, tenemos que definir el coeficiente de confianza: el coeficiente de


confianza es el nivel de confianza expresado como valor decimal. Por ejemplo,
0,95 es el coeficiente de confianza correspondiente al nivel de confianza de 95
%.

 Al coeficiente de confianza se lo designa con 1-α, donde 𝛼 es el área bajo la


curva que queda en la cola inferior más el área de la cola superior. Pues al área
central la abarca el coeficiente de confianza 0,95. Entonces:1-α=0,95. Si se
tiene en cuenta la simetría de la curva como lo muestra la figura 6.

 En la figura 7, que corresponde a la tabla de la distribución t, tendremos que


buscar un área con un coeficiente de confianza y, por
tanto, .

PÁGINA 53
 Pero a este valor de hay que dividirlo en dos partes iguales, para
buscar en la tabla el valor de t correspondiente, ya que esta solo muestra, como

vimos, la cola superior. Por lo que .

 Entonces, el valor de t crítico será 2,262 que deja a la derecha un área de


0,025.

 En conclusión, la expresión , o =2,262 para 9 grados de libertad. Este es el


valor de t que sustituye al de z, para la estimación del error estándar y del
intervalo de confianza.

 Es importante aclarar que puede escribirse en lugar de . El t crítico es

el mismo, solo que se está refiriendo al área acumulada desde la


izquierda de la distribución hasta el t crítico.

Por último ¿qué nos da la tabla en su cuerpo? ¿Qué es 2,262?

Al igual que en la tabla de z, el valor encontrado, en este caso t = 2,262, indica que a

una distancia o dicho de otra forma a ±2,262 errores estándar estimados


de , a ambos lados de la media, el área bajo la curva entre estos dos límites será
del 0,95 del área total, y el área que aparece fuera de estos límites (la probabilidad de
error) es 0,10 del área total.
También, indica que a la derecha del t crítico en una tabla de cola superior, limitada

por la curva, queda encerrado el del área bajo la curva t. Mientras que a la

izquierda del t crítico queda, el del área.

Aquí, se repite la figura 6: para el caso del ejemplo 1, pero se agrega la


interpretación gráfica del t crítico.

FIGURA 8: DISTRIBUCIÓN T, PARA EL CASO DEL EJEMPLO 1. INTERPRETACIÓN


DEL T CRÍTICO

PÁGINA 54
Para practicar, busquemos el t crítico con la otra tabla, a dos colas y razonemos qué
valor nos da la tabla.

Ahora, se busca el valor de los grados de libertad en las filas, en este caso, los grados
de libertad son n-1 = 10-1 = 9. En las columnas, se busca el área de probabilidades
que está en las dos colas, es decir, α=0,05, el valor crítico de t encontrado es 2,262.

FIGURA 9: PORCIÓN DE LA TABLA DE LA DISTRIBUCIÓN T, A DOS COLAS, PARA VISUALIZAR EL T


CRÍTICO DEL EJEMPLO 1

Vemos que el valor de t crítico nos da igual que en la otra tabla, solo que, en esta,
tenemos que buscar la suma de las probabilidades de ambas colas restando 1-
0,95=0,05, sin dividirlo en dos.

ELEMENTOS DE LECTURA

Para los diversos problemas en los cuales se requieren valores de t o probabilidades


asociadas con valores de la variable t, se pueden utilizar las tablas que indicamos a
continuación. Existen diversas tablas publicadas. La única recomendación importante
para el uso es considerar cuidadosamente qué probabilidad está informando y hacer
uso de la propiedad de simetría de la distribución t (que se debe aplicar de manera
análoga a la de la distribución normal, que ya conocemos del curso anterior).

PÁGINA 55
1. TABLA DE LA DISTRIBUCIÓN T (SEGÚN LA PROBABILIDAD DE LA COLA
SUPERIOR). APÉNDICE TABLAS, P. 980
Fuente: Anderson, D. R.; Sweeney, D. J.; Williams, T. A. (2012). Estadística para
Administración y Economía. México: Ed. Cengage Learning Editores S. A.

2. TABLA DE LA DISTRIBUCIÓN T (SEGÚN LA PROBABILIDAD DE LAS DOS COLAS


COMBINADAS). APÉNDICE TABLA 3
Fuente: Levin, R.; Rubin, D. (2004). Estadística para Administración y Economía (7ª
edición). México: Pearson.

5. APLICACIÓN AL CASO DE LA EMBOTELLADORA DE GASEOSAS

Buscaremos, ahora, el t crítico para el caso de la embotelladora de gaseosas para


luego calcular lo que se nos pide.
Datos:

 Se sabe que la distribución de llenado de las botellas de 2 litros es


aproximadamente normal.

 Se desconoce la desviación estándar poblacional, pero se conoce la desviación


estándar de la muestra.

 La muestra es menor o igual a 30 botellas.

Se adapta el problema para considerar la distribución t, con los siguientes datos:

 n=20 botellas

 x=1,99 litros

 s=0,06 litros

Nivel de confianza solicitado 95 %


Coeficiente de confianza: 0,95

Por las condiciones del problema, puede resolverse mediante la distribución t y

utilizar s como estimador de σ, es decir, .


Busquemos, como dijimos, el t crítico.

Buscamos en la tabla de cola superior .


Entonces, con una confianza del 95 %: 1-α=0,95→1-0,95=α→α=0,05

Por lo que:
Además, si la muestra es de 20 botellas, los grados de libertad son n-1=20-
1=19 grados de libertad.

El t crítico: , como se observa en la figura 10.

En esta figura, se busca el valor de los grados de libertad en las filas, en este caso, los
grados de libertad son n-1 = 20-1 = 19. En las columnas, se busca el área de

PÁGINA 56
probabilidades que está en la cola superior que, según el diseño de la tabla, es igual

a: . La intersección de la fila y columna elegidas nos da el t crítico para el problema.

FIGURA 10: PORCIÓN DE LA TABLA DE LA DISTRIBUCIÓN T, COLA SUPERIOR, PARA VISUALIZAR


EL T CRÍTICO DEL CASO DE LA EMBOTELLADORA DE GASEOSAS

Comprueba que, utilizando la tabla a dos colas, te da el mismo resultado, para gl=19
y la probabilidad de: 1-α=0,05.

Más adelante, completaremos la resolución del problema.

FÓRMULAS INTRODUCIDAS HASTA AQUÍ EN ESTA LECTURA

A modo de resumen y para aclarar conceptos, daremos, a continuación, las fórmulas


más importantes para la estimación introducidas en esta lectura.

Desviación estándar estimada de la población:

PÁGINA 57
Esta fórmula indica que puede utilizarse la desviación estándar de una muestra para
estimar la desviación estándar de una población.
Error estándar estimado de la población

Esta fórmula nos permite calcular un error estándar (estimado) de la media de una
población infinita a partir de una estimación de la desviación estándar de la población.
Importante: en el caso de que la población sea finita frente a la muestra, se deja a
criterio del investigador agregar el factor de corrección para poblaciones finitas o
recurrir a otros métodos.
En este curso, en caso de que la distribución a utilizar sea t, solo utilizaremos
poblaciones infinitas frente a la muestra al utilizar la distribución t.

FÓRMULAS PARA LA ESTIMACIÓN DEL INTERVALO DE CONFIANZA UTILIZANDO


LA DISTRIBUCIÓN T
Datos: x, s, n
Nivel de confianza: (1-α) %
Coeficiente de confianza: 1-α
gl: grados de libertad = n – 1
El intervalo de confianza para la media se construirá según el siguiente esquema:
Límite inferior del intervalo:

Observa que que es el error estándar (estimado) de la media de una


población.

Límite superior del intervalo:

Recuerda que, en este caso, el margen de error .

Cuando no se conoce la desviación estándar poblacional, el margen de error es


distinto para cada muestra, porque depende de s. El caso contrario sucede en la
estimación por intervalos de la media cuando la desviación estándar poblacional es
conocida. E siempre permanece constante para un tamaño de muestra determinado.

CASO EMBOTELLADORA DE GASEOSAS


Resolvamos el caso de la embotelladora. Ya hemos calculado el t crítico, también
hemos fundamentado por qué conviene utilizar, en este caso, la distribución t.
Nos proponemos construir el intervalo de confianza que solicita el ítem 1 del
problema, recordemos los datos:
PÁGINA 58
1) Una estimación de intervalo de confianza del 95 % de la media poblacional de la
cantidad de bebida contenida en cada botella.

Significa que el intervalo [1,9619 litros; 2,0181 litros] atrapa a la media poblacional
del llenado en litros de las botellas, con un 95 % de confianza.
La amplitud del intervalo es de 2,0181 - 1,9619 =0,0562

2) ¿Cuál es el error estándar estimado de la distribución de medias?

3) ¿Qué sucedería si retrocedemos al caso de la lectura 3 en el que la desviación


estándar poblacional es conocida e igual a 0,05 litros, la estimación sigue siendo con
el 95 % de confianza, y tomáramos, también, una muestra de 20 botellas y
utilizáramos la distribución z? Construye el intervalo de confianza con estos datos,
compara los resultados con los obtenidos en el punto 1 y extrae conclusiones.

Datos:

El valor de z correspondiente a 0,95 es 1,96, tal cual fue explicado en la lectura 3

PÁGINA 59
Significa que el intervalo [1,968 litros; 2,012 litros] atrapa a la media poblacional del
llenado en litros de las botellas, con un 95 % de confianza.
La amplitud del intervalo es de: 2,012 - 1,968= 0,044 litros.

Si comparamos este resultado (realizado con la distribución z), con el obtenido en el


punto 1, en el que utilizamos la distribución t, observamos que:

 El intervalo realizado con la distribución t nos da con mayor amplitud que el


realizado con la distribución z.

 El intervalo utilizado con la distribución z, en el que conocíamos la desviación


estándar poblacional, es más preciso que el calculado mediante la distribución t.

 La precisión se debe a que la amplitud del intervalo es menor cuando se


conoce la desviación estándar (o la varianza) y, por lo tanto, es menor el error
estándar, a pesar de que con la distribución t se hizo una muy buena estimación
y las diferencias son muy pequeñas.

 Además, a mayor amplitud del intervalo, se asocia mayor seguridad de que la


media caiga en él y eso se debe a no contar con la desviación estándar de la
población.

 En conclusión: cuando no se cuenta con la desviación estándar de la población,


la distribución t nos da una muy aceptable estimación del intervalo de confianza
para la media poblacional.

OTRA APLICACIÓN DE LA TABLA T


Se desprende de lo estudiado hasta aquí un caso que puede presentarse en algún
problema.
Supongamos que quieras conocer cuál es la probabilidad acumulada hasta
determinado valor de la variable aleatoria. Podemos querer saber qué probabilidad
hay de que un valor de t con 17 grados de libertad sea menor o igual a 2,1098 (por
ejemplo) Nuevamente, buscamos en la tabla la fila correspondiente a los grados de
libertad que nos interesan (fíjate en la tabla de la figura 10 de esta lectura o en el
anexo publicado con las tablas). Luego, entre los valores de la fila, identificamos el
valor que nos interesa. En este caso, la columna donde se ubica el 2,1098 que,
aproximando a 3 cifras decimales, es 2,110, nos señala que la probabilidad de
obtener un número mayor a ese valor de t es 0,025. Por lo tanto, la probabilidad
acumulada hasta ese número será su complemento: 1 – 0,025 = 0,975.

RESUMEN DE FÓRMULAS PARA LAS ESTIMACIONES POR INTERVALOS DE


CONFIANZA
Antes, repasa lo siguiente:
Factor de corrección para poblaciones finitas (repaso)
Recuerda que también debes tener en cuenta el factor de corrección para poblaciones
finitas que estudiamos en la lectura 1 de este módulo y mencionamos en la lectura 3,
en el cálculo del error estándar.

PÁGINA 60
 Si estamos frente a una población finita (n ≥ 0,05N) es necesario introducir un
factor de corrección para poblaciones finitas, para el cálculo del error
estándar:

 Por lo tanto, la fórmula de cálculo para el error estándar, en caso de que la


población sea finita, es:

 También, recuerda que se aplica en el cálculo del error estándar de la


proporción para poblaciones finitas.

Fíjate que este error es siempre menor que 1 (pues el numerador de la fracción (N-n)
será menor que el denominador (N-1). Su aplicación reducirá el error estándar, lo que
hará las estimaciones más exactas.

RESUMEN DE LAS FÓRMULAS PARA LA CONSTRUCCIÓN DE LOS LÍMITES DEL


INTERVALO DE CONFIANZA
En la siguiente figura, se resumen las fórmulas de los límites para construir un
intervalo de confianza para la media poblacional y se diferencia entre si la desviación
estándar poblacional es conocida o no y si la población es finita o no.

PÁGINA 61
ACLARACIONES SOBRE LAS FÓRMULAS DE LA FIGURA 11

 (*) Para este caso solo consideraremos –en este curso– poblaciones infinitas
frente a la muestra. Además, recuerda el supuesto de que la población debe ser
normal o aproximadamente normal para aplicar estos extremos para calcular el
intervalo de confianza para la media poblacional.

 Para poder utilizar la distribución t en la estimación por intervalos de la media


poblacional, se tiene que desconocer la desviación estándar poblacional, con el
supuesto de una variable aleatoria que se distribuye normalmente o
aproximadamente normal y la muestra es menor o igual a 30 (así lo tomaremos
en este curso)

 En todos los demás casos que contempla este diagrama, se suponen


distribuciones normales o aproximadamente normales y, si no lo fueran,
igualmente utilizamos z para poblaciones mayores que 30, pues nos lo permite
hacer el Teorema Central del Límite (TCL).

 Como excepciones, se contempla el caso en el que se desconozca la desviación


estándar poblacional y, si la distribución de la población es muy sesgada, se
recomienda que el tamaño de la muestra sea mayor que 50. En este curso,
aclararemos si aplicar o no la distribución t o z en este tipo de problemas.

En la siguiente figura, se resumen las fórmulas de los límites para construir un


intervalo de confianza para la proporción poblacional π, se hace una diferencia en
función de si la población es finita o infinita.

PÁGINA 62
FIGURA 12: FÓRMULAS PARA INTERVALOS DE CONFIANZA EN LA ESTIMACIÓN DE
LA PROPORCIÓN POBLACIONAL

(*) Para la estimación de la proporción poblacional, debe verificarse que tanto n.p ≥5
y n.(1-p) ≥5, recuerda que 1 – p =q , la probabilidad de rechazo.

ACTIVIDADES DE REPASO
Si se quiere estimar un intervalo de confianza del 90 % para la media poblacional de
una muestra de 12 elementos, ¿qué probabilidad debe buscarse en la columna de la
tabla t de cola superior? ¿Cuál es el valor del t crítico?

A) correcto
PÁGINA 63
Los datos muestrales siguientes provienen de una población normal: 15; 13;
11; 10; 8; 12; 5; 6 ¿Cuál es el margen de error para la estimación de la
media poblacional, con un 95 % de confianza?
E = 2,9

Para profundizar los temas de la lectura te recomiendo que leas la siguiente


publicación.

Fuente: Badii, M. H.; A. Guillen (s. f.). Estimaciones Estadísticas. En Revista Daena:
International Journal of Good Conscience 5(1), pp. 237-255. Recuperado de
https://www.studocu.com/es-ar/document/universidad-empresarial-siglo-21/
herramientas-matematicas-v-estadistica-ii/21-estimaciones-estadisticas/11680125

6. DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

INTRODUCCIÓN

Ya estudiamos estimación de la media y de la proporción mediante intervalos de


confianza. Ahora, nos detendremos en el tamaño de la muestra que conviene tomar
para realizar tales estimaciones.

Muchas veces, cuando alguien que no es experto en estadística tiene que tomar una
muestra, la pregunta que se hace es ¿de qué tamaño tomo la muestra? Pero, por
sentido común, sabe que quiere que el error en la inferencia sea pequeño. Es decir,
desea que el proceso de la inferencia del estadístico al parámetro poblacional sea lo
más preciso posible.

De esto se trata esta lectura y créeme que la vas a utilizar mucho en tu vida
profesional.

RELACIÓN ENTRE EL TAMAÑO DE LA MUESTRA Y LA PRECISIÓN DE LOS


RESULTADOS

Decíamos, en la introducción, que queremos que el parámetro poblacional estimado


sea lo más preciso posible.
Por supuesto que va a existir un error por estimación y un error que es el que uno
está dispuesto a aceptar al no estudiar la población completa.
Pero ¿cuál es el tamaño adecuado de la muestra? Si es demasiado pequeña,
podríamos fracasar en nuestro análisis y, si es grande, claro que nos aproximaremos
más al parámetro poblacional con mayor precisión, pero seguramente estaríamos
desperdiciando recursos.
Pero, como veremos, el error de muestreo se puede controlar con la selección del
número adecuado de elementos para la muestra.
A continuación, estudiaremos cómo definir el tamaño de la muestra:

 para estimar la media poblacional;

 para estimar la proporción poblacional.

PÁGINA 64
¿CÓMO OBTENER EL TAMAÑO DE LA MUESTRA PARA OBTENER UN MARGEN
DE ERROR DESEADO?
Ya hemos estudiado, en lecturas anteriores, la relación del tamaño de la muestra con
el intervalo de confianza para la media y la proporción. Sabemos cómo influye y qué
relación tiene con el resto de los valores del intervalo de confianza.

Pero el enfoque que nos proponemos, en esta lectura, es el de establecer el número


mínimo de unidades que tiene que tener la muestra si establecemos de antemano el
error que el investigador está dispuesto a aceptar, así como también, el nivel de
confianza que se requiere.

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA UNA ESTIMACIÓN POR


INTERVALO DE LA MEDIA POBLACIONAL
CASO DELICITY

Delicity es una cadena de casas de té que opera en el país desde hace 10 años. Ha
realizado un estudio de mercado en la Ciudad de Córdoba para ver si es conveniente
instalarse. Ha tomado una muestra representativa de locales en alquiler y se encontró
con que, en promedio, los alquileres estaban en $ 8500 mensuales con una
desviación estándar de $ 1500.
Ahora, Delicity quiere realizar un nuevo estudio para estimar la media poblacional de
los alquileres, pero, esta vez, especificó el margen de error que puede aceptar que es
de $ 500 y el nivel de confianza en investigación que es del 95 %. La empresa te pide
que determines el tamaño de la muestra para estimar la media poblacional, utilizando
la desviación estándar del estudio previo realizado.

Antes de comenzar con el caso de Delicity, observemos algunos otros ejemplos que
servirán como base para explicar el tema

Ejemplo 1
Una empresa petrolera está haciendo una investigación sobre el precio promedio de
venta al público de la nafta Súper en todo el país, en el primer trimestre del año
pasado. Los datos históricos registran que la distribución de precios es,
aproximadamente, normal y que la desviación estándar de la población (todas las
empresas que operan en el país tanto nacional como provincialmente) durante ese
lapso, es de $ 12. ¿Qué tamaño tiene que tener la muestra si la petrolera quiere
estimar la media del precio al público de la nafta Súper, vendida en ese trimestre,
sabiendo que está dispuesta a aceptar un margen de error de ± $ 10, con un nivel de
confianza del 95 %?
En otras palabras, la petrolera desea tomar una muestra para estimar la media
poblacional.
Para esto, calculará la media de la muestra x y la utilizará como estimador puntual de
la media poblacional.
Pero quiere tener una certeza del 95 % de que esa media (precio promedio) no
exceda los ± $ 10 de la estimación puntual, es decir que esté por arriba o por debajo
de la estimación puntual.

PÁGINA 65
RESOLUCIÓN DEL EJEMPLO 1
Sabemos que:
El límite inferior de confianza está dado por:
El límite superior de confianza está dado por:
Además a: se lo denomina error permitido (E) o margen de error, que es el
error que el investigador está dispuesto a aceptar.
Por lo tanto:
Pero el error esperado, en nuestro ejemplo 1 es ± $ 10

Es decir, la petrolera está diciendo que:


Si buscamos en la tabla de la normal, tal como vimos en intervalos de confianza para
la media en la lectura anterior, para una confianza del 95 %, el valor de z = 1,96
Sustituimos:

Despejamos la desviación estándar de la distribución de medias muéstrales:

que también llamamos error estándar de la media.


También, sabemos que el error estándar de la media está inversamente relacionado
con el tamaño de la muestra, pues por definición

Donde σ es la desviación estándar poblacional que, en este caso, lo tenemos como


dato. Entonces, sustituimos y solo nos queda despejar n, que es lo que queremos
saber:

(siempre se redondea hacia arriba).

Entonces el tamaño de la muestra para la precisión especificada de antemano es


como mínimo de 6 empresas. O lo que es lo mismo, la empresa petrolera debe tomar
una muestra de 6 empresas que comercializan en el país para obtener la precisión
deseada en la estimación del precio promedio de la nafta Súper en el primer trimestre
del año pasado.
Recuerda que en lo que respecta al tamaño de la muestra, se puede decir que es
igual a 6 empresas o que debe ser mayor o igual a 6 empresas. Lo importante es que
el tamaño de la muestra obtenida cumpla con los requisitos que se propuso el
investigador. Después, se podrá hacer variar el tamaño de la muestra para ver cómo
PÁGINA 66
varía el error esperado y si el investigador está dispuesto a aceptarlo. Recuerda que,
a menor error permitido E, el tamaño de la muestra aumenta y viceversa.

GENERALIZACIÓN DE LA EXPRESIÓN MATEMÁTICA DEL TAMAÑO DE LA


MUESTRA PARA LA MEDIA
Caso con σ conocida

 Nuestro objetivo es determinar el tamaño de la muestra sabiendo que existe un


error que aceptamos de antemano.

 Nuestro punto de partida es el mismo que utilizamos para resolver el ejemplo 1:


la expresión que define un intervalo de confianza.

 Si se tiene el valor de σ, es posible encontrar el tamaño de muestra n necesario


para proporcionar cualquier margen de error deseado. A continuación, se
presenta la deducción de la fórmula.

En general:

(El tema de escribir α/2 como subíndice de z, fue explicado en la lectura anterior, por
lo que te remitimos a la lectura 3 para que lo repases si no lo tienes presente).

La cantidad se llama margen de error o error permitido E.


Entonces:

Pero sabemos que el error estándar es: sustituyendo en la ecuación


inmediatamente anterior:

Despejamos n:

Elevamos ambos miembros de la ecuación al cuadrado y distribuimos la potencia:

Aclaraciones:

1. Da lo mismo que, por practicidad y según las características del problema,

calcules primero: y luego eleves el resultado al cuadrado.

2. La ecuación de tamaño de la muestra se usa para determinar el tamaño de


muestra adecuado. Pero la opinión del investigador es muy importante para
determinar si el tamaño de la muestra final debe ser mayor.

PÁGINA 67
3. Observa que n es inversamente proporcional al margen de error E.

REFORCEMOS CONCEPTOS AL ANALIZAR, BREVEMENTE, LA FÓRMULA


DEL TAMAÑO DE LA MUESTRA

n: tamaño de la muestra que proporciona el margen de error deseado al nivel de


confianza elegido.
E: margen de error o error permitido, que el investigador está dispuesto a aceptar.
: valor de z, consecuencia directa del nivel de confianza que se va a usar para
calcular la estimación por intervalo.
σ: valor de la desviación estándar poblacional.

¿Cómo calculamos n si no tenemos la desviación estándar poblacional σ?

Caso con σ desconocido


Para calcular el tamaño de la muestra, necesitamos el valor de la desviación estándar
de la población. Esta debe especificarse antes de determinar el tamaño de la muestra,
ya que es un requisito para poder utilizar la fórmula.
Te mostraremos algunos métodos para que puedas obtener el valor de σ:
1) Podemos obtener un valor de σ de estimaciones calculadas a partir de estudios
anteriores.
2) Se puede tomar la desviación estándar muestral como estimador de la poblacional.
Es aconsejable seleccionar una muestra preliminar y utilizarla luego como estimador.
3) Se puede hacer con una lógica que se basa en el rango de los datos de la
población. Sabemos que la media más y menos 3 desviaciones estándar incluyen el
99,7 % del área total bajo la curva normal (regla empírica). Por lo tanto, el rango
aproximadamente abarca 6 desviaciones estándar. Para una estimación un poco
burda de la desviación estándar podría ser el rango de la población dividido 6. No es
una estimación precisa, pero puede funcionar si la distribución es normal.

Resolución del caso Delicity

Datos:

E= $ 500
Para un 95 % de confianza, z = 1,96

El tamaño de la muestra para estimar la media poblacional de acuerdo con las


especificaciones de la empresa es de 37 locales.

ACTIVIDAD DE REPASO

PÁGINA 68
¿Qué tan grande debe ser la muestra seleccionada para tener un intervalo
de confianza de 95 % con un margen de error de 10? Supongamos que la
desviación estándar poblacional es 40.

 n = 62
n ≥ 62
La muestra tiene que ser de por lo menos 62 elementos

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA ESTIMAR UNA


PROPORCIÓN DE UNA POBLACIÓN
CASO SEGUROS KEVIN S. A.

La compañía de seguros Kevin S. A. desea hacer un estudio de mercado en la


provincia de Chubut para saber qué proporción de la población está interesada en
comprar un tipo de seguro para vivienda. Para esto, quiere realizar un muestreo
significativo en dicha provincia. Como no cuenta con datos previos de muestras
anteriores ni tampoco de la población, solo establece el margen de error o error
permitido que está dispuesto a aceptar, que es ± 10 % clientes con un nivel de
confianza del 99 % . Los directivos de Kevin S. A. te consultan cuál sería el tamaño de
la muestra más adecuado para realizar este estudio.

¿Cómo obtener el tamaño de la muestra teniendo en cuenta un margen de


error deseado?

Hemos estudiado cómo calcular el tamaño de la muestra para estimar la media


poblacional. Del mismo modo, podemos calcular el tamaño de la muestra para
estimar la proporción poblacional con un error permitido y un nivel de confianza dado,
es decir:

El enfoque que nos proponemos, en esta lectura, es el de establecer el número


mínimo de unidades que tiene que tener la muestra para estimar la proporción
poblacional si establecemos de antemano el error que el investigador está dispuesto a
aceptar, así como también, el nivel de confianza que se requiere.

Una aclaración importante cuando queremos estimar una proporción poblacional es


que, por lo general, el margen de error deseado es de 0,1 o menor. Ten en cuenta que
hablamos de una proporción y si hablamos de 0,1, estamos diciendo que
permitiremos un error del 10 %.
Muchas encuestadoras admiten un error de 0,03 o 0,04, que es lo más común.
Con estos márgenes de error, nos aseguramos que la muestra calculada cumpla con
las condiciones estudiadas para aproximar por la normal a la distribución
binomial: n.p ≥ 5 y n.q ≥ 5 que, en este caso, se traduce en usar una distribución
normal como una aproximación de la distribución muestral x.

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA PARA LA PROPORCIÓN


POBLACIONAL

PÁGINA 69
Hay varios casos que se pueden presentar al querer calcular el tamaño de la muestra
para estimar la proporción poblacional. Te mostraremos, a continuación, los dos casos
más comunes.

Ejemplo 2: se cuenta con una estimación de la proporción poblacional


Un candidato a presidente sabe, por estudios previos realizados sobre una muestra,
que lo votará un 65 % de los encuestados. Determina el tamaño de la muestra para
que, en un nuevo estudio que está por realizar sobre la estimación de la proporción
poblacional que lo votará, tenga un de error no mayor del ± 0,04, con un 90 % de
certeza.
Resolución del ejemplo 2
Partimos de la fórmula del error permitido o margen de error en la estimación de

intervalos de confianza para la proporción: son los estimadores de p y q

Sustituimos según nuestros datos

Elevamos ambos miembros al cuadrado:

Despejamos n:

Para obtener con un 90 % de certeza y un ± 0,04 de margen de error al estimar la


proporción poblacional, debe tomarse una muestra de 395 personas.

Ejemplo 3: no se cuenta con ninguna información acerca de la proporción


poblacional
Un candidato desea saber de qué tamaño debe tomar una muestra para estimar la
proporción poblacional que lo votará. El criterio transmitido a los investigadores es
que el margen de error no sea mayor del ± 0,04, con un 90 % de certeza.
Resolución del ejemplo 3.

PÁGINA 70
Iniciamos la resolución igual que en el ejemplo 2:

Era de esperarse que nos encontremos con este problema, ya que queremos estimar
el valor poblacional de p mediante un tamaño de muestra que estamos buscando.

Nos encontramos con que nos faltan datos para calcular n, necesitamos una
estimación de los parámetros p y q de la población.
Si tenemos una buena idea de la proporción real de votantes del candidato, podemos
utilizarla como nuestra mejor estimación de p para calcular n.

Pero, si no tenemos idea del valor de p, entonces, nuestra mejor estrategia es darle
un valor de una forma conservadora: esto es que n sea lo suficientemente grande
para darnos, al menos, la precisión que necesitamos sin importar el verdadero valor
de p.
La manera de obtener la n más grande es generando el numerador más grande
posible de la expresión a la que arribamos, esto sucede cuando elegimos p=0,5 y
q=0,5
La diferencia con el resto de las opciones de p y q cercanas a 0,5 no son significativas,
pero esta es la más segura si desconocemos la proporción poblacional.
Entonces: si tomamos p=q=0,5

Para obtener con un 90 % de certeza y un ± 0,04 de margen de error al estimar la


proporción poblacional, sin tener datos previos de esta, debe tomarse una muestra de
434 personas.

Es decir que para tener una seguridad del 90 % de que estimamos la proporción
verdadera dentro de 0,04, debemos escoger una muestra aleatoria simple de 434

PÁGINA 71
votantes para entrevistar.
Observa que la diferencia con el ejemplo 2 no es grande, esto se mantiene si le
damos a p el valor entre 0,3 y 0,7.

En conclusión ¿cómo estimo si no lo tengo?

En la práctica, el valor estimado de se determina mediante algunos de los


siguientes métodos:

1. Utilizar la proporción poblacional de una muestra previa de las mismas unidades


o de unidades similares.

2. Utilizar un estudio piloto y elegir una muestra preliminar. La proporción


muestral de esta muestra se usa como valor estimado de p.

3. Emplear como valor estimado de p = 0,5, que es la forma más conservadora,


como acabamos de estudiar.

Generalización de la expresión matemática del tamaño de la muestra para la


proporción
De la fórmula del margen de error, despejo n:

Recuerda que es la desviación estándar de la distribución de proporciones


muestrales

Elevo ambos miembros al cuadrado:

z: valor que corresponde a un determinado nivel de confianza

estimador de la proporción poblacional de éxitos

estimador de la proporción poblacional de fracasos


E: margen de error o error permitido
Resolución caso seguros Kevin S. A.
Datos:
E= ± 0,1
99 % nivel de confianza, z= 2,58 desviaciones estándar.
PÁGINA 72
Tenemos que determinar el tamaño de muestra más adecuado que cumpla con los
criterios anteriores.
Partimos de la fórmula del error permitido, despejamos n:

Como no tenemos datos previos de p y q, los estimamos. Los valores de p y q que nos
da el tamaño máximo de la muestra, de manera tal que se cumplan los criterios de
error y confianza, son:

Sustituimos en la fórmula de n:

Para tener una seguridad del 99 % de que estimamos la proporción verdadera dentro
de un margen de error del 10 %, debemos escoger una muestra aleatoria simple de
167 potenciales clientes.
Ya vamos terminando la lectura, pero antes de hacer la actividad de repaso y
refuerzo, te invito a leer este comentario que hacen los siguientes autores, en la que
relacionan el tamaño de la muestra con la desviación estándar. Es muy práctico
e interesante.

Desde una perspectiva de sentido común, si la desviación estándar de una población


es muy pequeña, los valores se agrupan muy cerca de la media y casi cualquier
tamaño de muestra los captará y producirá información precisa. Por otro lado, si la
desviación estándar de la población es muy grande y los valores están bastante
dispersos, será necesaria una muestra muy grande para incluirlos y obtener
información correcta. ¿Cómo puede tenerse una idea de la desviación estándar de la
población antes de iniciar el muestreo? Las compañías que planean realizar estudios
de mercado casi siempre hacen una investigación preliminar de la población para
estimar la desviación estándar. Si el producto se parece a otro que ha estado en el
mercado, a menudo es posible apoyarse en los datos anteriores acerca de la
población sin más estimaciones. (Levin y Rubín, 2004, p. 307)

ACTIVIDAD DE REPASO
Para estimar la proporción poblacional con un margen de error determinado
y una certeza dada, el error permitido se hace cada vez más grande a
medida que aumentamos el tamaño de la muestra.

 Falso, porque al permitir un error más grande la muestra se hace cada vez más
pequeña.

Justificación: la respuesta correcta es: “falso”. El tamaño de la muestra es inversamente


proporcional al error permitido. El error permitido se hace cada vez más grande si
disminuimos el tamaño de la muestra y viceversa.

REVISIÓN DEL MÓDULO

Hasta acá aprendimos

☰ Revisión de distribución de muestreo. Teorema del límite central


PÁGINA 73
Aquí se repasa la distribución de muestreo para la media y para la proporción estudiadas en Estadística
I. Se hace un resumen de las fórmulas que intervienen en el Teorema del límite central (TLC),
fundamento de la estadística inferencial. Se vuelve a explicar el TLC y los conceptos que se derivan de
él para utilizarse en las estimaciones de la media y de la proporción en las próximas lecturas.

☰ Estimación y estimadores

Se definen estimación y estimadores. Se diferencia entre parámetros y estadísticos o estadígrafos. Se


estudian las características de un buen estimador ilustradas con ejemplos. Se definen los tipos de
estimación y se desarrolla la estimación puntual, con ejemplos.

☰ Estimación mediante intervalos de confianza

En esta lectura continuamos con el tema estimación, pero ahora el tipo de estimación será por
intervalos para la media y para la proporción de una población. Se repasará el tema de error estándar
para poblaciones finitas e infinitas, en el caso que se conozca la desviación estándar poblacional.

☰ Distribución t de Student. Determinación del tamaño de la muestra

Aquí estudiamos qué sucede cuando queremos estimar mediante un intervalo de confianza la media
poblacional y no tenemos la desviación estándar (o la varianza) poblacional, pues solo contamos con
los datos que nos proporciona la muestra. Se introduce el estadístico t y su distribución y la
comparamos con z. Utilización de la tabla t de Student. Además, repasamos el tema de la elección del
tamaño de la muestra (tema vistos en Estadística I).

ESQUEMA GENERAL DE LA PRUEBA DE HIPÓTESIS

INTRODUCCIÓN

En el módulo 1 estudiamos la estimación, tanto puntual como de intervalos de


confianza. También hablamos sobre la precisión de los estimadores. Estos estudios
conforman una de las dos áreas principales de la inferencia estadística. En este
módulo presentaremos una forma diferente de hacer inferencias acerca de
parámetros poblacionales a partir de las evidencias de la muestra: la prueba de
hipótesis. Se trata de investigar haciendo conjeturas, estableciendo
afirmaciones sin ambigüedades, formulando hipótesis respecto de los
parámetros poblacionales que puedan ser contrastadas. En esta lectura
desarrollaremos los fundamentos del test de hipótesis. Es importante que sepas
que toda decisión tiene que estar fundamentada en una metodología que le
dé credibilidad. ¡Adelante, entonces! Es un tema apasionante.

1. CASO: CAJEROS BANCOS CIUDAD DE SANTA FE

Un banco que opera en la Ciudad de Santa Fe está estudiando la cantidad de dinero


en efectivo que tienen en promedio los cajeros automáticos de esa Ciudad durante los
fines de semana.

El objetivo es satisfacer necesidades de sus clientes, pero sin que quede mucho
dinero inactivo, pues el banco se privaría de la oportunidad de invertir.

El tesorero de la Casa Central sabe por experiencia que, en promedio, los clientes
retiran como máximo U$S 120 por fin de semana, pero está dispuesto a someter su
juicio a una prueba de hipótesis.

PÁGINA 74
Para ello, se selecciona una muestra aleatoria de 20 transacciones durante un fin de
semana determinado en toda la ciudad. La selección de la muestra se realiza con un
método que asegure su aleatoriedad. Los datos muestrales arrojan un promedio de
extracciones de U$S 115, con una desviación estándar de U$S 12. ¿Existe evidencia
suficiente para afirmar la idea que tiene el tesorero del Banco?
Se te solicita lo siguiente:

 Planteo de la hipótesis nula.


 Planteo de la hipótesis alternativa.
 Distribución de muestreo a utilizar y por qué.
 ¿Qué tipo de prueba es?
 ¿Cuál es el valor del estadístico de prueba o el valor crítico del estadístico, si el
nivel de significancia es del 5 %?

2. PRUEBA DE HIPÓTESIS. FUNDAMENTOS

CONCEPTO Y ESTRATEGIA GENERAL DE LAS PRUEBAS DE HIPÓTESIS

La inferencia estadística involucra dos áreas principales: estimación y prueba de


hipótesis.
Tanto en la estimación como en la prueba de hipótesis nos basamos en la información
que nos brinda la muestra para poder acercarnos a algún parámetro poblacional que
sea de nuestro interés.
En la toma de decisiones, frente a un problema concreto, conjeturamos y formulamos
hipótesis, que tendremos que contrastar para obtener una conclusión razonada. Nos
preguntamos, entonces, ¿cómo se puede validar una afirmación sobre la población
que se realiza a través de una evidencia muestral?

En algunas ocasiones, el estadístico debe proveer soporte para responder un


interrogante sobre si es cierta o no determinada idea previa que tenemos sobre el
valor de algún parámetro, por ejemplo, la media poblacional o la proporción
poblacional.

Una hipótesis estadística es un supuesto que se establece


sobre las características de una distribución poblacional.

Nos referimos a una hipótesis que pueda ser contrastada y que, además, permita
medir la probabilidad del error que se cometería cuando se hace una afirmación sobre
la población en estudio. Es decir, una hipótesis que nos permita medir la fuerza de la
evidencia, ya sea a favor o en contra de alguna hipótesis de interés sobre la
población.

Para poder dar una respuesta a estos interrogantes, nos basamos en la lógica que
tienen las pruebas de hipótesis:

 Si conocemos la distribución muestral de un estadístico que relacione el


parámetro sobre el cual nos interesa comprobar una afirmación con un
estimador del mismo, podemos decidir que la afirmación es aceptable si en la
muestra obtenemos un resultado razonablemente cercano al previsto en la

PÁGINA 75
afirmación. El estadístico utilizado para esto se denomina estadístico de
prueba.

 Si, por el contrario, la evidencia de la muestra arroja un valor muy alejado,


desconfiaremos de la validez de la idea supuesta sobre el valor del parámetro.

Como puede verse, este tipo de razonamiento es de lo más habitual en la forma de


proceder y tomar decisiones a diario: someter nuestras ideas a alguna evidencia –
siempre parcial, limitada, accesible; como una muestra– y considerar válida la idea en
caso de que la información recogida parezca consistente con ella, o descartarla en
caso contrario.

Con esta estrategia práctica estamos dispuestos a asumir cierto riesgo a


equivocarnos, justamente por basar nuestra decisión en información parcial. La
realidad podría ser diferente a la situación descrita por los datos que reunimos en
nuestra muestra, y, en definitiva, estar tomando una decisión equivocada acerca del
valor del parámetro poblacional. De estos aspectos trata el módulo que comenzamos
a recorrer.

ALGUNAS ANALOGÍAS ÚTILES PARA COMPRENDER ESTA METODOLOGÍA


Antes de iniciar el abordaje estadístico de las pruebas de hipótesis, se presentan
algunas comparaciones útiles que suelen presentarse en la literatura:

1) Se desea informar sobre la presencia de alguien o algo en una habitación cerrada.


Solo podemos observar por la rendija de la puerta; esta zona sería equivalente a
nuestra muestra. Si alguien o algo es visible en ese sector, podemos tomar una
decisión correcta. Si no aparece nada en la “muestra”, podría ser que:

 efectivamente no hay nadie en la habitación,

 hay alguien o algo, pero se encuentra en una zona de la habitación no accesible


desde nuestro punto de observación. Este es uno de los errores de las pruebas
estadísticas que estudiaremos.

FIGURA 1. MUESTRA: OBSERVACIÓN POR LA CERRADURA DE UNA HABITACIÓN


CERRADA.

Figura 1: se muestra el error posible: considerar que no hay nada o nadie por no
observarlo en la muestra.

PÁGINA 76
2) Otro ejemplo interesante es un juicio, donde se está analizando la culpabilidad o
inocencia de un acusado de un crimen. En este proceso se intenta reunir pruebas para
determinar la culpabilidad o inocencia del acusado. La decisión que se tome en base a
la evidencia (muestral, de las pruebas) puede ser correcta, si se lo declara inocente y
efectivamente no cometió el crimen. También es correcta si el acusado es culpable y
el veredicto así lo determina.

FIGURA 2. CASO DE UN JUICIO DONDE SE ESTÁ ANALIZANDO LA CULPABILIDAD


O INOCENCIA DEL ACUSADO.

Figura 2: en este caso, la muestra podría ser la evidencia reunida por la fiscalía (o
por los querellantes, de acuerdo con las reglas del proceso legal) o las coartadas del
acusado.

Puntualicemos los errores posibles para este ejemplo:

 declarar culpable a un inocente;


 declarar inocente a un culpable.

Estas dos situaciones reflejan errores que nos harían pensar en “injusticias” en una
situación de juicio.

Los sistemas de justicia están diseñados de acuerdo a cuál de estos errores se desee
minimizar, por ejemplo, “nadie es culpable hasta que se pruebe lo contrario”, o
cuando un acusado debe “demostrar su inocencia”.

3) La siguiente situación es una de las que más nos interpela cotidianamente como
estudiantes, en tu caso, y como docente, en el mío: establecer a través de un examen
o evaluación si los alumnos comprendieron o aprendieron una serie de temas.
Permanentemente en el sistema educativo estamos emitiendo este tipo de juicios,
basados en la evidencia de muestras. Las evaluaciones mismas son muestras donde
se han seleccionado temas del conjunto total de tópicos incluidos en el temario a
evaluar así como ejercicios o competencias que resultan de interés. Si mediante una
evaluación se aprueba a un alumno que efectivamente conoce o comprende los
temas, estamos tomando una decisión correcta, al igual que si se reprueba a quien no
sabe los contenidos. Los problemas aparecen si un alumno que sabe los contenidos es
reprobado en la evaluación, o bien, si se aprueba a quien realmente no los conoce. Es

PÁGINA 77
por esto que también los docentes suelen definir sus estrategias evaluativas, a los
fines de minimizar el error que consideran más grave o dañino de los dos.

HIPÓTESIS NULA Y ALTERNATIVA


La primera tarea consiste en definir de manera correcta cuál va a ser la hipótesis que
queremos someter a contraste o prueba.

Para seguir el razonamiento que se hace en una prueba de hipótesis, utilizaremos el


caso del juicio expuesto en el tema anterior, caso 2.

Los actores de un juicio pueden resumirse en un acusado, un fiscal y un juez, que es


quien debe tomar la decisión de declarar o no culpable al acusado.

El acusado será considerado inocente hasta tanto las pruebas presentadas por el
fiscal demuestren lo contrario.

Haciendo una analogía con la prueba de hipótesis, la hipótesis nula asume el papel
del acusado en el juicio y el investigador el papel de fiscal.

La hipótesis nula es un supuesto acerca de uno o más parámetros de la


población que debe ser rechazado o no en base a la evidencia muestral. La
hipótesis nula es la idea previa sobre el valor del parámetro que se va a
probar.

Simbolizaremos la hipótesis nula como H0. Se denomina nula en el sentido que supone
que no existe diferencia real entre el verdadero valor del parámetro de la población
de la que hemos obtenido la muestra y el valor hipotetizado (supuesto de inocencia).

Ahora bien, si la evidencia presentada al juez no es contundente, este decidirá por la


inocencia del acusado (no rechazo de la hipótesis nula). En caso contrario, cuando la
evidencia condene al acusado, el juez tiene a mano una alternativa, la acusación de
culpabilidad (lo que equivale al rechazo de la hipótesis nula planteada).

Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. Esta
hipótesis recibe el nombre de hipótesis alternativa.

La hipótesis alternativa (establecida siempre como lo opuesto a lo que afirma la


hipótesis nula) indica que la conclusión es verdadera si se logra rechazar la hipótesis
nula.

La hipótesis alternativa será simbolizada con H₁ o Hₐ.

En todos los problemas aparecen dos hipótesis contrapuestas: la hipótesis nula y la


hipótesis alternativa. Cada una de ellas representa un estado de la naturaleza que
involucra valores del parámetro poblacional.

PÁGINA 78
 En la hipótesis nula siempre aparece un igual (ya sea un igual estricto, un mayor o
igual o un menor o igual) referido a cierto valor del parámetro.

 La hipótesis alternativa de cada caso siempre es una negación de la hipótesis nula,


y resulta cierta siempre que sea falsa la hipótesis nula. La hipótesis alternativa
nunca incluye el signo igual.

Daremos tres ejemplos en los que esté involucrada la media.

EJEMPLO 1:
El jefe de producción de una empaquetadora de arroz ha recibido devoluciones de
algunos clientes. Las bolsas deben pesar en promedio 995 gr. y está seguro de que es
así. Para poner a prueba su suposición, selecciona una muestra aleatoria de 25 bolsas
y pesa a cada una. Si la información que provee la muestra brinda evidencias de que
el proceso no está funcionando como corresponde, se tomarán las acciones
correctivas necesarias para que el mismo se encuentre bajo control estadístico.
Determina la hipótesis nula y la alternativa.
H0: µ = 995
H₁: µ ≠ 995

Observa:
Las hipótesis se plantean siempre sobre la población
Ambas hipótesis son complementarias

EJEMPLO 2:
El jefe de producción está preocupado por el exceso de peso en las cajas de cereales.
Para poner a prueba su suposición, selecciona una muestra aleatoria de 25 bolsas y
pesa cada una. Si no fuesen de 995 gr., como se declara en el envase, estarían
perdiendo dinero y el proceso no funcionaría bajo estos términos. Determina la
hipótesis nula y la alternativa.

Como dijimos que la hipótesis nula asume el rol del acusado y que este es inocente
(pesan 995 gr. o menos) hasta que se demuestre su culpabilidad (pesan más de 995
gr.), la hipótesis nula y la alternativa, deberán expresar:

H0: µ ≤ 995
H₁: µ > 995

Siguiendo con la analogía, el jefe de producción es el fiscal, pues cuando realiza su


experimento está buscando pruebas respecto a la falsedad de la hipótesis nula
especificada. En otras palabras, está tratando de demostrar que el acusado es
realmente culpable. Si no tiene evidencias para rechazar la hipótesis nula, no logra
demostrarlo, pero si tiene evidencias para rechazarla, tiene de qué preocuparse.

La muestra de paquetes que se pesó será la evidencia que el jefe de producción


llevará ante el tribunal encargado de dictar sentencia.
EJEMPLO 3:

PÁGINA 79
Ahora el jefe de producción está sospechando que, evidentemente, el promedio de los
paquetes de arroz es menor al que asegura. Quiere poner a prueba si realmente el
promedio de pesajes de las bolsas coincide con lo que tiene que ser (995 gr.) y no
pesan menos que ese promedio. Selecciona una muestra aleatoria de 25 bolsas y
pesa a cada una de ellas. Si la información que provee la muestra brinda evidencias
de que el proceso no está funcionando como corresponde y el peso de las bolsas es
menor a lo consignado en las bolsas, se tomarán las acciones correctivas necesarias
para que el mismo se encuentre bajo control estadístico. Determina la hipótesis nula y
la alternativa.

H0 es la que tiene que ponerse a prueba, si se rechaza es porque los reclamos vienen
se producen porque las bolsas efectivamente pesan menos de 995 gr.
H0: µ ≥ 995
H₁: µ < 995

En conclusión:
En las pruebas de hipótesis, a través de la evidencia muestral, se decidirá rechazar la
hipótesis nula si lo permiten los datos analizados, o bien no rechazarla.

Observa atentamente que no decimos “aceptarla”, ya que no tenemos información


suficientemente contundente por el hecho de ser muestral y estar por tanto sometida
a los riesgos vinculados con este tipo de información.

La metodología de prueba de hipótesis está diseñada de


modo que nuestro rechazo de la hipótesis nula esté basado
en evidencias, aportadas por la muestra, de que es más
probable que nuestra hipótesis alternativa sea verdadera.
Sin embargo, el hecho de no rechazar la hipótesis nula no es
una prueba de que esta sea verdadera. (Berenson, Levine y
Krehbiel, 1996, p. 385).

Hasta aquí hemos resuelto el primer paso a seguir en el planteamiento de hipótesis, o


sea, el establecimiento de la hipótesis nula y de la hipótesis alternativa.

RESOLUCIÓN DEL CASO SITUACIÓN PROBLEMÁTICA APARTADOS A) Y B)


Con lo visto hasta aquí, podrás plantear ya la hipótesis nula y la alternativa del caso
de los cajeros de un Banco de la Ciudad de Santa Fe. Relee el problema. 12

 H₀: μ≥120 pues es la hipótesis que se quiere poner a prueba, no la


investigación.

 H₁: μ<120 esta hipótesis es la que se va a investigar luego decidir si es


aceptada o no.

Supón que eres gerente de un restaurante de comida rápida. Quieres


determinar si el tiempo de espera al pedir una orden se ha modificado
durante el último mes con respecto a su valor histórico promedio de 4,5
minutos. Indica cuál de las siguientes opciones corresponde a las hipótesis
nula y alternativa.
PÁGINA 80
H0: μ=4,5 y H1: μ≠4,5

Justificación: La hipótesis nula dice que la media poblacional no ha cambiado con


respecto a su valor histórico de 4,5 minutos. Esto se establece como: H0: μ=4,5. La
hipótesis alternativa es opuesta a la hipótesis nula. Puesto que la hipótesis nula dice
que la media poblacional es 4,5 minutos, la hipótesis alternativa dice que la media
poblacional no es 4,5 minutos. Esto se expresa como: H1: μ≠4,5

VALOR CRÍTICO DEL ESTADÍSTICO DE LA PRUEBA – NIVEL DE SIGNIFICACIÓN 𝛼


Cuando describimos en términos generales el procedimiento lógico implicado en las
pruebas de hipótesis, indicamos que rechazaríamos la hipótesis nula si de la evidencia
muestral resultara un valor muy alejado del hipotetizado, así como no la
rechazaríamos en caso de obtener de la muestra un valor relativamente cercano al
establecido en la H0.
En los ejemplos 1, 2 y 3, evidentemente, debería establecerse un criterio que
especificara, de manera objetiva, a partir de qué valor de la media muestral se
tomará la decisión de rechazar o no la hipótesis nula.
Por lo tanto, tenemos otro concepto: el de criterio de decisión o regla de
decisión.
Este criterio está basado en el cálculo del valor crítico del estadístico de prueba, que
se calcula en base a la información aportada por la muestra.
Por lo tanto, primero se calcula el valor crítico y luego se formula la regla de decisión.
El valor crítico definirá un punto de corte para tomar la decisión estadística.
Entonces, para definir la regla de decisión establecemos qué valores se tomarán
como cercanos al establecido en la hipótesis nula y cuáles demasiado alejados del
establecido en la H0 por estar más allá del valor crítico.
La determinación del valor crítico está unido a la distribución de muestreo del
estimador y al nivel de significación de la prueba, que estudiaremos en el momento
en el que tengamos que resolver los problemas. Ahora estamos haciendo un
acercamiento a los test de hipótesis, tratando de comprender cómo funcionan y qué
metodología utilizan.

DETERMINACIÓN DE LAS ZONAS DE RECHAZO Y NO RECHAZO


El o los valores críticos van a determinar las zonas de rechazo y no rechazo de la
hipótesis nula en la distribución muestral del estadístico de prueba.

Si el estadístico de prueba queda en la región de no rechazo de la hipótesis nula, se


concluye diciendo que no existe evidencia suficiente para rechazarla. Si el estadístico
de prueba queda en la región de rechazo de la hipótesis nula, se concluye que hay
evidencia para rechazar la hipótesis nula.

FIGURA 3: VALORES CRÍTICOS Y DETERMINACIÓN DE LAS ZONAS DE RECHAZO Y


NO RECHAZO EN UNA PRUEBA BILATERAL

PÁGINA 81
En la figura anterior se muestra cómo se relacionan las zonas de rechazo en una
prueba bilateral (donde aparece un signo de igualdad estricta en la hipótesis nula y
una desigualdad en la hipótesis alternativa) con los valores críticos.

Si en una prueba de hipótesis, el estadístico de prueba cae dentro de la


zona de no rechazo de H0, significa que:

No tenemos evidencia estadística para rechazarla;


Justificación: De lo único que podemos estar seguros es que no hay evidencia para
rechazarla. Cuando los datos de la muestra nos dan evidencia que no rechacemos una
hipótesis nula, significa que no podemos aceptarla porque puede aceptarse con
seguridad si conocemos el parámetro de la población, lo que no es posible porque no
conocemos el parámetro, solo estamos hipotetizando.

RESOLUCIÓN DEL CASO CAJEROS BANCO DE LA CIUDAD DE SANTA FE


 Se utilizará la distribución t, pues la media es pequeña y se desconoce la
desviación estándar poblacional.

 Es una prueba unilateral a izquierda.

 Si 𝛼= 0,05 y la prueba es unilateral, tendremos que buscar en la tabla t, el valor


del t crítico que separa la zona de rechazo de la H0 de la zona de no rechazo de
la H0.

Luego, el valor crítico de t, que deja a la derecha una probabilidad de 0,05 es 1,729
con 19 grados de libertad.

En las próximas lecturas estudiaremos cómo establecer una conclusión sobre estas
pruebas, por el momento estamos conociendo algunos elementos de vital importancia
para poder poner a prueba las hipótesis planteadas.

RIESGOS QUE SE COMETEN AL UTILIZAR LA METODOLOGÍA DE PRUEBA


DE HIPÓTESIS

INTRODUCCIÓN

Hasta aquí solo tuvimos un acercamiento a la metodología de la prueba de hipótesis.


La prueba de hipótesis estadística no es otra cosa que un procedimiento para tomar
una decisión bajo incertidumbre sobre la validez de la hipótesis nula usando la
PÁGINA 82
evidencia de los datos de una muestra. Significa que estamos dimensionando si la
diferencia obtenida entre el valor hipotético poblacional y el valor real del estadístico
muestral es significativa o no. Desafortunadamente, esta diferencia no es tan
evidente la mayor cantidad de las veces como para que automáticamente
rechacemos o no la hipótesis nula. Como en la mayoría de las decisiones importantes
de la vida real, las soluciones claras no son la regla sino la excepción. En esta lectura
estudiaremos los riesgos en la toma de decisiones bajo la metodología de prueba de
hipótesis.

1. CASO: CAMPAÑA ELECTORAL

En el interior de la provincia de San Juan está realizándose una campaña electoral


debido a que muy pronto se elegirá el intendente de una ciudad. Ellos suponen que el
intendente actual, por su gestión y por el mapa electoral de la Ciudad, ganará las
elecciones si obtiene más del 45 % de los votos. Se le encarga a una consultora que
realice una encuesta sobre la intención de voto de los ciudadanos. La consultora toma
una muestra aleatoria de los empadronados en esa ciudad y se dispone a realizar la
encuesta.

a) Plantea la hipótesis nula y la hipótesis alternativa.


b) Explica con tus palabras, en relación al ejemplo, cuándo se cometería un error
Tipo I y un error tipo II.
c) ¿Qué tipo de prueba es?

2. ERRORES TIPO I Y II

ALGUNOS EJEMPLOS PARA ANALIZAR


Puesto que trabajamos bajo incertidumbre, es claro que con cualquier decisión que
tomemos siempre existen probabilidades de cometer errores.

Como presentamos en las analogías de las pruebas de hipótesis en la lectura 1, la


decisión estadística tiene asociados riesgos o errores derivados de tomar una decisión
incorrecta.

 Analicemos la analogía del juicio a un individuo. Hay dos situaciones que


reflejarían errores: si el acusado es culpable y se lo declara inocente, como
también si el acusado es inocente y se lo declara culpable. Es decir, en un
principio es un presunto inocente hasta que se demuestre o no lo contrario.

La hipótesis que se pone a prueba es la hipótesis nula, entonces:


H₀: es inocente
La hipótesis alternativa es la investigación en sí para adquirir pruebas que contrasten
la hipótesis nula, entonces:
H₁: es culpable.
Ten siempre presente que la hipótesis nula es un supuesto para ser rebatido,
mientras que la alternativa es una hipótesis de investigación.

Los dos errores que pueden cometerse son:

PÁGINA 83
 que se decida rechazar la H₀, declararlo culpable, cuando en realidad H₀, es
verdadera. Es decir, se declararía culpable a un inocente. A este error se lo
denomina tipo I.

 Que se decida no rechazar la H₀, cuando esta es falsa. Es decir no rechazar su


inocencia (declararlo inocente), cuando en realidad es culpable. A este error se
lo denomina tipo II.

 Otro ejemplo no menor es el caso de un investigador médico que desea


comparar la efectividad de dos medicamentos.

Hipótesis nula: los dos medicamentos tienen la misma eficacia.

Hipótesis alternativa: los dos medicamentos no tienen la misma eficacia.

ERROR TIPO I:
Un tipo de error, Tipo I, se produce si el investigador rechaza la hipótesis nula, cuando
en realidad es verdadera. Es decir, concluye que los dos medicamentos no tienen la
misma eficacia cuando en realidad la eficacia de ambos es la misma.

ERROR TIPO II:


El otro error, Tipo II, se produce si el investigador no rechaza la hipótesis nula cuando
en realidad es falsa. Es decir, concluye que los medicamentos tienen la misma
eficacia cuando en realidad son diferentes.

¿Cuál de los dos errores te parece más grave?

En realidad, los dos son graves, pero si tenemos que analizarlo en general pareciera
que, en este caso, el error tipo I es menos grave ya que, si los medicamentos tienen
la misma eficacia, podría considerarse que el error no es muy grave, porque de todos
modos los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen.

En cambio, en el error Tipo II, se puede poner en riesgo la vida de los pacientes si se
pone en venta el medicamento menos efectivo en lugar del medicamento más
efectivo.

Igualmente, cada caso debe ser analizado y el investigador debe controlar, de alguna
manera estos errores, como estudiaremos más adelante.

FIGURA 1: CASO DEL INVESTIGADOR MÉDICO

PÁGINA 84
Se presentan las cuatro opciones posibles que pueden darse al tomar una decisión a
partir de un test de hipótesis, teniendo las evidencias muestrales. Observa que, a
pesar de contar con evidencias, pueden cometerse errores.

TABLA 1: COMPARACIÓN DE LA EFECTIVIDAD DE DOS MEDICAMENTOS

Realidad de la población

Comparación de la
H₀ es Verdadera H₀ es Falsa
efectividad de dos
Tienen la misma no tienen la
medicamentos
eficacia misma eficacia

No
rechazo H₀
ERROR
Tienen la OK
(Tipo II)
Decisión misma
del eficacia
médico
basada en Rechazo
la H₀
ERROR
muestra no tienen la OK
(tipo I)
misma
eficacia

Observa que no rechazar la Ho cuando es verdadera es una decisión correcta, lo


mismo que rechazar la Ho cuando es falsa.
PÁGINA 85
FIGURA 2: RIESGOS QUE PUEDEN ENCONTRARSE EN LAS DECISIONES DE UNA
PRUEBA DE HIPÓTESIS

DESCRIPCIÓN DE LA FIGURA 2: se muestran las cuatro opciones descritas en la figura


1 y se indican las probabilidades asociadas a cada una de ellas. Es importante que te
fijes en las probabilidades de cometer errores.

PROBABILIDADES ASOCIADAS A CADA DECISIÓN


Veremos a continuación que las cuatro opciones tienen una probabilidad asociada.
Explicaremos los conceptos de cada una y las relaciones que hay entre ellas.
A fin de clarificar el tema, presentamos el siguiente cuadro

TABLA 2: RECHAZAS Y NO RECHAZAR H₀

PÁGINA 86
Conclusiones:

 Ninguna prueba de hipótesis es 100 % cierta; puesto que la prueba se basa en


probabilidades, siempre existe la posibilidad de llegar a una conclusión
incorrecta.

 Si realizas una prueba de hipótesis, puedes cometer dos tipos de error: tipo I y
tipo II.

 Los riesgos de estos dos errores están inversamente relacionados: es decir que
cuando uno crece el otro disminuye.

 Ambos errores se determinan según el nivel de significancia (𝛼) y la potencia de


la prueba (𝛽)

 Por lo tanto, antes de realizar la prueba, debes determinar qué error tiene
consecuencias más graves para la situación que se esté investigando.

PARA RESUMIR LOS PRINCIPALES CONCEPTOS


 Se comete el error tipo I, cuando la hipótesis nula es cierta, pero se la rechaza
(esto ocurre cuando la evidencia de la muestra indica que es inverosímil nuestra
hipótesis, lo cual nos lleva a tomar esa decisión incorrecta).
 El error tipo II está implicado en el no rechazo de la hipótesis nula cuando esta es
falsa. Si bien debería ser rechazada, también a instancias de un valor muestral no
tan alejado, se toma una decisión incorrecta.
 El coeficiente de confianza (1-α) indica la probabilidad de no rechazar la Ho cuando
esta es verdadera.
 El nivel de significación (α) es la probabilidad de cometer el error tipo I, es decir, de
rechazar la Ho cuando esta es verdadera.
 El riesgo (β) es la probabilidad de cometer un error tipo II o, lo que es lo mismo, de
no rechazar la hipótesis nula cuando esta es falsa.
PÁGINA 87
 La potencia de la prueba (1-β) es la probabilidad de rechazar la Ho cuando esta es
falsa.

Luego:
Las probabilidades α y β están relacionadas, de manera que si una de ellas disminuye,
la otra aumenta. Por ello, la manera de disminuir ambos riesgos es aumentar el
tamaño de la muestra.

“Es crucial que se comprenda la importancia de estos dos


errores y lo que cada uno representa, ya que ambos
desempeñan un papel en la determinación del tamaño
óptimo de un experimento, una consideración crítica del
diseño” (Petrie and Watson, 2013).

APLICACIÓN AL CASO DE LA CAMPAÑA ELECTORAL


Planteamos en primer lugar las hipótesis nula y alternativa. Recuerda que la H₀ es la
hipótesis que se pone a prueba sobre el parámetro de una población y la H₁ es la que
se pone bajo investigación.

H₀: π ≤ 0,45
H₁: π > 0,45

Donde π es la proporción poblacional, es decir, el parámetro del cual hemos hecho un


juicio provisorio.

A modo de repaso, y para que vaya quedando más firme la metodología de la prueba
de hipótesis, expliquemos los pasos que se realizan después:

Como estudiamos en la lectura 1, a este paso le sigue un criterio de decisión sobre los
resultados obtenidos en la muestra. ¿A partir de qué valor de p muestral se tomará la
decisión de rechazar o no la hipótesis nula? Para esto tendremos que adoptar algún
test o prueba, que veremos en la próxima lectura, pero que va a depender de la
distribución de muestreo que se considere.

En este caso, la distribución de muestreo apropiada es la de la proporción que, como


dijimos, no es nuestro objetivo calcularla ahora, solo estamos haciendo un repaso de
la metodología de la prueba de hipótesis.

En nuestro ejemplo el estadístico muestral será p: personas que indicaron que


votarían al intendente actual en la próxima elección.

Este estadístico nos proporcionará el valor crítico que estamos buscando.


Después de establecer este valor crítico, se determinarán las zonas de rechazo y no
rechazo de la H₀.

Después se definen las reglas de decisión para determinar en cuál de las dos regiones
se posiciona el valor muestral.

Luego de analizar gráficamente la situación, responderemos la segunda parte del


caso de la votación, explicando qué tipos de errores pueden cometerse y qué significa
cada uno.
PÁGINA 88
INTERPRETACIÓN GRÁFICA DE ESTOS ERRORES

FIGURA 3: INTERPRETACIÓN GRÁFICA DE LOS ERRORES I Y II

DESCRIPCIÓN DE LA FIGURA 3: se muestran las distintas probabilidades de


cometer errores I y II, teniendo en cuenta la distribución de probabilidades de cada
una de las hipótesis.

 Las dos curvas son de la distribución de muestreo para la proporción.


 La distribución de la parte superior representa la distribución de muestreo del

estadístico proporción cuando la hipótesis nula es verdadera, es decir, la


muestra proviene de una población con media π₀.
 La curva de la parte inferior representa la distribución del estadístico , cuando se
cumple una hipótesis alternativa H₁, por ejemplo, π₁ > π₀.
 Las regiones de rechazo y no rechazo de H₀ siempre se definen con referencia a la
distribución que supone que H₀ es verdadera.

H₀ es verdadera, se llama nivel de significancia y se designa con 𝛼.


 La probabilidad de que un estadístico caiga en la región de rechazo de H₀ cuando

 𝛼 es la probabilidad de cometer el error tipo I.


 La probabilidad de error tipo II, es decir, la probabilidad de no rechazar H₀ cuando
es falsa, está localizada bajo la curva donde se cumple H₁, pero a la izquierda del

Para este caso, observamos que la probabilidad del error tipo I, 𝛼, es menor que la
valor crítico, es decir, en la frontera de la zona de aceptación de H₀.

probabilidad de cometer un error tipo II, que es 𝛽.


 Entonces, cuando tratamos de reducir la probabilidad de cometer el error tipo I,


aumenta la probabilidad de cometer el error tipo II.

PÁGINA 89
 La única manera que tiene el investigador de disminuir ambos tipos de errores a la
vez consiste en aumentar el tamaño de la muestra.
 Como se puede ver en el esquema, a cada decisión que se tome se encuentra
asociada la posibilidad de cometer un error.
 Un procedimiento de este tipo sería óptimo cuando la probabilidad de cometer un
error sea pequeña, cualquiera sea la decisión que se adopte.
 Lamentablemente, en la mayoría de los tests de hipótesis solo es posible controlar
una de ellas con la circunstancia agravante de que estos errores son competitivos,
es decir, cuando se disminuye mucho la probabilidad de uno aumenta la
probabilidad del otro.

3. EL EQUILIBRIO ENTRE EL NIVEL DE SIGNIFICANCIA ( 𝛼) Y LA POTENCIA DE


LA PRUEBA (𝛽)

Estas dos probabilidades requieren un delicado equilibrio. Así lo expresan los autores
del texto básico:

Una forma de reducir la probabilidad de cometer un error tipo II consiste en aumentar


el tamaño de la muestra. Por lo general, las muestras grandes permiten detectar
incluso diferencias pequeñas entre valores hipotéticos y parámetros poblacionales.
Para un nivel de α dado, aumentar el tamaño de la muestra reducirá β y así se
incrementará el poder de la prueba para detectar que la hipótesis nula Ho es falsa.
Sin embargo, siempre existe un límite para sus recursos, y esto afectará la decisión
de qué tan grande debe ser la muestra tomada. De esta forma, para un tamaño dado
de la muestra, usted debe considerar las comparaciones entre los dos tipos de errores
posibles. Como el riesgo del error tipo I se controla directamente, este se reducirá
seleccionando un valor más pequeño para α. Por ejemplo, si son considerables las
consecuencias negativas asociadas con un error tipo I, puede seleccionar α = 0.01 en
lugar de 0.05. Sin embargo, cuando α se reduce, β aumenta, por lo que reducir el
riesgo de un error tipo I tiene como resultado un aumento en el riesgo del error tipo II.
Por otra parte, si desea reducir β, puede seleccionar un valor mayor para α. Por lo
tanto, si es importante tratar de evitar un error tipo II, habrá que seleccionar una α de
0.5 o 0.10 en lugar de 0.01. (Levine, Krehbiel, Berenson, 2006, p. 276)

ACTIVIDADES DE REPASO DE LECTURAS


¿Qué tipo de errores se pueden cometer en una prueba de hipótesis?

 No rechazar una hipótesis nula que es falsa.


 Rechazar una hipótesis nula que es verdadera.
Justificación: Las respuestas correctas son: “No rechazar una hipótesis nula que
es falsa” y “Rechazar una hipótesis nula que es verdadera”, corresponden a los
errores tipo I y tipo II. Si rechazamos una hipótesis nula que es verdadera
cometemos un error tipo I. Si no rechazamos una hipótesis nula que es falsa,
estamos incurriendo en un error tipo II. ✓

POTENCIA DE UNA PRUEBA


Recuerda que:

PÁGINA 90
La potencia de la prueba es la sensibilidad que esta tiene
para detectar situaciones en las cuales corresponde
rechazar la hipótesis nula por ser esta falsa. Es la
probabilidad de no cometer un error tipo II.

Error tipo II: no rechazo de la hipótesis nula cuando esta es falsa.


Intuitivamente, se puede comprender que es más alta esta probabilidad (potencia de
la prueba) a medida que más alejada está la hipótesis nula de la realidad: mientras
más distanciado sea el valor que se postula en la hipótesis nula referido al parámetro
del que realmente tiene, es más probable que la evidencia muestral nos señale el
error. Por el contrario, cuando el valor que se postula en la hipótesis nula está
próximo (aunque no exacto) al verdadero, la evidencia muestral nos confundirá, ya
que en muchos casos caerá el estadístico muestral en la zona de no rechazo.

CÁLCULO DE LA POTENCIA DE LA PRUEBA


Es importante saber calcular la potencia de la prueba en una investigación.
El ejemplo que pondremos está relacionado con los gráficos que están más abajo.
Plantearemos el siguiente ejemplo:

● Ho: μ=10
● H₁: μ≠10
● La prueba es bilateral.
● Trabajaremos con un nivel de significancia de 0,05, con una muestra n=100.
● Utilizaremos una distribución normal, con estadístico z.
● Con estos datos el valor del z crítico es ± 1,96
● Otro dato que se tiene es la desviación estándar poblacional: 5,765

Nuestro objetivo en este apartado es determinar primero el valor de 𝛽 y luego


fácilmente obtendremos el valor de la potencia de la prueba: 1- 𝛽

● Como 𝛽 es una probabilidad y gráficamente se visualiza en una de las colas de la

z obtenido gracias al nivel de significación 𝛼, seleccionado por el investigador. Vamos


curva de la hipótesis alternativa cierta (ver figura 3), delimitada por el valor crítico de

a calcular bajo Ho cierta el valor de la variable aleatoria correspondiente al z crítico


calculado anteriormente.
● Para ellos utilizamos la fórmula del estadístico de prueba z y despejamos

● Midamos ahora 𝛼 y 𝛽.
● El valor de 𝛼 seguirá siendo 0,05. Pero como dijimos anteriormente este límite
define el área ocupada por 𝛽 y gráficamente es una de las colas de la curva de la
hipótesis alternativa verdadera. Entonces podemos escribir que bajo H₁ cierta:

● Entonces, llevado a valores de la variable aleatoria, la zona de no rechazo de Ho


está delimitada por 8,87 y 11,13.
● Vamos a suponer que el valor verdadero de la media es 7,89, evidentemente queda

PÁGINA 91
en la zona de rechazo de Ho.
● Y suponemos también que bajo H₁ verdadera el valor de la media es 7,89.

●Buscamos en la tabla de la normal y la probabilidad acumulada es P(z<1,7)=0,9554.


Para calcular la cola superior de H₁ cierta, calculamos: 1-0,9554 = 0,0446, que
corresponde a la cola superior.
● Por lo tanto, su complemento: 0,9554 es la probabilidad de rechazar la hipótesis
nula cuando esta es falsa. Es decir, de tomar la decisión correcta: rechazar la
Ho cuando realmente es falsa.
● Este ejemplo corresponde al escenario Nº 2 de la secuencia de cuadros que se
mostraron anteriormente.

El siguiente ejemplo está elaborado teniendo en cuenta la distribución de la media


muestral, en una prueba de hipótesis para la media poblacional. El sitio

http://www.seeingstatistics.com/seeing1999/resources/opening.html

permite ver cómo varía la potencia de la prueba para diferentes escenarios que
suponemos referidos al verdadero valor de la media poblacional.

Como permiten ver los paneles gráficos de las siguientes páginas, en los casos en los
cuales el verdadero valor está alejado de lo hipotetizado, la probabilidad de rechazar
la hipótesis nula es alta. La potencia de la prueba está identificada como el área
sombreada de azul en cada una de las figuras. Las áreas sombreadas de rojo
corresponden a la significación (que tiene una probabilidad α) y se grafican en la
distribución que supone que la hipótesis nula es cierta.

La probabilidad de rechazar la hipótesis nula siendo falsa se ilustra en la distribución


correspondiente a cada verdadero valor alternativo (asociado con ese escenario en
particular).
En todos los casos, se supone en la hipótesis nula que la media poblacional es igual a
10.

FIGURA 4: SECUENCIA DE CUATRO (DE 9 A 12) ESCENARIOS DE CÓMO VARÍA LA


MEDIA MUESTRAL PARA UNA PRUEBA DE HIPÓTESIS DE UNA MEDIA
POBLACIONAL; CON LA CONSECUENTE VARIACIÓN DE LAS ÁREAS DE LA
POTENCIA DE LA PRUEBA Y EL NIVEL DE SIGNIFICACIÓN.INSERT YOUR TEXT
HERE

PÁGINA 92
DESCRIPCIÓN DE LA FIGURA 4: permite ver cómo varía la potencia de la prueba –
área en azul- para diferentes escenarios que suponemos referidos al verdadero valor
de la media poblacional (en este caso hemos tomado μ=10), para poder mostrar la
variación de la potencia de la prueba. Se comienza con una media muy alejada a la
poblacional y al acercarse a la media poblacional, la potencia de la prueba disminuye.

Sinteticemos la información del ejemplo en una tabla donde se consignen los valores
de la potencia.

TABLA 3: RELACIÓN ENTRE EL VERDADERO VALOR DEL PARÁMETRO Y LA


POTENCIA

PÁGINA 93
La relación descrita en la tabla anterior puede representarse en un gráfico que se
denomina curva de potencia. El gráfico presenta un mínimo en el valor
correspondiente al que se postula en la hipótesis nula. La potencia en ese caso es
igual a la significación.

A continuación, se sugiere leer el siguiente artículo:

Fuente: Salvador, E. (2018) I. Error tipo I y II. II. Nivel de significancia. III. Intervalo
de confianza. Facultad de Medicina Veterinaria y Zootecnia. Recuperado de
https://eliasnutri.files.wordpress.com/2018/10/clase-6-error.pdf

La potencia de la prueba disminuye cuando Ho está muy alejada del


verdadero valor del parámetro.
Falso.

PÁGINA 94
Justificación: La potencia de la prueba no tiene relación directa con el error real del
parámetro. Es la probabilidad de rechazar Ho cuando esta es efectivamente no
verdadera y podemos conocer la potencia incluso sin saber el valor del parámetro.
Puedes retomar el concepto en el capítulo 9, punto 9.1 de la bibliografía básica de la
materia. ✓

Clasificación de las pruebas de hipótesis

Como hemos explicado anteriormente, las pruebas de hipótesis pueden ser de uno o
dos extremos (unilaterales o bilaterales). Esto dependerá del planteo de la hipótesis
nula, en función de la cual la zona de rechazo se ubicará en uno de los extremos o se
distribuirá entre ambos.

Observa los siguientes ejemplos:


Ejemplo 1: prueba bilateral
H₀: μ₀=μ₁

Significancia 𝛼=0,0
H₁: μ₀≠μ₁,

FIGURA 6: PRUEBA DE HIPÓTESIS DE DOS COLAS, QUE MUESTRA LAS DOS


ZONAS DE RECHAZO DE H₀

rechazo de H₀, además se muestran los valores críticos determinados por 𝛼. Observa
DESCRIPCIÓN DE LA FIGURA 6: En el gráfico se muestra la región de rechazo y no

que en cada cola queda una probabilidad de 𝛼/2 = 0,025 por tal motivo los valores
críticos son ± 1,96.

Ejemplo 2: prueba unilateral izquierda


H₀: μ₀ ≥ μ₁

Significancia 𝛼=0,05
H₁: μ₀ < μ₁

PÁGINA 95
FIGURA 7: PRUEBA DE HIPÓTESIS DE COLA IZQUIERDA, QUE MUESTRA LA ZONA
DE RECHAZO DE H₀

rechazo de H₀; además, se muestra el valor crítico determinado por 𝛼. Observa que
DESCRIPCIÓN DE LA FIGURA 7 : En el gráfico se muestra la región de rechazo y no

en la cola izquierda queda una probabilidad de 𝛼 = 0,05; por tal motivo, el valor
crítico es -1,645.

Ejemplo 3: prueba unilateral derecha


H₀: μ₀ ≤ μ₁

Significancia 𝛼=0,0
H₁: μ₀ > μ₁

FIGURA 8: PRUEBA DE HIPÓTESIS DE COLA DERECHA, QUE MUESTRA LA ZONA


DE RECHAZO DE H₀

PÁGINA 96
rechazo de H₀; además, se muestra el valor crítico determinado por 𝛼. Observa que
DESCRIPCIÓN DE LA FIGURA 8: en el gráfico se muestra la región de rechazo y no

en la cola derecha queda una probabilidad de 𝛼 = 0,05; por tal motivo, el valor crítico
es 1,645.

Advertencia: no debe usar los resultados de la muestra para decidir entre usar una
prueba de dos colas, de cola superior o de cola inferior. Antes de recolectar los datos,
se determina la forma de la prueba a partir de lo que piensa o desea detectar el
tomador de decisiones (Levin y Rubin, 2004, p. 330).

En una prueba de hipótesis con la hipótesis nula: μ ₁ ≥ μ₀, ¿dónde se ubica la


zona de rechazo de H₀?

En el extremo inferior.

Justificación: Para pruebas tanto z como t, cuando nuestra hipótesis nula establece
que el parámetro es mayor o igual a un valor hipotético, la zona de rechazo de H₀ es
un valor menor al hipotético, del lado izquierdo en la gráfica, o inferior. Puedes
retomar el concepto en el capítulo 9, punto 9.1 de la bibliografía básica de la materia.

4. RESOLUCIÓN DEL CASO DE LA CAMPAÑA ELECTORAL

Ya hemos planteado anteriormente la hipótesis nula y la alternativa.


Nos queda interpretar el error tipo I y el error tipo II.
Error tipo I: se rechaza la hipótesis nula cuando en realidad es verdadera. En nuestro
caso, es rechazar que la proporción de intención de voto para el intendente actual sea
del 0,45 (45 %), cuando en realidad la proporción poblacional que votará al candidato
es del 45 %.
Error tipo II: no rechazar que la proporción de intención de voto sea de 0,45 (45 %)
siendo que esa no es la proporción correcta, es decir que la cantidad de los
empadronados que votarán al candidato es mayor al 45 %.
Por otra parte, es una prueba unilateral a derecha.

PRUEBA RESPECTO DE UNA MEDIA. PRUEBAS PARA DIFERENCIAS DE


MEDIAS

INTRODUCCIÓN

En las lecturas 1 y 2 hemos tratado sobre la metodología de la prueba de hipótesis y


de los riesgos que pueden cometerse por su aplicación en situaciones concretas.
Ahora ha llegado el momento de seguir paso a paso su metodología, resolviendo
situaciones que se dan en la vida profesional, científica y diaria.
Te darás cuenta de que esta metodología sirve para cualquier tipo de problemas en
los que se quiera poner a prueba una hipótesis. Es importante que distingas cuáles
son los supuestos que requieren la elección del estadístico de prueba y de la
distribución de muestreo apropiada.
Haremos un breve esquema de los pasos para realizar una prueba de hipótesis,
resumiendo y ordenando lo estudiado hasta aquí.
Estudiaremos el test de hipótesis para la media poblacional, cuando se toma una
PÁGINA 97
muestra y para cuando queremos comparar dos medias de dos muestras distintas,
para poder referirnos a sus medias poblacionales.
Verás cómo se van organizando todos los conceptos, no solo de las lecturas anteriores
del módulo, sino de todo lo estudiado hasta ahora en la materia.
Decidimos dada la estructura de esta lectura – para que puedas seguir
organizadamente los temas- brindarte esquemas de los mismos al principio y a
medida que se van presentando:

FIGURA 1. TEMAS PRINCIPALES DE LA LECTURA.

Descripción de la figura 1: el esquema muestra principalmente dos tipos de


pruebas de hipótesis: para la media poblacional que involucra una sola muestra (con
varianza conocida y desconocida) y la prueba para la diferencia de medias que
involucra dos muestras.

1. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA CONOCIDA:


PRUEBA Z
CASO 1: EDAD DE LOS MIGRANTES
Observa lo postulado en el documento elaborado por el Departamento de Estudios y
Estadísticas de la Gerencia Técnica de la SRT publicado el viernes 28 de septiembre
de 2018:

La pirámide poblacional de los trabajadores migrantes muestra, en ese año


(2017), una alta concentración masculina entre los 25 y los 39 años, edades en las
que suele producirse el evento migratorio. En las mujeres, la distribución es más
amesetada, con una participación similar entre los 25 y los 49 años.
(https://bit.ly/3hg7Tj8).

Estudiando estos datos y considerando la cantidad y origen de los migrantes el


último año, queremos someter a una prueba de hipótesis el promedio de edad de los
inmigrantes sin distinguir sexo. Expertos en la problemática de la migración refieren,
que para la corriente migratoria que se analiza, la edad promedio es de 25 años. Se
conoce que la varianza de esta variable es de 3,5 años. Se tomó una muestra de 24
inmigrantes seleccionados al azar en un período de 6 meses y se obtuvo que la edad
promedio era de 22 años. Con una significación α=0,05, ¿puede considerarse
verdadera la hipótesis?
PÁGINA 98
ALGUNOS CONCEPTOS PARA AFIANZAR

CASOS DE PRUEBAS DE HIPÓTESIS: UNO Y DOS EXTREMOS


Este tema es de suma importancia para interpretar correctamente los problemas. Si
bien ya lo estudiamos al finalizar la lectura 2 de este módulo, te recomiendo que
repases este tema antes de seguir con la lectura. Igualmente, resumiremos los
conceptos más importantes a continuación.
En los casos en los cuales queremos someter a prueba una hipótesis referida a la
igualdad del parámetro a determinado valor contra la hipótesis alternativa de
desigualdad de ese valor, tanto si la evidencia muestral resulta en valores muy
elevados o muy reducidos del parámetro, sospechamos de la veracidad de la
hipótesis nula y optaremos por rechazarla. Por lo tanto, en estos casos, situamos la
probabilidad de rechazar una hipótesis nula siendo cierta (significación) en los
extremos superior e inferior de la distribución que estamos considerando.
Este tipo de pruebas se conoce como prueba de dos extremos o de dos colas. En tales
casos, el nivel de significación se reparte entre ambas colas (α/2 en cada una).
Te remitimos al último tema de la lectura 2 y al texto básico, capítulo 9.

PASOS PARA REALIZAR UNA PRUEBA DE HIPÓTESIS


Antes de comenzar a resolver situaciones concretas, organicemos los conceptos
estudiados y sistematicemos los pasos para una prueba de hipótesis.
En todos los casos y ejercicios de pruebas de hipótesis, se deben desarrollar
ordenadamente los siguientes pasos:

1. Establecer la hipótesis nula.


2. Establecer la hipótesis alternativa.
3. Seleccionar el nivel de significación.
4. Definir el tamaño de la muestra.
5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la
prueba.
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no
rechazo (lo cual deriva en disponer de una la regla de decisión).
7. A partir de los datos muestrales, obtener el valor del estadístico muestral.
8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba
obtenido con los datos muestrales.
9. Tomar la decisión estadística en base a la regla de decisión.
10. Indicar la conclusión del problema.

RESOLUCIÓN DEL CASO DE LA EDAD DE LOS MIGRANTES


Vamos a estudiar el tema de la prueba de hipótesis para la media poblacional con
varianza conocida: Prueba z, resolviendo la situación problemática del caso 1: edad
de los migrantes.
En este caso, estamos analizando una prueba bilateral, porque se trata de someter a
prueba una igualdad estricta versus una desigualdad.
Sigamos cada uno de los pasos planteados:

1. Establecer la hipótesis nula.


PÁGINA 99
H₀: µ=25 años. La edad promedio al momento de migrar es de 25 años.

2. Establecer la hipótesis alternativa.

H₁: µ ≠25 años. La edad promedio al momento de migrar es distinta de 25 años.

3. Seleccionar el nivel de significación.

Se trabajará con α=0,05

4. Definir el tamaño de la muestra.

La muestra de trabajo consta de 24 casos.

5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la


prueba.

Como se conoce la varianza, se trabajará con el estadístico Z:

6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no


rechazo (lo cual deriva en disponer de una la regla de decisión).

7. Como se pidió trabajar con una significación de 0,05, los valores críticos de Z
serán

-1,96 y 1,96.

Así, quedará determinada la siguiente regla de decisión (indicada también en la


figura 2):

Regla de decisión:

 Si el estadístico muestral resultante es inferior a -1,96, o si es mayor a 1,96, se


rechazará la hipótesis nula.

 Si el estadístico muestra es mayor a -1,96 y menor a 1,96, entonces no se


rechaza la hipótesis nula.

FIGURA 2: DETERMINACIÓN DE ZONA DE RECHAZO Y NO RECHAZO, EN LA


DISTRIBUCIÓN NORMAL ESTÁNDAR

PÁGINA 100
DESCRIPCIÓN DE LA FIGURA 2: En el gráfico se muestran las zonas de rechazo de

quedan en los extremos están dadas por 𝛼/2, áreas limitadas por los valores de z: -
Ho y la de no rechazo de Ho. Observa que por ser bilateral las probabilidades que

1,96 y 1,96.

8. A partir de los datos muestrales, obtener el valor del estadístico muestral.

Bajo Ho cierta:

Recuerda que el dato es la varianza de la población, por lo que tendrás que extraer la
raíz cuadrada para obtener la desviación estándar.
9. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba
obtenido con los datos muestrales.

El valor del estadístico muestral se ubica en la zona crítica o zona de rechazo.


10. Tomar la decisión estadística en base a la regla de decisión:

Se debe rechazar la Ho.

11. Indicar la conclusión del problema:


Con la evidencia muestral disponible, no puede suponerse que la edad promedio de
los migrantes es 25 años.

Vinculación entre la prueba de hipótesis y la estimación por intervalos


Tanto las pruebas de hipótesis como la estimación por intervalos se derivan de los
conceptos que permiten hacer inferencia basados en una muestra.
Un aspecto que suele generar confusión cuando se enfrenta por primera vez los
procedimientos de prueba de hipótesis y estimación es la equivalencia de los valores
correspondientes a los límites de los intervalos de confianza y los valores críticos que
delimitan las zonas de rechazo y no rechazo (en términos no estandarizados).
Pero los valores que forman parte del intervalo de valores que se estiman también
son los que hacen, numéricamente, aceptables la hipótesis nula.
Es decir, si el valor hipotetizado cae dentro del intervalo de confianza, no se rechaza
la H₀; en caso contrario, se rechaza H₀.
La diferencia está en los propósitos de ambos tipos de procedimientos. Son
sustancialmente diferentes en el marco de las correspondientes investigaciones que
los enmarcan. Mientras los intervalos de confianza se utilizan para estimar
parámetros, las pruebas de hipótesis se utilizan para tomar decisiones respecto de un
valor determinado del parámetro poblacional.

MÉTODO DEL VALOR P

Otra manera en la que puede abordarse y resolverse una prueba de hipótesis es


determinar el nivel de significación que tiene asociado el valor resultante del
estadístico con los datos muestrales.
El valor p es la probabilidad de obtener un estadístico igual o mayor que el valor
muestral, siendo la hipótesis nula cierta.
PÁGINA 101
R. Weiers, en su texto de Introducción a la estadística para los negocios, indica la
siguiente analogía, en una prueba de salto en alto: “…equivale a que Ud. saltara tan
alto como pudiera sin tener que pasar sobre una barra, y que luego los jueces le
indicaran a qué altura la habría rebasado si la barra estuviera en el lugar” (2006, p.
432).
Esta modalidad de resolución es de gran practicidad en el caso de contar con
resultados procesados a través de software estadístico, que directamente aproximan
numéricamente el cálculo de probabilidad implicado, arrojando para la muestra, el
valor p (o p-valor, como también se lo conoce). Simplemente, el investigador compara
esa significación con la que considera para su investigación (el valor α) y, si el valor p
supera al α, entonces no se rechaza la hipótesis nula; en cambio, si α es mayor que p,
entonces se rechaza la hipótesis nula.
Obviamente, esta regla de decisión se relaciona con el hecho de que, si la
significación del estadístico muestral es mayor que α, entonces, ese valor se
encuentra en la zona de rechazo y viceversa.
Siguiendo al texto de la materia, los pasos correspondientes a una prueba de
hipótesis utilizando el valor p se sintetizan de la siguiente manera:
1. Establecer la hipótesis nula.
2. Establecer la hipótesis alternativa.
3. Seleccionar el nivel de significación (α).
4. Considerar el tamaño de la muestra.
5. Determinar la prueba y el estadístico que se utilizarán.
6. Calcular el estadístico con los datos muestrales.
7. Estimar el valor p para el estadístico muestral.
a) Considerar la distribución bajo hipótesis nula cierta
b) Utilizar un gráfico de la distribución y ubicar el valor del estadístico
muestral calculado.
c) Calcular la probabilidad deseada ayudado de las tablas o programa
estadístico apropiado.
8. Comparar el valor p con α.
9. Tomar la decisión estadística.
10. Elaborar la conclusión

¿QUÉ SIGNIFICA REALMENTE EL VALOR P?


Fuente:Molina Arias, M. (2017). ¿Qué significa realmente el valor p? Rev Pediatr
Aten Primaria 19 (76). Recuperado de http://scielo.isciii.es/scielo.php?
script=sci_arttext&pid=S1139-76322017000500014

ACTIVIDADES DE REPASO DE LECTURA

𝛼=0,05, valor crítico de z es:


Si una prueba de hipótesis es unilateral derecha, con una significancia de

a. Zcrít = 1,645
Según la tabla normal estandarizada, la probabilidad de que la cola superior tenga
0,05 o bien una acumulada de 0,95, el valor de Z es 1,645. ¡Cuidado!, z=± 1,96 es
PÁGINA 102
para un 95 % de confianza (0,95), no te confundas con los intervalos de confianza,
porque esa probabilidad se toma alrededor de la media, que deja un 0,025 de
probabilidad para cada extremo; por lo tanto, no es lo que se pide en este ejercicio. ✓

La selección del estadístico de prueba depende solo de la intuición del


investigador
Falso.

Correcto: El investigador no puede elegir cualquier estimador. Debe basarse primero


en el parámetro que se desea estimar y en la calidad del estimador (insesgado,
suficiente, consistente, etcétera). ✓

Se recomienda la lectura del capítulo 9 del texto básico, apartados 9.1, 9.2 y 9.3 con
la ejercitación correspondiente para complementar esta lectura.

2. PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA


DESCONOCIDA: PRUEBA T

CASO 2: HORAS DE ESTUDIO DE LOS ALUMNOS DE GESTIÓN


ORGANIZACIONAL
Un docente de Gestión Organizacional sostiene la idea de que el promedio de horas
de estudio de sus alumnos ha sido inferior a 3 horas diarias en la semana previa al
último parcial. A fin de comprobar su idea previa, realiza una breve encuesta anónima
y obtiene la siguiente información a partir de una muestra de 15 alumnos tomados al
azar del total (muy elevado) de los alumnos de las 10 divisiones que tiene a su cargo.

TABLA 1. CANTIDAD DE HORAS QUE ESTUDIÓ CADA ALUMNO


Alum Cantidad de horas
no que estudió en la
(muestra) semana previa a la
evaluación

1 3

2 6

3 7

4 2

5 1

6 0,5

7 1

8 2

9 2,5
PÁGINA 103
10 2

11 1

12 2

13 3

14 2

15 0,5

DESCRIPCIÓN DE LA TABLA 1: tabla que corresponde al Caso 2, en la que se


detalla la muestra de 15 alumnos tomados aleatoriamente con las correspondientes
horas de estudio diarias en la semana previa a la evaluación.

RESOLUCIÓN DEL CASO 2


En este caso, estamos analizando una prueba unilateral, porque se plantea una
desigualdad.
Sigamos cada uno de los pasos planteados:

1. Establecer la hipótesis nula:

Ho: µ ≥ 3 horas.

Note cómo se seleccionó la hipótesis nula. Si bien se sostiene que la cantidad de


horas de estudio promedio fue inferior a esa cantidad, se utiliza en la hipótesis nula la
afirmación complementaria porque incluye la igualdad. Y en particular, si se
encuentra evidencia que permita refutar la hipótesis nula, haberla planteado de esta
manera nos permite un resultado más sólido.

2. Establecer la hipótesis alternativa.

H₁: µ <3 horas.

3. Seleccionar el nivel de significación.

Se trabajará con α=0,05

4. Definir el tamaño de la muestra.

La muestra de trabajo consta de 15 casos.

5. Establecer qué estadístico muestral con distribución conocida se utilizará en la


prueba.

PÁGINA 104
Como se desconoce la varianza, se trabajará con el estadístico t, con n-1 grados
de libertad:

6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no


rechazo (lo cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,05, el valor crítico de t, con 14
grados de libertad es -1,7613.
Luego, quedará determinada la siguiente regla de decisión (indicada también en
la figura 3:

 Si el estadístico muestral resultante es inferior a -1,7613, se rechazará la


hipótesis nula.

 Si el estadístico muestral es mayor a -1,7613, entonces no se rechaza la


hipótesis nula.

FIGURA 3: DETERMINACIÓN DE ZONA DE RECHAZO Y NO RECHAZO, EN LA


DISTRIBUCIÓN T, PARA EL CASO 2.

DESCRIPCIÓN DE LA FIGURA 3: en el gráfico se muestran las zonas de

la probabilidad que queda en el extremo izquierdo está dadas por la significancia 𝛼, el


rechazo de Ho y la de no rechazo de Ho. Observa que, por ser unilateral a izquierda,

área queda por debajo de t=-1,7613.

7. A partir de los datos muestrales, obtener el valor del estadístico muestral.

Bajo H₀ cierta:
La media muestral la calculamos mediante la fórmula:

Y la desviación estándar muestral:


=1,8657
Entonces:
PÁGINA 105
8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba
obtenido con los datos muestrales.

El valor del estadístico muestral se ubica en la zona de no rechazo de Ho.


9. Tomar la decisión estadística en base a la regla de decisión.

No se debe rechazar Ho.


10. Indicar la conclusión del problema

Con la evidencia muestral disponible no puede descartarse que el promedio de


horas de estudio haya sido mayor o igual a 3.

Tests de hipótesis estadísticas

García Ben, M. (2006). Tests de hipótesis estadísticas. Test de hipótesis sobre la media de una
población. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Recuperado de
https://es.scribd.com/document/315921161/EstadQuimTH1

PRUEBAS PARA LA DIFERENCIA DE MEDIAS


Hasta acá estudiamos los procedimientos relacionados entre la prueba de hipótesis
cuando la muestra es una sola.
En el próximo bloque de lectura verás cómo este mismo procedimiento que utiliza la
prueba de hipótesis se extiende a comparaciones entre estadísticos; en nuestro caso,
la media proveniente de muestras extraídas de más de una población.
Hay una gran variedad de pruebas para la diferencia de medias, pero hemos
seleccionado cuatro casos que serán evaluados oportunamente, de acuerdo con las
características que presenta cada problema y a medida que vayamos estudiando las
distintas pruebas.

CASO 3: UNA INVESTIGACIÓN EN EL HOSPITAL CENTRAL


En el Hospital Central de Enfermedades Virales de la Ciudad de Córdoba se está
aplicando un medicamento para combatir un determinado virus. Los investigadores
médicos de ese centro de salud quieren comparar si la duración de la enfermedad es
distinta en dos grupos de pacientes: un grupo de pacientes que habían sido tratados
anteriormente con ese medicamento (grupo 1) y otro grupo al que no se había
aplicado el medicamento en otra ocasión (grupo 2). La evolución de este tipo de virus
tiene una duración que sigue una distribución normal en todos los pacientes que
hayan sido tratados o no con este tipo de medicamento en algún momento. Los
médicos tenían perfectamente identificadas estas dos poblaciones, que en
investigaciones anteriores han arrojado una desviación estándar de 4 días en ambos
casos. Para llevar adelante la investigación, tomaron dos muestras aleatorias e
independientes de cada grupo.
Una muestra de 36 enfermos del grupo 1, tuvo una duración media de la enfermedad
de 12 días. La otra muestra fue de 35 enfermos del grupo 2, que han permanecido
enfermos 15 días. ¿Qué podemos decir acerca de la duración de la enfermedad
comparando estos dos grupos para un nivel de significación del 1 %?

PÁGINA 106
CASO 4: COMBUSTIBLES IMPALA S.A.
IMPALA S.A. es una marca de combustibles que ha desarrollado un nuevo combustible
premium, el cual reemplazaría al que se produce actualmente; por este motivo,
quiere analizar si realmente hay una diferencia en cuanto a rendimiento entre el
nuevo combustible y el anterior. Se contrata a un experto en combustibles para
determinar si existe alguna diferencia en un mismo modelo de automóvil. El
combustible A3, que se está evaluando para considerar su introducción en el
mercado, se probó en 20 autos, y se calculó una media muestral de 14 km. por litro
(con una desviación estándar de 2 km. por litro), mientras que el combustible A2 que
se probó en 10 automóviles, produjo una media de rendimiento de 13,2 km. por litro,
con una desviación estándar de 2,1 km. por litro. Suponiendo varianzas iguales,
¿existe evidencia de que el nuevo combustible, A3, supera al A2, que se está
utilizando en la actualidad?

CASO 5: VETERINARIA “PUNTA MASCOTA”


El dueño de la veterinaria Punta Mascota desea comprobar si existe diferencia en la
cantidad total de dinero gastada por mes entre los dueños de perros y los dueños de
gatos. Se consideró una muestra de individuos que solo poseía una de estas
mascotas, considerando animales (tanto perros como gatos) de un rango de peso de
3 a 5 kilos. En el caso de los dueños de gatos, se obtuvo una media muestral de
$119,16 por semana, para una muestra de 26 casos, con una desviación estándar de
$18,52. En la muestra de 37 dueños de perros, se estimó que en promedio gastan
$126,47 por semana, con una desviación estándar de $19,45. ¿Existe una diferencia
significativa en el gasto promedio?

CASO 6: COMPARACIÓN DE ARTÍCULOS EN DOS SUPERMERCADOS.


El Instituto de Defensa al Consumidor está haciendo un relevamiento de algunos
productos de limpieza, comparando dos cadenas de supermercados que están
instaladas en la provincia. Un relevamiento que hicieron de la página web de cada
supermercado arrojó los siguientes precios para el mismo artículo:

TABLA 2. PRECIOS DE ARTÍCULOS DE LIMPIEZA EN DOS SUPERMERCADOS.


Sup Sup
C ermercad ermercad
AR
antida oA oB
TÍCULO
d (precio (precio
en $) en $)

Det
ergente 1 81,8
1 lavavajilla litro 2 75,6

Lav 1 80,2
2 andina litro 75,2 4

3 Des 3 102, 99,6

PÁGINA 107
odorante
ambiente 50 cm³ 94

Pap
el
Higiénico
x rollo de u
4 50 m nidad 25,6 19,6

Roll
o de
cocina 50 u 80,2
5 hojas nidad 4 75,6

Jabó
n de u
6 tocador nidad 50,6 37,8

Lim 1
7 piapisos litro 58,9 75,9

Des
infectante 1 77,8
8 para pisos litro 63,9 9

Sua
vizante 8 110, 99,6
9 para ropa 50 cm³ 36 6

Det
1 ergente 1 129, 110,
0 para ropa litro 36 56

DESCRIPCIÓN DE LA TABLA 2: se observa una comparación de los precios


del mismo artículo en cada uno de los supermercados A y B, que van a ser sometidos
a un test de hipótesis.
Con un nivel de significación del 5 %, ¿existe evidencia de que la media del precio de
los artículos de limpieza del supermercado B es mayor que en el A?

¿QUÉ SON LAS PRUEBAS DE LAS DIFERENCIAS ENTRE MEDIAS?


En muchas ocasiones necesitamos conocer si existe diferencia en las características
de dos poblaciones de interés.
Es habitual preguntarse, cuando se obtienen medidas de resumen de muestras
correspondientes a dos poblaciones, si realmente hay una diferencia significativa
entre ellas o bien, si podrían considerarse iguales, pese a la diferencia muestral
observada (quizá derivada del azar). Para poder responder a este tipo de preguntas,
las pruebas de hipótesis vinculadas con dos medias brindan una herramienta de gran
PÁGINA 108
aplicación en diversos usos de investigación y toma de decisiones.
Antes de comenzar con el tema principal, te propongo que te guies por este esquema,
como lo hicimos al principio de la lectura:

FIGURA 4: ESQUEMA SOBRE LOS TEMAS QUE SE INCLUIRÁN EN LA PRUEBA DE


DIFERENCIAS ENTRE MEDIAS.

DESCRIPCIÓN DE LA FIGURA 4: Se presentan ordenadamente los temas


que forman esta parte de la lectura junto a los casos resueltos.

PRUEBAS PARA MUESTRAS INDEPENDIENTES Y DEPENDIENTES: DIFERENCIAS


ENTRE AMBOS TIPOS DE MUESTRAS
En el caso de las pruebas sobre diferencias de medias, podemos enfrentar alguna de
las siguientes situaciones, dependiendo qué tipo de diseño de investigación se utilizó:

 Muestras independientes.

 Muestras relacionadas o apareadas.

La selección del tipo de comparación de medias que se realice está


fundamentalmente asociada con el problema que se enfrente y el tipo de dato que se
disponga a partir de un experimento, observación o encuesta.

MUESTRAS INDEPENDIENTES
Se dice que las muestras son independientes si la aparición o selección de un
individuo en una muestra no tiene ninguna relación con la aparición o selección de
ningún individuo o elemento en la otra muestra. Este caso se aplica cuando los
individuos de cada una de las muestras pertenecen a dos poblaciones distintas, cuya
diferencia de medias es el propósito principal de la prueba.

PÁGINA 109
MUESTRAS RELACIONADAS O APAREADAS
Cuando las dos muestras se han construido de manera que la inclusión de un
individuo en una de las muestras condiciona la selección de otro en la otra muestra
considerada, o bien se analiza repetidamente información (generalmente a lo largo
del tiempo) sobre un mismo individuo, decimos que son muestras relacionadas o
apareadas.
Como se muestra en el esquema de la figura 4, tanto en el caso de muestras
independientes como apareadas, consideraremos distintas pruebas de hipótesis,
teniendo en cuenta qué supuestos corresponde aplicar, como veremos a
continuación.

PRUEBA Z PARA LA DIFERENCIA ENTRE DOS MEDIAS DE MUESTRAS


INDEPENDIENTES CON VARIANZAS CONOCIDAS.
En este caso, queremos comparar las medias de dos poblaciones sobre la base de
muestras extraídas aleatoriamente de cada una de ellas.
Si los datos provienen de variables numéricas, el estadístico de prueba utilizado para
determinar la diferencia entre las medias poblacionales se basa en la diferencia entre

las medias de las muestras:

Los supuestos para aplicar esta prueba son los siguientes:

 Las muestras son aleatorias y seleccionadas independientemente de cada


población.

 Las poblaciones tienen distribución normal.

 La prueba z sigue siendo la adecuada si –de no ser las poblaciones normales-


las muestras son lo suficientemente grandes (cada una de ellas mayor o igual
que 30).

 Entonces, el estadístico Z seguirá la distribución normal estandarizada.

 es el estimador puntual de

 El error estándar de la distribución de muestreo del estimador ,


cuando se tienen dos muestras aleatorias simples independientes, es el
siguiente:

 por lo tanto, el estadístico z para la diferencia entre dos medias es:

Referencias:

PÁGINA 110
Las muestras aleatorias con n₁ ≥ 30 y n₂ ≥ 30 se consideran adecuadas. En el caso en
que una o las dos muestras sea menor que 30, las distribuciones de las poblaciones
son importantes. En general, cuando esto ocurre, es importante que el analista se
convenza de que es razonable suponer que las distribuciones de las dos poblaciones
son al menos aproximadamente normales. (Anderson, Sweeney y Williams, 2012, p.
412).

RESOLUCIÓN DEL CASO 3

1. Establecer la hipótesis nula


H₀: μ₁−μ₂ = 0
Vamos a llamar μ₁ a la población del grupo que no fue tratado anteriormente con el
medicamento (grupo 1) y μ₂ a la población de enfermos a la que ya se había
administrado dicho medicamento anteriormente (grupo 2)
Dado que nos interesa ver si el medicamento suministrado a los pacientes tiene más
efecto o no en el grupo 1 con respecto al grupo 2, en la hipótesis nula planteamos el
estado de la naturaleza que, si se puede, se descartará con evidencia muestral
contundente.
Planeamos una prueba bilateral, ya que se desea saber si existe o no diferencia.
2. Establecer la hipótesis alternativa.
H₁: μ₁−μ₂ ≠ 0
3. Seleccionar el nivel de significación.
Se trabajará con α=0,01
4. Definir el tamaño de la muestra.
Las muestras de trabajo constan de 36 casos para el grupo 1 (n₁) y 35 casos para el
grupo 2 (n₂).
5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la
prueba.

El estadístico a utilizar es que tiene distribución normal (según explicamos


en la parte teórica), con un error estándar que calcularemos directamente con la
fórmula del estadístico z:

PÁGINA 111
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo
(lo cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,01, los valores críticos de z,
teniendo en cuenta que emplearemos zα/2 al ser un contraste bilateral, son:

(Recuerda que tienes que buscar en el cuerpo de la tabla la probabilidad más cercana
a 0,005 ó 0,995. En este caso, está a la misma distancia de z= 2,57 y z=2,58). Este
nivel de significancia también es muy utilizado, por lo que conviene aprenderlo.
Luego, quedará determinada la siguiente regla de decisión (indicada también en la
figura 5):

 Si el estadístico muestral resultante es menor a -2,575 o mayor a 2,575 se


rechazará la hipótesis nula.
 Si el estadístico muestral es mayor a -2,575 y menor a 2,575 entonces, no se
rechaza la hipótesis nula.

FIGURA 5: DETERMINACIÓN DE ZONA DE RECHAZO Y NO RECHAZO, EN LA


DISTRIBUCIÓN Z, PARA EL CASO 3

DESCRIPCIÓN DE LA FIGURA 5: En el gráfico se muestran las zonas de


rechazo de Ho y las de no rechazo de Ho. Observa que, por ser bilateral, la

significancia 𝛼 (que se divide en dos), las áreas de rechazo quedan por debajo de z=-
probabilidad que queda en cada uno de los extremos es 0,005, dadas por el nivel de

2,575 y por encima de z=2,575.

7. A partir de los datos muestrales, obtener el valor del estadístico muestral.


Bajo Ho cierta:

8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba


obtenido con los datos muestrales.
El valor del estadístico de prueba se ubica en la zona de rechazo de H₀.
PÁGINA 112
9. Tomar la decisión estadística en base a la regla de decisión.
Se debe rechazar H₀.
10.Indicar la conclusión del problema.
Con la evidencia muestral, se rechaza Ho. Por lo tanto, se puede pensar que hay
diferencias entre los grupos 1 y 2 debido a la administración del nuevo medicamento;
en conclusión, la duración media de la enfermedad es distinta para los enfermos a los
que se les ha aplicado anteriormente el medicamento que para los que no.

PRUEBA T DE DIFERENCIA DE MEDIAS PARA MUESTRAS


INDEPENDIENTES: CASO DE VARIANZA CONJUNTA

Cuando se desconocen las varianzas poblacionales y las muestras son pequeñas, se


utiliza la distribución t, que es lo más común en las investigaciones en la diferencia de
medias poblacionales.

RESOLUCIÓN DEL CASO 4: IMPALA S.A.


Veamos paso a paso cómo comprobamos esta hipótesis.
Te recomendamos que profundices el tema en el capítulo 10 del texto básico.
Especialmente, el apartado 10.1 con el título: Prueba t de varianza conjunta para
diferencias entre dos medias.

1. Establecer la hipótesis nula:


H₀: μ₁ − μ₂ ≤ 0 (el nuevo combustible tiene un rendimiento menor o igual que el
actual)
Vamos a llamar μ₁ a la población correspondiente al nuevo combustible (A3), y μ₂ a la
del combustible que se produce actualmente (A2).
Dado que nos interesa ver si el nuevo combustible tiene más rendimiento que el
actual, en la hipótesis nula planteamos el estado de la naturaleza que, si se puede, se
descartará con evidencia muestral contundente.
2. Establecer la hipótesis alternativa.
H₁: μ₁ − μ₂ > 0 (el nuevo combustible tiene un rendimiento mayor que el actual).
3. Seleccionar el nivel de significación.
Se trabajará con α=0,05
4. Definir el tamaño de la muestra.
Las muestras de trabajo constan de 20 casos (n₁) y 10 casos (n₂), respectivamente.
5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la
prueba.
El estadístico tiene distribución t, con (n₁+n₂ - 2) grados de libertad (recuerda que se
desconoce la varianza poblacional)

La prueba t de varianza conjunta se denomina así porque el estadístico de


prueba conjunta (combina) las dos varianzas de muestra para calcular , la mejor
estimación para la varianza común a ambas poblaciones bajo la suposición de que las
dos varianzas de las poblaciones son iguales (Levine, Krehbiel, Berenson, 2006, p.
313).

PÁGINA 113
Donde, la varianza conjunta se construye de la siguiente manera a partir de las
varianzas muestrales de cada muestra respectiva:

6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no


rechazo (lo cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,05, el valor crítico de t, con n₁+n₂ -
2= 20+10-2=28 grados de libertad es 1,701.
Luego, quedará determinada la siguiente regla de decisión (indicada también en la
figura 6):

 Si el estadístico muestral resultante es mayor a 1,701, se rechazará la hipótesis


nula.

 Si el estadístico muestral es menor a 1,701, entonces, no se rechaza la hipótesis


nula.

FIGURA 6: DETERMINACIÓN DE ZONA DE RECHAZO Y NO RECHAZO, EN LA


DISTRIBUCIÓN T, PARA EL CASO 4

Descripción de la figura 6: En el gráfico se muestran las zonas de rechazo de Ho y

queda en el extremo derecho está dada por la significancia 𝛼, el área queda por
la de no rechazo de Ho. Observa que por ser unilateral a derecha, la probabilidad que

encima de t=1,701.

7. A partir de los datos muestrales, obtener el valor del estadístico muestral

Calculemos primero la varianza conjunta:

Entonces el estadístico t, nos queda:

8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba


obtenido con los datos muestrales.

El valor del estadístico muestral (t= 1,0162) se ubica en la zona de no rechazo.

9. Tomar la decisión estadística en base a la regla de decisión.

No se debe rechazar Ho.

10. Indicar la conclusión del problema.

PÁGINA 114
Con la evidencia muestral disponible no puede descartarse que el rendimiento del
nuevo combustible sea igual o menor que el combustible actual.

Prueba t de diferencia de medias para muestras independientes. Caso


de varianzas separadas

Cuando no podemos asumir que las dos poblaciones tienen iguales varianzas,
adoptamos esta prueba.
Te recomendamos que profundices en el texto básico, capítulo 10, apartado 10.1 bajo
el título de: Prueba t de varianza separada para la diferencia entre dos medias.

Resolución del Caso 5

Vamos a desarrollar el Caso 5 que enunciamos al principio de este bloque.

1. Establecer la hipótesis nula.

H₀: μ₁−μ₂ = 0

Vamos a llamar muestra 1 a la correspondiente a los dueños de gatos y 2 a la


muestra de dueños de perros.

Planeamos una prueba bilateral, ya que se desea saber si existe o no diferencia.

2. Establecer la hipótesis alternativa.

H₁: μ₁−μ₂ ≠ 0

3. Seleccionar el nivel de significación.

Se trabajará con α=0,05

4. Definir el tamaño de la muestra.

Las muestras de trabajo constan de 26 casos de dueños de gatos (n₁) y 37 casos de


dueños de perros (n₂).

5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la


prueba.

El estadístico tiene distribución t, con v grados de libertad:

Los grados de libertad v, se calculan mediante la fórmula:

PÁGINA 115
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo
(lo cual deriva en disponer de una la regla de decisión).

Vamos a necesitar los grados de libertad, entonces aproximemos en primer lugar el


valor v:

Se trunca la parte decimal y se toma la parte entera sin aproximar. En realidad, todos
estos cálculos hoy los realiza un software estadístico. Pero sí importa que sepas los
supuestos y por qué se aplican los distintos estadísticos, como así también todo lo
relacionado al razonamiento de cada test.

Como se pidió trabajar con una significación de 0,05, los valores críticos de t, con 55
grados de libertad son -2,004 y 2,004.

Luego, quedará determinada la siguiente regla de decisión (indicada también en


la figura 7):

 Si el estadístico muestral resultante es menor a -2,004 o mayor a 2,004 se


rechazará la hipótesis nula.

 Si el estadístico muestral es mayor a -2,004 y menor a 2,004 entonces, no se


rechaza la hipótesis nula.

Figura 7: Determinación de zona de rechazo y no rechazo, en la


distribución t, para el caso 5.

Fuente: elaboración propia

7. A partir de los datos muestrales, obtener el valor del estadístico muestral.

Bajo Ho cierta:

8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba


obtenido con los datos muestrales.

El valor del estadístico muestral se ubica en la zona de no rechazo.

9. Tomar la decisión estadística en base a la regla de decisión.

No se debe rechazar H₀.

PÁGINA 116
10. Indicar la conclusión del problema.

Pese a las diferencias muestrales observadas, puede decirse que no hay diferencias
significativas entre ambas poblaciones. Por lo tanto, no hay suficiente evidencia para
afirmar que el promedio de gastos semanales de los dueños de gatos sea distinto que
el de los dueños de perros.

Prueba de diferencia de medias para muestras relacionadas

Esta prueba consiste en dos muestras que no son independientes, pues aquí los datos
entre las poblaciones y, por supuesto, las muestras, están relacionadas o apareadas.
Esta relación puede darse de dos formas:

1. Los apareos o parejas pueden ser por alguna característica de los individuos de
la población, por ejemplo, una prueba sobre la diferencia de ventas de un
producto bajo diferentes campañas publicitarias.

2. Otro tipo de investigación se realiza con los mismos elementos de una muestra,
antes y después de someterlos a algún tratamiento especial.

El caso de las muestras relacionadas es de amplia utilización cuando se


necesita disponer de comparaciones entre sujetos con mínima variabilidad entre sí o
en pruebas sucesivas repetidas (estudios “antes y después” sobre un mismo sujeto).

Pero, más allá de tratarse de muestras apareadas por alguna característica o


mediciones repetitivas sobre un mismo individuo, el objetivo de esta prueba es
estudiar las diferencias entre dos mediciones. Uno de los fines de estas pruebas es
disminuir las diferencias, la variabilidad de las mediciones se da especialmente en el
control de calidad en las industrias manufactureras. También tienen grandes
aplicaciones en el ámbito de la medicina.

Este tema está desarrollado en el texto básico en el capítulo 10, apartado 10.2.

Para cada par de observaciones apareadas se calculan las diferencias entre las
mismas que denominamos D.

Resolución del caso 6

Tabla 3: diferencias entre los precios del mismo artículo en los dos
supermercados.

Sup Sup
ermercad ermercad D
A oA oB i=

rtículo (precio en (precio en xi1-


s $) $) xi2

PÁGINA 117
81,8 6
1 2 75,6 ,22

80,2 -
2 75,2 4 5,04

102, 3
3 94 99,6 ,34

4 25,6 19,6 6

80,2 4
5 4 75,6 ,64

1
6 50,6 37,8 2,8

-
7 58,9 75,9 17

77,8 -
8 63,9 9 13,99

110, 99,6 1
9 36 6 0,7

1 129, 110, 1
0 36 56 8,8

Fuente: elaboración propia

Descripción de la Tabla 3: se calculan las diferencias de los precios del


mismo artículo, el primero es el supermercado A y el segundo el B. A las filas las
designamos con la letra i, al supermercado A con el número 1, porque está en la
columna 1 y el 2 representa al supermercado B. Estamos tratando los datos como en
una matriz de 10 x 2.

El promedio muestral de tales diferencias se obtiene considerando todas las D para


los n pares de sujetos de estudio:

En nuestro caso:

Por lo que vemos hasta aquí, el promedio es positivo, por lo que podemos ir
deduciendo que los precios del supermercado A son en promedio más altos que los
del supermercado B.
PÁGINA 118
Pero comencemos con la prueba, para ver si nuestra intuición es cierta.
Denotaremos μ_D a la diferencia poblacional, que se somete a prueba.
La prueba se lleva a cabo con el mismo procedimiento utilizado previamente para los
diversos casos de pruebas de hipótesis.

Pero, como siempre, tendremos que tener cuidado en cómo planteamos las
hipótesis. Si ya tenemos una idea que, de ser confirmada, nos resuelve el problema,
entonces pongamos a prueba de que los precios en el supermercado A no son
mayores que los del supermercado B. Es decir o bien H₀:

1. Establecer la hipótesis nula.

H₀: (la media de los precios de los artículos de limpieza en el supermercado B es


mayor o igual a la media de precios en el supermercado A) Esto es lo que se pone a
prueba.

2. Establecer la hipótesis alternativa.

H₁: (la media de los precios de los artículos de limpieza en el supermercado A es


mayor a la media de precios en el supermercado B) esta es la que hay que investigar.

3. Seleccionar el nivel de significación.

Se trabajará con α=0,05

4. Definir el tamaño de la muestra.

Las muestras de trabajo se toman como una de 10 casos porque están apareadas.

5. Establecer qué estadístico muestral, con distribución conocida, se utilizará en la


prueba.

El estadístico de prueba será:

Este estadístico posee n-1 grados de libertad.


Para el cálculo de la desviación estándar muestral se deberá considerar la siguiente
fórmula:

Esta es otra fórmula de la desviación estándar que conoces, pero más adaptable a
este caso; es equivalente y los resultados son los mismos.

6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no


rechazo (lo cual deriva en disponer de una la regla de decisión).

PÁGINA 119
Como se pidió trabajar con una significación de 0,05 y la prueba es de cola derecha,
el valor crítico de t, con 9 grados de libertad es 1,833.
Luego, quedará determinada la siguiente regla de decisión:

 Si el estadístico muestral resultante es menor que 1,833, no se rechazará la


hipótesis nula.

 Si el estadístico muestral es mayor que 1,833, se rechazará la hipótesis nula.

7. A partir de los datos muestrales, obtener el valor del estadístico muestral.

Bajo Ho cierta y suponiendo normalidad en las diferencias, se utiliza la prueba t


apareada con 9 grados de libertad.

8. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba


obtenido con los datos muestrales.

El valor del estadístico muestral se ubica en la zona de no rechazo de H₀.

9. Tomar la decisión estadística en base a la regla de decisión.

No se debe rechazar H₀.

10. Indicar la conclusión del problema.

No existe evidencia estadística para afirmar que la media de los precios de los
artículos de limpieza en el supermercado A es mayor a la media de precios en el
supermercado B.

Mediante este ejemplo podemos ver que toda idea, por más evidente que sea, puede
no ser la correcta. Por lo tanto, el contrastar una suposición puede sorprendernos y
darnos una respuesta científica a una idea previa.

Si en una muestra de n= 16, seleccionada a partir de una población


sesgada a la izquierda, con x=65 y s=21, ¿utilizarías la prueba t para probar
la hipótesis nula H₀=60?

No, porque la muestra es pequeña.

Sí, porque no tengo la desviación estándar poblacional.

Sí, porque no puede utilizarse la prueba z, pues la distribución no es normal.

PÁGINA 120
No, porque se trata de una muestra mayor que 10

Supongamos que se toman dos muestras de dos poblaciones normales


con varianza conjunta. Una muestra de n₁=8 con una media muestral y una
desviación estándar muestral calculadas y se toma otra muestra
independiente de n₂ =15 de otra población con media muestral y desviación
estándar de la muestra que también pueden calcularse. Al calcular el valor
estadístico de la prueba t para la diferencia entre medias, para varianzas
conjuntas, ¿cuántos grados de libertad tiene el estadístico calculado?

gl =23

gl =21

gl =31

gl =22

PÁGINA 121

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy