ESTADÍSTICA 2 Resumen
ESTADÍSTICA 2 Resumen
ESTADÍSTICA 2 Resumen
2
HERRAMIENTAS MATEMÁTICA 5
INTRODUCCIÓN
¿Por qué lo repetimos? Porque este tema nos muestra las bases de la estimación y la
razón por la cual se pueden hacer inferencias desde los estadísticos de la muestra
a los parámetros poblacionales correspondientes con fundamento estadístico.
De este tema se nutren todos los contenidos del presente módulo y posteriores.
Antes de iniciar esta lectura, tienes que tener bien consolidados los siguientes temas:
distribución normal;
estandarización;
uso de las distintas tablas de la distribución normal;
resolución de problemas en los que interviene la distribución normal.
Por eso, como primera tarea, te recomendamos cualquiera de las publicaciones que
detallamos a continuación para que repases los temas indicados.
1. CASO DE LA PRODUCTORA DE TÉ
La productora de té Ackerman e Hijos, oriunda del litoral y con envíos a todo el país,
necesita saber cuál es el porcentaje del consumo de té por hogar en la República
Argentina. Considera, de acuerdo con estudios realizados con anterioridad, que el
consumo anual por hogar está normalmente distribuido con una desviación estándar
de 1,25 kg, pero desconocen la media µ.
PÁGINA 1
¿Cuál será la probabilidad de que el consumo medio de la muestra supere al consumo
promedio poblacional en más de 0,75 kg?
Conceptos previos
Antes de comenzar, repasemos los conceptos estudiados en Estadística I.
Estadística inferencial:
“Es el conjunto de métodos y técnicas que permiten determinar, de una muestra
debidamente representativa de una población, los valores estadísticos, a fin de poder
inferir sobre los parámetros poblacionales con un cierto grado de bondad” (Berenson
et al., 2014, p. 2).
También puede entenderse como el “conjunto de métodos que hacen posible la
estimación de una característica de la población o la toma de una decisión referente a
PÁGINA 2
una población basándose solo en los resultados de una muestra” (Berenson et al.,
2014, p. 4).
Sin perder de vista que el objetivo nuestro es hacer buenas estimaciones, pasaremos
a definir qué es una distribución de muestreo de la media, ya que es el
fundamento de la estimación estadística y a la vez uno de los temas centrales de esta
lectura. Se hace necesario conocerla para resolver la situación problemática
planteada.
Ejemplo 1
Supongamos que tomamos muestras de un tipo de arandelas en una producción de
autopartes. Las muestras constan de 10 arandelas cada una. La población se
considera infinita por ser un proceso continuo. También supongamos que deseamos
medir el diámetro interior de la arandela. Al calcular la media y la desviación estándar
correspondiente a cada una de estas muestras, veríamos rápidamente que la media y
la desviación estándar de cada muestra son diferentes. Podemos definir entonces lo
siguiente.
“Una distribución de probabilidad de todas las medias posibles de las muestras es una
distribución de las medias de las muestras. Los especialistas en estadística la conocen
como distribución de muestreo de la media” (Levin y Rubín, 2004, p. 247).
Generalización
Ahora plantearemos un ejemplo teórico, no porque no se encuentre un caso práctico
para aplicar, sino porque habitualmente es tedioso y costoso comprobarlo.
Consideremos una población infinita o finita con un N lo suficientemente grande que
implique que una muestra extraída sin reposición no modificará las probabilidades
que tienen otras muestras de ser elegidas.
PÁGINA 4
Al desvío estándar de esta distribución de medias muestrales, se lo
denomina error muestral estándar. Cuanto más pequeño sea este valor,
menor será el error que se cometa cuando se infiera sobre la media poblacional
a través de la media de una muestra.
2. Varianza:
3. Desviación estándar:
Nota: esta es una situación ideal de una población muy pequeña, por eso, no se
considera N-1 en el denominador para la varianza y la desviación estándar (no se
PÁGINA 6
trata de una muestra).
También, podemos resumir los datos en una tabla de distribución de frecuencias para
poder luego ver la forma de la distribución de la población. Entonces, en la tabla 2 se
muestra la distribución de las frecuencias absolutas de la variable en estudio.
PÁGINA 8
En la figura 3, se graficó el histograma con las frecuencias respectivas,
correspondientes a la tabla 4. También se le asoció un polígono para ver la forma que
adopta la distribución de medias.
Puesto que tenemos una distribución de una variable aleatoria representada por la
media de cada una de las muestras, podemos calcular ahora algunos de sus
estadísticos. Los estadísticos convenientes a calcular según el caso que estamos
analizando son los siguientes.
Varianza: Var(x) =
Desviación estándar:
PÁGINA 9
Resumen:
Conclusiones parciales 1
Como conclusión, podemos decir que, si de la población se extraen todas las muestras
posibles de tamaño 2 y de cada una de ellas se determina su media, la distribución
generada con las medias de todas las muestras presenta las siguientes
características.
PÁGINA 10
ETAPA 6: DISTRIBUCIÓN DE MEDIAS MUESTRALES DE TAMAÑO N = 3
Con las medias de todas las muestras, podemos generar una nueva distribución que
denominaremos distribución de medias muestrales de tamaño 3 o distribución de
muestreo de la media. Recuerda que primero se ordenan los valores de la variable de
menor a mayor y luego se cuentan las veces que se repite (fi).
En la tabla 6, se muestra la distribución de las frecuencias absolutas de la variable
aleatoria. En este caso, la variable aleatoria es el promedio de los 3 sueldos
correspondientes a los tres vendedores que forman cada muestra.
PÁGINA 11
En la figura 4, se graficó el histograma con las frecuencias respectivas,
correspondientes a la tabla 6. También se le asoció un polígono para ver la forma que
adopta la distribución de medias.
Desviación estándar:
Resumen:
PÁGINA 12
CONCLUSIONES PARCIALES 2
La media de la distribución de las medias de todas las muestras posibles de n =
3 elementos cada una de ellas es igual a la media de la población, lo que también
ocurría en el caso de n = 2.
Del análisis del ejemplo 2 y la tabla 7, podemos extraer las siguientes conclusiones.
Las conclusiones extraídas del análisis realizado con las distribuciones de las medias
muestrales a medida que se aumenta el tamaño de la muestra nos llevan al
enunciado del teorema fundamental de la estadística inferencial: el teorema del
límite central.
PÁGINA 13
posibles del mismo número de elementos n en cada una de ellas y de cada muestra
obtenemos su media , la distribución de todas esas medias tendrá una distribución del
tipo normal, independientemente del tipo de distribución que sea la población, con
una media x̿ igual a la media poblacional μ y un desvío estándar menor al desvío
estándar poblacional, el cual es denominado error muestral estándar. Su valor es
igual a (cociente entre el desvío estándar poblacional sobre la raíz cuadrada de n:
tamaño de muestra). Entonces, para calcular el error estándar se utiliza la siguiente
fórmula.
Repasa las conclusiones generales del tema anterior y podrás confirmar todas estas
afirmaciones.
Lo que es lo mismo:
Factor de corrección
Si estamos frente a una población finita, es necesario introducir un factor de
corrección para poblaciones finitas. Para el cálculo del error estándar, sería lo
siguiente.
Por lo tanto, la fórmula de cálculo para el error estándar en caso de que la población
sea finita es:
Para n = 2
PÁGINA 14
2. El error estándar por teorema del límite central, aplicando en este caso el factor
de corrección para poblaciones finitas, sería (ver etapa 1 del ejemplo 2):
Para n = 3
El error estándar por teorema del límite central, aplicando en este caso el factor
de corrección, sería:
Como puede comprobarse, los errores estándar en ambos casos dan iguales. Por
tanto, el teorema del límite central nos permite extraer una muestra representativa
de una población e inferir a partir de los estadísticos (la media y la desviación
estándar, en este caso) los parámetros poblacionales correspondientes, con un cierto
grado de error manejable.
Por otra parte, la media de dicha distribución de medias coincide con la media
poblacional, la cual es desconocida.
Además, la media de la muestra diferirá respecto a la media de la distribución
muestral en: .
PÁGINA 15
Así, en la figura 5 tenemos la descripción del caso de la productora de té. Se puede
observar cómo quedaría la distribución de medias muestrales con forma acampanada.
Además, encontramos media poblacional y la diferencia entre cualquier media
muestral y la media poblacional.
si:
PÁGINA 16
Por último, buscamos en la tabla de la distribución normal acumulada:
Pregunta b)
Acá se quiere saber cuál será la probabilidad de que el consumo medio de la muestra
supere al consumo promedio poblacional en más de 0,75 kg. Si la media poblacional
es desconocida, podemos plantear lo siguiente.
ACTIVIDADES DE REPASO
el valor esperado de ;
la desviación estándar de ;
PÁGINA 18
Solo se le agrega el factor de corrección.
Para la obtención y análisis del estadístico tendremos presente que el teorema del
límite central puede ser aplicado para las proporciones. Por lo tanto, si de una
población con una proporción p (de los elementos con la característica en estudio) se
extraen todas las muestras posibles del mismo tamaño y de cada muestra se
determina la proporción, con las proporciones de todas las muestras posibles se
genera una distribución de proporciones muestrales que será normal, ajustándose a
las pautas ya mencionadas de las medias muestrales. Además, la media de esa
distribución de proporciones será igual a la proporción de la población y el desvío
estándar de la distribución de proporciones muestrales será igual a
PÁGINA 20
0,60 + 0,05] o [0,55; 0,65]. Dicho de otra forma, ¿cuál es la probabilidad de obtener
una muestra en la que el valor de esté entre 0,55 y 0,65?
Importante
Se puede verificar analizando las fórmulas respectivas que si se aumenta el tamaño
de la muestra, el error estándar de la proporción disminuye y la probabilidad de que
la proporción muestral no esté más allá del 5 % de la proporción de la población
aumenta.
ACTIVIDADES DE REPASO
Si la proporción poblacional de votantes del partido A en una ciudad es 0,35, calcula
el error estándar de la proporción de votantes del partido para los tamaños de
muestra 100 y 700. ¿Qué puedes decir acerca del tamaño del error estándar a medida
que el tamaño de la muestra aumenta? Justifica, calculando los valores involucrados
en el problema.
PÁGINA 21
ESTIMACIÓN Y ESTIMADORES
INTRODUCCIÓN
El hombre permanentemente se encuentra haciendo estimaciones. Estima el gerente
de marketing las ventas del próximo mes, estima el gerente de producción la
cantidad de mano de obra necesaria para un período de producción, el gerente de
una entidad bancaria efectúa una estimación sobre el cumplimiento de un cliente
para el otorgamiento de un crédito o un descubierto, estima el ama de casa las
cantidades de comestibles necesarios para que toda la familia sea satisfecha con una
comida, entre una infinidad de ejemplos. Es en función de esas estimaciones que se
decide.
Recuerda cómo definíamos la estadística inferencial. Quedaba claro que el objetivo
final era el de inferir algo acerca de una población a partir de la información adquirida
de una muestra. La inferencia, entonces, se hace a través de estimadores. En esta
lectura, hablaremos de los estimadores, es decir, la medida que se calcula en la
muestra para inferir esa medida en la población.
1 17 999
2 17 000
3 18 000
4 16 550
5 17 560
6 16 480
7 17 000
PÁGINA 22
8 18 000
9 16 599
10 23 000
11 22 500
12 20 300
13 19 900
14 19 999
15 18 999
16 18 000
17 17 800
18 18 889
19 18 800
20 17 500
21 18 900
22 17 999
23 16 900
24 18 800
25 17 500
26 18 900
27 17 999
28 16 900
29 22 500
30 20 300
31 18 900
PÁGINA 23
32 17 999
33 16 900
34 16 550
35 17 560
1. ESTIMACIÓN
¿Qué es la estimación?
Venimos diciendo que la base de la inferencia estadística es la estimación. La mayoría
de las aplicaciones actuales de la estadística se relacionan con la obtención de
conclusiones referidas a la población, a partir de la evidencia recogida en una
muestra correspondiente a una pequeña porción de casos. Algunos ejemplos son las
siguientes situaciones:
Como primer paso en este estudio de la estadística inferencial, nos detendremos (en
esta lectura) en las diferentes técnicas que permiten dar como plausible un valor de
un parámetro poblacional de interés. De estos parámetros a estimar, los más
comunes son:
la media poblacional;
la varianza poblacional;
la proporción poblacional;
PÁGINA 24
las entre medias o entre proporciones.
Algunos estadísticos son mejores estimadores que otros. Gracias a algunos criterios
que mencionaremos a continuación, podremos evaluar cuáles son los que tienen
mayor calidad para estimar el parámetro poblacional correspondiente.
1) imparcialidad (insesgada);
2) eficiencia;
3) consistencia;
4) suficiencia.
Algunos autores muestran otras propiedades, todas son importantes, pero como
objetivo de esta lectura definiremos estas cuatro. Aun así, te animo a que profundices
el tema con los elementos de lectura que se indican más adelante. Igualmente,
puedes profundizar en las demostraciones de estas propiedades para poder comparar
cuáles de los estimadores son más adecuados que otros.
1. Imparcialidad
Decimos que un estimador es imparcial o insesgado cuando su valor esperado
coincide con el parámetro poblacional que estima. Dicho de otra forma, sucede si la
media de la distribución del estimador es igual al parámetro.
Ejemplo 3. Seguimos con el caso de las varas de madera, pero si la mediana son 2
cm, la media de las medianas de todas las muestras tomadas no necesariamente
tiene que dar igual.
2. EFICIENCIA
Un estimador es eficiente si en promedio se acerca más al parámetro estimado que
cualquier otro estimador. La media muestral cumple este requisito para la media
poblacional, ya que tiene la mínima varianza entre los estimadores de la media
poblacional. La eficiencia se refiere al tamaño del error estándar del estadístico.
Tiene sentido pensar que un estimador con un error estándar menor (con menos
variación) tendrá mayor oportunidad de producir una estimación más cercana al
parámetro poblacional que se está considerando.
3. CONSISTENCIA
Decimos que un estimador es consistente si a medida que se aumenta el tamaño de
la muestra, el estimador se aproxima sistemáticamente al valor del parámetro
poblacional. Al aumentar el tamaño de la muestra cada vez más, las diferencias entre
la media muestral y la media poblacional se van haciendo más reducidas. El
cumplimiento de estas propiedades hace de la media muestral el mejor estimador de
la media poblacional.
PÁGINA 27
Si un estimador es consistente, se vuelve más confiable al tener tamaños de muestra
más grandes. No obstante, hay un factor de riesgo. Tienes que contemplar la
posibilidad que surge al aumentar el tamaño de la muestra, ya que allí obtendrás
mayor información sobre el parámetro poblacional que deseas estimar, pero debes
asegurarte de la consistencia del estadístico o estimador, porque de lo contrario
desperdiciarás tiempo y dinero si decides hacer un muestreo grande, es decir,
tomando tamaños grandes de cada muestra.
4. SUFICIENCIA
“Un estimador es suficiente si utiliza tanta información de la muestra que ningún otro
estimador puede extraer información adicional acerca del parámetro de población que
se está estimando” (Levin y Rubín, 2004, p. 276).
Enunciado 1
¿Qué papel juega la consistencia de un estimador en la determinación del
tamaño de la muestra?
El estimador es más consistente cuanto mayor sea el tamaño de la muestra.
Justificación: la respuesta correcta es «el estimador es más consistente cuanto mayor
sea el tamaño de la muestra». El tamaño de la muestra está inversamente
relacionado con la desviación estándar de la muestra. Por ello, si disminuye, el
estimador se acercará al verdadero parámetro de la población y esto ocurre cuando la
muestra aumenta.
Enunciado 2
¿Puede decirse que un estimador de la media es insesgado cuando la diferencia entre
su esperanza matemática y la media poblacional es igual a cero?
Verdadero
Justificación: la respuesta correcta es verdadero. Para que un estimador sea
insesgado o imparcial, su esperanza matemática debe ser igual al parámetro que está
estimando.
4. ESTIMACIÓN PUNTUAL
Tipos de estimaciones
Ya hemos estudiado que la inferencia estadística utiliza los datos muestrales para
inferir los parámetros poblacionales, es decir, podemos estimar el valor de un
parámetro poblacional -de una característica de la población- con los datos de la
muestra. A estos datos se los conoce como estadísticos muestrales.
Estimación puntual
Es cuando al parámetro le asignamos un valor único, un número que se utiliza para
estimar un parámetro desconocido de la población. Si bien la experiencia y los datos
históricos pueden ayudar a hacer buenas estimaciones puntuales, consideraremos
como estimadores puntuales a los estadísticos que obtenemos de una muestra
representativa de la población.
En otras palabras, a este número, por lo general, lo obtenemos a través de una
fórmula. Se desarrolla a continuación.
PÁGINA 29
La desviación estándar de la muestra s, puede ser un estimador puntual de la
desviación estándar de la población σ.
La proporción de la muestra p, puede ser un estimador de la proporción de la
población π. Al estimador de la proporción de la muestra, se lo designa con .
Aunque no se solicite, puede ser más útil en este problema extraer la raíz cuadrada
de la varianza y así obtener la desviación estándar de la muestra, un buen estimador
de la desviación estándar poblacional (de lo contrario quedarían las unidades
PÁGINA 30
elevadas al cuadrado):
Enunciado 3
En una muestra de 400 trabajadores gastronómicos, 124 de ellos se mostraron
insatisfechos por las condiciones sanitarias en las que trabajaban. Determina la
proporción poblacional a través de una estimación puntual de la proporción de
trabajadores que se mostraron satisfechos por las condiciones de trabajo.
Enunciado 4
La siguiente es una muestra aleatoria de los cobros en pesos de una empresa
telefónica por 15 llamadas realizadas en un día determinado a un programa televisivo
para votar en un reality show: 4, 12, 3, 4, 5, 7, 8, 24, 35, 2, 20, 8, 24, 34 y 12. ¿Qué
parámetros poblacionales pueden estimarse puntualmente con esta muestra?
Dejando de lado todas las definiciones, la razón para estudiar los estimadores es
aprender acerca de las poblaciones mediante el muestreo, sin contar cada elemento
de la población. Por supuesto, tampoco en este caso el viaje es gratis y al decidir no
PÁGINA 31
contar todo, se pierde cierta exactitud. Los administradores desearían saber la
exactitud que se logra cuando se hace un muestreo y si usamos las ideas de este
capítulo, podemos decírselo. Los estadísticos pueden establecer cómo se comporta el
error estándar conforme aumenta o disminuye el tamaño de la muestra y los
investigadores de mercados pueden determinar el costo de tomar más muestras o
hacerlas más grandes; pero deberá usar su propio juicio para combinar estos dos
datos y tomar una decisión gerencial correcta. (Levin y Rubín, 2004, p. 280)
Introducción
Sin embargo, son muy utilizadas las estimaciones por intervalos de confianza, tanto
para la media como para la proporción.
3) ¿Por qué un valor de 2,02 litros de bebida en una sola botella no es inusual?
PÁGINA 32
4) ¿Cuál es el error estándar de la distribución de medias muestrales?
Una estimación puntual, como dijimos, es insuficiente, ya que solo podemos decir que
es correcta o incorrecta. Es mucho más útil si está acompañada por una estimación
del error que podría cometerse en la inferencia.
Por eso, es necesario tener en cuenta que, debido a la variabilidad de muestreo, los
estadísticos no coincidirán con los parámetros poblacionales.
Por tal motivo, se calcula una estimación por intervalo. Este intervalo se construye
al sumar y restar al estimador puntual un valor llamado margen de error que
designamos con E.
Por lo tanto, la fórmula general de una estimación por intervalo es la siguiente:
Estimación puntual ± E
Este margen es el que está dispuesto a aceptar el investigador o la persona que
realiza el estudio estadístico.
La medida de la probabilidad que el valor del parámetro esté dentro del intervalo:
[estimación puntual –E ; estimación puntual +E], puede estimarse con más precisión.
De esta manera, tendremos una mejor idea de la confiabilidad de la estimación y se
podrán tomar mejores decisiones.
PÁGINA 33
FIGURA 1: VISUALIZACIÓN DE UN INTERVALO DE CONFIANZA PARA LA MEDIA EN UN CASO
GENERAL
Pero a este valor de 𝛼 = 0,05 hay que dividirlo en dos partes iguales, para buscar
en la tabla el valor de z correspondiente. Por lo que 𝛼/2 = 0,05/2 = 0,025.
Según el tipo de tabla que se utilice es fácil comprobar que, para un área de 0,025,
el valor de z para la cola superior es 1,96.
Los niveles de confianza más utilizados son los que se muestran en la tabla 1.
PÁGINA 35
TABLA 1: VALORES DE Z PARA LOS PRINCIPALES NIVELES DE CONFIANZA
Descripción: se muestran los niveles de confianza más utilizados, con los
correspondientes valores de z que muestran la tabla de la distribución normal
estándar.
90 % 1,645
95 % 1,96
98 % 2,33
99 % 2,575
El máximo error permitido para estimar la media poblacional con una confianza del
95% es de 0,0098.
PÁGINA 36
Por lo tanto, para determinar un intervalo de confianza para la estimación de la media
poblacional, será necesario:
Decir que σ es conocida significa que se cuenta con datos históricos o con otra
información que permita obtener una buena estimación de la desviación estándar
antes de tomar la muestra que se usará para obtener la estimación de la media
poblacional. De manera que, técnicamente, esto no significa que σ se conozca con
seguridad. Lo que significa es que solo se obtuvo una buena estimación de la
desviación estándar antes de tomar la muestra.
Solución:
a. . Según la tabla 1, el valor de z para una confianza del 98% es z = 2,33.
Entonces:
PÁGINA 37
Es decir que el máximo error permitido para una confianza del 98% es 41,31
b.
Recuerda:
En este caso, no aplicamos el factor de corrección para poblaciones finitas, pues la
población se considera infinita.
Ejemplo 2
Solución
PÁGINA 38
Entonces:
Es decir que el máximo error permitido para una confianza del 95% es 840,17.
b.
CONCLUSIONES IMPORTANTES
PÁGINA 39
¿Qué significa que sea exacto? Que, si esa fórmula se usa repetidas veces para
generar intervalos de, por ejemplo, el 95% de confianza, exactamente 95 de 100 de
esos intervalos contendrán a la media poblacional.
Según lo estudiado hasta aquí, podemos presentar el siguiente cuadro como resumen
de los casos planteados para saber las fórmulas que se utilizan cuando la desviación
estándar es conocida o desconocida, en los casos de poblaciones finitas e infinitas.
PÁGINA 40
ACTIVIDADES DE REPASO DE LECTURAS
Enunciado 1:
¿Cómo le explicarías a tu jefe que las baterías de un automóvil tienen una duración
entre 33,56 meses y 35,23 meses, con una confianza del 99 %, si has realizado todos
los cálculos correctamente?
Enunciado 2:
La amplitud del intervalo de confianza aumenta a medida que el nivel de confianza
aumenta.
PÁGINA 41
del intervalo, pues nos estamos permitiendo un error mayor para asegurarnos que el
intervalo contenga a la media poblacional.
Para la obtención y análisis del estadístico tendremos presente el Teorema del Límite
Central, que también se aplica, como vimos, a las proporciones. Pues también la
distribución de muestras de la proporción tiende a una normal cuando n ≥ 30.
PÁGINA 42
comenzaremos por obtener una estimación por intervalo para la proporción
poblacional a partir de la proporción muestral .
Entonces:
Los grados de confiablidad más utilizados son los mismos que los utilizados para
estimar la media poblacional y se encuentran en la tabla 1: de: 90%, 95%, 98%
y 99%.
PÁGINA 43
Si comparamos las fórmulas en el caso del límite inferior y superior de confianza, con
las que necesitamos para estimar la media, solo tendremos que cambiar el error
estándar poblacional.
Límite inferior de confianza:
Estimación
de (porpo
rción de la
población),
cuando
n ≥ 30 y
Ejemplo 3:
La caja de jubilaciones de una provincia de la Argentina ha determinado que de los
últimos 100 empleados públicos que deciden iniciar los trámites de jubilación sin
recurrir a ningún gestor es del 40%.
PÁGINA 44
Se solicita determinar:
a. puntualmente, la proporción poblacional de empleados que encaran personalmente
su jubilación; y
b. que se genere un intervalo de confianza que contenga a la proporción poblacional
con una bondad del 95 %.
Entonces:
Datos:
n = 120
z = 2,575 para un 99% de confianza
PÁGINA 45
Entonces:
Calculemos, primero, el margen de error:
PÁGINA 46
1. Una estimación de intervalo de confianza del 95 % de la media poblacional de la
cantidad de bebida contenida en cada botella.
Entonces, podremos utilizar s para estimar σ y así también estimar el error estándar y
el intervalo de confianza para la media poblacional.
PÁGINA 47
¡Importante! Debes tener presente que la distribución t supone que la distribución de
la variable aleatoria x es normal o aproximadamente normal.
3. GRADOS DE LIBERTAD
En esta lectura, utilizaremos siempre los grados de libertad con la fórmula gl=n-1,
donde n es el tamaño de la muestra.
PÁGINA 48
Cuando expliquemos la tabla de la distribución t, verás cómo buscar los grados de
libertad en esta.
CARACTERÍSTICAS DE LA DISTRIBUCIÓN T
PÁGINA 49
En la siguiente figura, se muestran los gráficos de la distribución normal (línea roja) y
la distribución t (línea azul) para 15 grados de libertad.
PÁGINA 50
Figura 5: Comparación de la distribución normal estándar con las
distribuciones t con distintos grados de libertad
Conclusiones:
PÁGINA 51
intervalo de confianza que se está construyendo, como veremos seguidamente
en un ejemplo.
Ejemplo 1:
Se desea estimar un intervalo de confianza del 95 % con una muestra de tamaño 10.
Determinar los valores de t crítico utilizando las dos tablas que se presentan.
En esta figura, se observa que, en la distribución t –en este caso para 9 grados de
libertad–, la parte central ocupa la confianza del 95 %. Como es simétrica, las colas
superior e inferior que quedan son de igual área. Para buscar los límites del intervalo,
tenemos que encontrar el valor de t crítico al dividir por 2 el área restante.
PÁGINA 52
En esta figura, se busca el valor de los grados de libertad en las filas, en este caso, los
grados de libertad son n-1=10-1=9. En las columnas, se busca el área de
probabilidades que está en la cola superior que, según el diseño de la tabla, es igual
a: , y el valor crítico de t encontrado es, para este ejemplo: 2,262.
PÁGINA 53
Pero a este valor de hay que dividirlo en dos partes iguales, para
buscar en la tabla el valor de t correspondiente, ya que esta solo muestra, como
Al igual que en la tabla de z, el valor encontrado, en este caso t = 2,262, indica que a
por la curva, queda encerrado el del área bajo la curva t. Mientras que a la
PÁGINA 54
Para practicar, busquemos el t crítico con la otra tabla, a dos colas y razonemos qué
valor nos da la tabla.
Ahora, se busca el valor de los grados de libertad en las filas, en este caso, los grados
de libertad son n-1 = 10-1 = 9. En las columnas, se busca el área de probabilidades
que está en las dos colas, es decir, α=0,05, el valor crítico de t encontrado es 2,262.
Vemos que el valor de t crítico nos da igual que en la otra tabla, solo que, en esta,
tenemos que buscar la suma de las probabilidades de ambas colas restando 1-
0,95=0,05, sin dividirlo en dos.
ELEMENTOS DE LECTURA
PÁGINA 55
1. TABLA DE LA DISTRIBUCIÓN T (SEGÚN LA PROBABILIDAD DE LA COLA
SUPERIOR). APÉNDICE TABLAS, P. 980
Fuente: Anderson, D. R.; Sweeney, D. J.; Williams, T. A. (2012). Estadística para
Administración y Economía. México: Ed. Cengage Learning Editores S. A.
n=20 botellas
x=1,99 litros
s=0,06 litros
Por lo que:
Además, si la muestra es de 20 botellas, los grados de libertad son n-1=20-
1=19 grados de libertad.
En esta figura, se busca el valor de los grados de libertad en las filas, en este caso, los
grados de libertad son n-1 = 20-1 = 19. En las columnas, se busca el área de
PÁGINA 56
probabilidades que está en la cola superior que, según el diseño de la tabla, es igual
Comprueba que, utilizando la tabla a dos colas, te da el mismo resultado, para gl=19
y la probabilidad de: 1-α=0,05.
PÁGINA 57
Esta fórmula indica que puede utilizarse la desviación estándar de una muestra para
estimar la desviación estándar de una población.
Error estándar estimado de la población
Esta fórmula nos permite calcular un error estándar (estimado) de la media de una
población infinita a partir de una estimación de la desviación estándar de la población.
Importante: en el caso de que la población sea finita frente a la muestra, se deja a
criterio del investigador agregar el factor de corrección para poblaciones finitas o
recurrir a otros métodos.
En este curso, en caso de que la distribución a utilizar sea t, solo utilizaremos
poblaciones infinitas frente a la muestra al utilizar la distribución t.
Significa que el intervalo [1,9619 litros; 2,0181 litros] atrapa a la media poblacional
del llenado en litros de las botellas, con un 95 % de confianza.
La amplitud del intervalo es de 2,0181 - 1,9619 =0,0562
Datos:
PÁGINA 59
Significa que el intervalo [1,968 litros; 2,012 litros] atrapa a la media poblacional del
llenado en litros de las botellas, con un 95 % de confianza.
La amplitud del intervalo es de: 2,012 - 1,968= 0,044 litros.
PÁGINA 60
Si estamos frente a una población finita (n ≥ 0,05N) es necesario introducir un
factor de corrección para poblaciones finitas, para el cálculo del error
estándar:
Fíjate que este error es siempre menor que 1 (pues el numerador de la fracción (N-n)
será menor que el denominador (N-1). Su aplicación reducirá el error estándar, lo que
hará las estimaciones más exactas.
PÁGINA 61
ACLARACIONES SOBRE LAS FÓRMULAS DE LA FIGURA 11
(*) Para este caso solo consideraremos –en este curso– poblaciones infinitas
frente a la muestra. Además, recuerda el supuesto de que la población debe ser
normal o aproximadamente normal para aplicar estos extremos para calcular el
intervalo de confianza para la media poblacional.
PÁGINA 62
FIGURA 12: FÓRMULAS PARA INTERVALOS DE CONFIANZA EN LA ESTIMACIÓN DE
LA PROPORCIÓN POBLACIONAL
(*) Para la estimación de la proporción poblacional, debe verificarse que tanto n.p ≥5
y n.(1-p) ≥5, recuerda que 1 – p =q , la probabilidad de rechazo.
ACTIVIDADES DE REPASO
Si se quiere estimar un intervalo de confianza del 90 % para la media poblacional de
una muestra de 12 elementos, ¿qué probabilidad debe buscarse en la columna de la
tabla t de cola superior? ¿Cuál es el valor del t crítico?
A) correcto
PÁGINA 63
Los datos muestrales siguientes provienen de una población normal: 15; 13;
11; 10; 8; 12; 5; 6 ¿Cuál es el margen de error para la estimación de la
media poblacional, con un 95 % de confianza?
E = 2,9
Fuente: Badii, M. H.; A. Guillen (s. f.). Estimaciones Estadísticas. En Revista Daena:
International Journal of Good Conscience 5(1), pp. 237-255. Recuperado de
https://www.studocu.com/es-ar/document/universidad-empresarial-siglo-21/
herramientas-matematicas-v-estadistica-ii/21-estimaciones-estadisticas/11680125
INTRODUCCIÓN
Muchas veces, cuando alguien que no es experto en estadística tiene que tomar una
muestra, la pregunta que se hace es ¿de qué tamaño tomo la muestra? Pero, por
sentido común, sabe que quiere que el error en la inferencia sea pequeño. Es decir,
desea que el proceso de la inferencia del estadístico al parámetro poblacional sea lo
más preciso posible.
De esto se trata esta lectura y créeme que la vas a utilizar mucho en tu vida
profesional.
PÁGINA 64
¿CÓMO OBTENER EL TAMAÑO DE LA MUESTRA PARA OBTENER UN MARGEN
DE ERROR DESEADO?
Ya hemos estudiado, en lecturas anteriores, la relación del tamaño de la muestra con
el intervalo de confianza para la media y la proporción. Sabemos cómo influye y qué
relación tiene con el resto de los valores del intervalo de confianza.
Delicity es una cadena de casas de té que opera en el país desde hace 10 años. Ha
realizado un estudio de mercado en la Ciudad de Córdoba para ver si es conveniente
instalarse. Ha tomado una muestra representativa de locales en alquiler y se encontró
con que, en promedio, los alquileres estaban en $ 8500 mensuales con una
desviación estándar de $ 1500.
Ahora, Delicity quiere realizar un nuevo estudio para estimar la media poblacional de
los alquileres, pero, esta vez, especificó el margen de error que puede aceptar que es
de $ 500 y el nivel de confianza en investigación que es del 95 %. La empresa te pide
que determines el tamaño de la muestra para estimar la media poblacional, utilizando
la desviación estándar del estudio previo realizado.
Antes de comenzar con el caso de Delicity, observemos algunos otros ejemplos que
servirán como base para explicar el tema
Ejemplo 1
Una empresa petrolera está haciendo una investigación sobre el precio promedio de
venta al público de la nafta Súper en todo el país, en el primer trimestre del año
pasado. Los datos históricos registran que la distribución de precios es,
aproximadamente, normal y que la desviación estándar de la población (todas las
empresas que operan en el país tanto nacional como provincialmente) durante ese
lapso, es de $ 12. ¿Qué tamaño tiene que tener la muestra si la petrolera quiere
estimar la media del precio al público de la nafta Súper, vendida en ese trimestre,
sabiendo que está dispuesta a aceptar un margen de error de ± $ 10, con un nivel de
confianza del 95 %?
En otras palabras, la petrolera desea tomar una muestra para estimar la media
poblacional.
Para esto, calculará la media de la muestra x y la utilizará como estimador puntual de
la media poblacional.
Pero quiere tener una certeza del 95 % de que esa media (precio promedio) no
exceda los ± $ 10 de la estimación puntual, es decir que esté por arriba o por debajo
de la estimación puntual.
PÁGINA 65
RESOLUCIÓN DEL EJEMPLO 1
Sabemos que:
El límite inferior de confianza está dado por:
El límite superior de confianza está dado por:
Además a: se lo denomina error permitido (E) o margen de error, que es el
error que el investigador está dispuesto a aceptar.
Por lo tanto:
Pero el error esperado, en nuestro ejemplo 1 es ± $ 10
En general:
(El tema de escribir α/2 como subíndice de z, fue explicado en la lectura anterior, por
lo que te remitimos a la lectura 3 para que lo repases si no lo tienes presente).
Despejamos n:
Aclaraciones:
PÁGINA 67
3. Observa que n es inversamente proporcional al margen de error E.
Datos:
E= $ 500
Para un 95 % de confianza, z = 1,96
ACTIVIDAD DE REPASO
PÁGINA 68
¿Qué tan grande debe ser la muestra seleccionada para tener un intervalo
de confianza de 95 % con un margen de error de 10? Supongamos que la
desviación estándar poblacional es 40.
n = 62
n ≥ 62
La muestra tiene que ser de por lo menos 62 elementos
PÁGINA 69
Hay varios casos que se pueden presentar al querer calcular el tamaño de la muestra
para estimar la proporción poblacional. Te mostraremos, a continuación, los dos casos
más comunes.
Despejamos n:
PÁGINA 70
Iniciamos la resolución igual que en el ejemplo 2:
Era de esperarse que nos encontremos con este problema, ya que queremos estimar
el valor poblacional de p mediante un tamaño de muestra que estamos buscando.
Nos encontramos con que nos faltan datos para calcular n, necesitamos una
estimación de los parámetros p y q de la población.
Si tenemos una buena idea de la proporción real de votantes del candidato, podemos
utilizarla como nuestra mejor estimación de p para calcular n.
Pero, si no tenemos idea del valor de p, entonces, nuestra mejor estrategia es darle
un valor de una forma conservadora: esto es que n sea lo suficientemente grande
para darnos, al menos, la precisión que necesitamos sin importar el verdadero valor
de p.
La manera de obtener la n más grande es generando el numerador más grande
posible de la expresión a la que arribamos, esto sucede cuando elegimos p=0,5 y
q=0,5
La diferencia con el resto de las opciones de p y q cercanas a 0,5 no son significativas,
pero esta es la más segura si desconocemos la proporción poblacional.
Entonces: si tomamos p=q=0,5
Es decir que para tener una seguridad del 90 % de que estimamos la proporción
verdadera dentro de 0,04, debemos escoger una muestra aleatoria simple de 434
PÁGINA 71
votantes para entrevistar.
Observa que la diferencia con el ejemplo 2 no es grande, esto se mantiene si le
damos a p el valor entre 0,3 y 0,7.
Como no tenemos datos previos de p y q, los estimamos. Los valores de p y q que nos
da el tamaño máximo de la muestra, de manera tal que se cumplan los criterios de
error y confianza, son:
Sustituimos en la fórmula de n:
Para tener una seguridad del 99 % de que estimamos la proporción verdadera dentro
de un margen de error del 10 %, debemos escoger una muestra aleatoria simple de
167 potenciales clientes.
Ya vamos terminando la lectura, pero antes de hacer la actividad de repaso y
refuerzo, te invito a leer este comentario que hacen los siguientes autores, en la que
relacionan el tamaño de la muestra con la desviación estándar. Es muy práctico
e interesante.
ACTIVIDAD DE REPASO
Para estimar la proporción poblacional con un margen de error determinado
y una certeza dada, el error permitido se hace cada vez más grande a
medida que aumentamos el tamaño de la muestra.
Falso, porque al permitir un error más grande la muestra se hace cada vez más
pequeña.
☰ Estimación y estimadores
En esta lectura continuamos con el tema estimación, pero ahora el tipo de estimación será por
intervalos para la media y para la proporción de una población. Se repasará el tema de error estándar
para poblaciones finitas e infinitas, en el caso que se conozca la desviación estándar poblacional.
Aquí estudiamos qué sucede cuando queremos estimar mediante un intervalo de confianza la media
poblacional y no tenemos la desviación estándar (o la varianza) poblacional, pues solo contamos con
los datos que nos proporciona la muestra. Se introduce el estadístico t y su distribución y la
comparamos con z. Utilización de la tabla t de Student. Además, repasamos el tema de la elección del
tamaño de la muestra (tema vistos en Estadística I).
INTRODUCCIÓN
El objetivo es satisfacer necesidades de sus clientes, pero sin que quede mucho
dinero inactivo, pues el banco se privaría de la oportunidad de invertir.
El tesorero de la Casa Central sabe por experiencia que, en promedio, los clientes
retiran como máximo U$S 120 por fin de semana, pero está dispuesto a someter su
juicio a una prueba de hipótesis.
PÁGINA 74
Para ello, se selecciona una muestra aleatoria de 20 transacciones durante un fin de
semana determinado en toda la ciudad. La selección de la muestra se realiza con un
método que asegure su aleatoriedad. Los datos muestrales arrojan un promedio de
extracciones de U$S 115, con una desviación estándar de U$S 12. ¿Existe evidencia
suficiente para afirmar la idea que tiene el tesorero del Banco?
Se te solicita lo siguiente:
Nos referimos a una hipótesis que pueda ser contrastada y que, además, permita
medir la probabilidad del error que se cometería cuando se hace una afirmación sobre
la población en estudio. Es decir, una hipótesis que nos permita medir la fuerza de la
evidencia, ya sea a favor o en contra de alguna hipótesis de interés sobre la
población.
Para poder dar una respuesta a estos interrogantes, nos basamos en la lógica que
tienen las pruebas de hipótesis:
PÁGINA 75
afirmación. El estadístico utilizado para esto se denomina estadístico de
prueba.
Figura 1: se muestra el error posible: considerar que no hay nada o nadie por no
observarlo en la muestra.
PÁGINA 76
2) Otro ejemplo interesante es un juicio, donde se está analizando la culpabilidad o
inocencia de un acusado de un crimen. En este proceso se intenta reunir pruebas para
determinar la culpabilidad o inocencia del acusado. La decisión que se tome en base a
la evidencia (muestral, de las pruebas) puede ser correcta, si se lo declara inocente y
efectivamente no cometió el crimen. También es correcta si el acusado es culpable y
el veredicto así lo determina.
Figura 2: en este caso, la muestra podría ser la evidencia reunida por la fiscalía (o
por los querellantes, de acuerdo con las reglas del proceso legal) o las coartadas del
acusado.
Estas dos situaciones reflejan errores que nos harían pensar en “injusticias” en una
situación de juicio.
Los sistemas de justicia están diseñados de acuerdo a cuál de estos errores se desee
minimizar, por ejemplo, “nadie es culpable hasta que se pruebe lo contrario”, o
cuando un acusado debe “demostrar su inocencia”.
3) La siguiente situación es una de las que más nos interpela cotidianamente como
estudiantes, en tu caso, y como docente, en el mío: establecer a través de un examen
o evaluación si los alumnos comprendieron o aprendieron una serie de temas.
Permanentemente en el sistema educativo estamos emitiendo este tipo de juicios,
basados en la evidencia de muestras. Las evaluaciones mismas son muestras donde
se han seleccionado temas del conjunto total de tópicos incluidos en el temario a
evaluar así como ejercicios o competencias que resultan de interés. Si mediante una
evaluación se aprueba a un alumno que efectivamente conoce o comprende los
temas, estamos tomando una decisión correcta, al igual que si se reprueba a quien no
sabe los contenidos. Los problemas aparecen si un alumno que sabe los contenidos es
reprobado en la evaluación, o bien, si se aprueba a quien realmente no los conoce. Es
PÁGINA 77
por esto que también los docentes suelen definir sus estrategias evaluativas, a los
fines de minimizar el error que consideran más grave o dañino de los dos.
El acusado será considerado inocente hasta tanto las pruebas presentadas por el
fiscal demuestren lo contrario.
Haciendo una analogía con la prueba de hipótesis, la hipótesis nula asume el papel
del acusado en el juicio y el investigador el papel de fiscal.
Simbolizaremos la hipótesis nula como H0. Se denomina nula en el sentido que supone
que no existe diferencia real entre el verdadero valor del parámetro de la población
de la que hemos obtenido la muestra y el valor hipotetizado (supuesto de inocencia).
Si la hipótesis nula es falsa, deberá existir otra hipótesis que sea verdadera. Esta
hipótesis recibe el nombre de hipótesis alternativa.
PÁGINA 78
En la hipótesis nula siempre aparece un igual (ya sea un igual estricto, un mayor o
igual o un menor o igual) referido a cierto valor del parámetro.
EJEMPLO 1:
El jefe de producción de una empaquetadora de arroz ha recibido devoluciones de
algunos clientes. Las bolsas deben pesar en promedio 995 gr. y está seguro de que es
así. Para poner a prueba su suposición, selecciona una muestra aleatoria de 25 bolsas
y pesa a cada una. Si la información que provee la muestra brinda evidencias de que
el proceso no está funcionando como corresponde, se tomarán las acciones
correctivas necesarias para que el mismo se encuentre bajo control estadístico.
Determina la hipótesis nula y la alternativa.
H0: µ = 995
H₁: µ ≠ 995
Observa:
Las hipótesis se plantean siempre sobre la población
Ambas hipótesis son complementarias
EJEMPLO 2:
El jefe de producción está preocupado por el exceso de peso en las cajas de cereales.
Para poner a prueba su suposición, selecciona una muestra aleatoria de 25 bolsas y
pesa cada una. Si no fuesen de 995 gr., como se declara en el envase, estarían
perdiendo dinero y el proceso no funcionaría bajo estos términos. Determina la
hipótesis nula y la alternativa.
Como dijimos que la hipótesis nula asume el rol del acusado y que este es inocente
(pesan 995 gr. o menos) hasta que se demuestre su culpabilidad (pesan más de 995
gr.), la hipótesis nula y la alternativa, deberán expresar:
H0: µ ≤ 995
H₁: µ > 995
PÁGINA 79
Ahora el jefe de producción está sospechando que, evidentemente, el promedio de los
paquetes de arroz es menor al que asegura. Quiere poner a prueba si realmente el
promedio de pesajes de las bolsas coincide con lo que tiene que ser (995 gr.) y no
pesan menos que ese promedio. Selecciona una muestra aleatoria de 25 bolsas y
pesa a cada una de ellas. Si la información que provee la muestra brinda evidencias
de que el proceso no está funcionando como corresponde y el peso de las bolsas es
menor a lo consignado en las bolsas, se tomarán las acciones correctivas necesarias
para que el mismo se encuentre bajo control estadístico. Determina la hipótesis nula y
la alternativa.
H0 es la que tiene que ponerse a prueba, si se rechaza es porque los reclamos vienen
se producen porque las bolsas efectivamente pesan menos de 995 gr.
H0: µ ≥ 995
H₁: µ < 995
En conclusión:
En las pruebas de hipótesis, a través de la evidencia muestral, se decidirá rechazar la
hipótesis nula si lo permiten los datos analizados, o bien no rechazarla.
PÁGINA 81
En la figura anterior se muestra cómo se relacionan las zonas de rechazo en una
prueba bilateral (donde aparece un signo de igualdad estricta en la hipótesis nula y
una desigualdad en la hipótesis alternativa) con los valores críticos.
Luego, el valor crítico de t, que deja a la derecha una probabilidad de 0,05 es 1,729
con 19 grados de libertad.
En las próximas lecturas estudiaremos cómo establecer una conclusión sobre estas
pruebas, por el momento estamos conociendo algunos elementos de vital importancia
para poder poner a prueba las hipótesis planteadas.
INTRODUCCIÓN
2. ERRORES TIPO I Y II
PÁGINA 83
que se decida rechazar la H₀, declararlo culpable, cuando en realidad H₀, es
verdadera. Es decir, se declararía culpable a un inocente. A este error se lo
denomina tipo I.
ERROR TIPO I:
Un tipo de error, Tipo I, se produce si el investigador rechaza la hipótesis nula, cuando
en realidad es verdadera. Es decir, concluye que los dos medicamentos no tienen la
misma eficacia cuando en realidad la eficacia de ambos es la misma.
En realidad, los dos son graves, pero si tenemos que analizarlo en general pareciera
que, en este caso, el error tipo I es menos grave ya que, si los medicamentos tienen
la misma eficacia, podría considerarse que el error no es muy grave, porque de todos
modos los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen.
En cambio, en el error Tipo II, se puede poner en riesgo la vida de los pacientes si se
pone en venta el medicamento menos efectivo en lugar del medicamento más
efectivo.
Igualmente, cada caso debe ser analizado y el investigador debe controlar, de alguna
manera estos errores, como estudiaremos más adelante.
PÁGINA 84
Se presentan las cuatro opciones posibles que pueden darse al tomar una decisión a
partir de un test de hipótesis, teniendo las evidencias muestrales. Observa que, a
pesar de contar con evidencias, pueden cometerse errores.
Realidad de la población
Comparación de la
H₀ es Verdadera H₀ es Falsa
efectividad de dos
Tienen la misma no tienen la
medicamentos
eficacia misma eficacia
No
rechazo H₀
ERROR
Tienen la OK
(Tipo II)
Decisión misma
del eficacia
médico
basada en Rechazo
la H₀
ERROR
muestra no tienen la OK
(tipo I)
misma
eficacia
PÁGINA 86
Conclusiones:
Si realizas una prueba de hipótesis, puedes cometer dos tipos de error: tipo I y
tipo II.
Los riesgos de estos dos errores están inversamente relacionados: es decir que
cuando uno crece el otro disminuye.
Por lo tanto, antes de realizar la prueba, debes determinar qué error tiene
consecuencias más graves para la situación que se esté investigando.
Luego:
Las probabilidades α y β están relacionadas, de manera que si una de ellas disminuye,
la otra aumenta. Por ello, la manera de disminuir ambos riesgos es aumentar el
tamaño de la muestra.
H₀: π ≤ 0,45
H₁: π > 0,45
A modo de repaso, y para que vaya quedando más firme la metodología de la prueba
de hipótesis, expliquemos los pasos que se realizan después:
Como estudiamos en la lectura 1, a este paso le sigue un criterio de decisión sobre los
resultados obtenidos en la muestra. ¿A partir de qué valor de p muestral se tomará la
decisión de rechazar o no la hipótesis nula? Para esto tendremos que adoptar algún
test o prueba, que veremos en la próxima lectura, pero que va a depender de la
distribución de muestreo que se considere.
Después se definen las reglas de decisión para determinar en cuál de las dos regiones
se posiciona el valor muestral.
Para este caso, observamos que la probabilidad del error tipo I, 𝛼, es menor que la
valor crítico, es decir, en la frontera de la zona de aceptación de H₀.
PÁGINA 89
La única manera que tiene el investigador de disminuir ambos tipos de errores a la
vez consiste en aumentar el tamaño de la muestra.
Como se puede ver en el esquema, a cada decisión que se tome se encuentra
asociada la posibilidad de cometer un error.
Un procedimiento de este tipo sería óptimo cuando la probabilidad de cometer un
error sea pequeña, cualquiera sea la decisión que se adopte.
Lamentablemente, en la mayoría de los tests de hipótesis solo es posible controlar
una de ellas con la circunstancia agravante de que estos errores son competitivos,
es decir, cuando se disminuye mucho la probabilidad de uno aumenta la
probabilidad del otro.
Estas dos probabilidades requieren un delicado equilibrio. Así lo expresan los autores
del texto básico:
PÁGINA 90
La potencia de la prueba es la sensibilidad que esta tiene
para detectar situaciones en las cuales corresponde
rechazar la hipótesis nula por ser esta falsa. Es la
probabilidad de no cometer un error tipo II.
● Ho: μ=10
● H₁: μ≠10
● La prueba es bilateral.
● Trabajaremos con un nivel de significancia de 0,05, con una muestra n=100.
● Utilizaremos una distribución normal, con estadístico z.
● Con estos datos el valor del z crítico es ± 1,96
● Otro dato que se tiene es la desviación estándar poblacional: 5,765
● Midamos ahora 𝛼 y 𝛽.
● El valor de 𝛼 seguirá siendo 0,05. Pero como dijimos anteriormente este límite
define el área ocupada por 𝛽 y gráficamente es una de las colas de la curva de la
hipótesis alternativa verdadera. Entonces podemos escribir que bajo H₁ cierta:
PÁGINA 91
en la zona de rechazo de Ho.
● Y suponemos también que bajo H₁ verdadera el valor de la media es 7,89.
http://www.seeingstatistics.com/seeing1999/resources/opening.html
permite ver cómo varía la potencia de la prueba para diferentes escenarios que
suponemos referidos al verdadero valor de la media poblacional.
Como permiten ver los paneles gráficos de las siguientes páginas, en los casos en los
cuales el verdadero valor está alejado de lo hipotetizado, la probabilidad de rechazar
la hipótesis nula es alta. La potencia de la prueba está identificada como el área
sombreada de azul en cada una de las figuras. Las áreas sombreadas de rojo
corresponden a la significación (que tiene una probabilidad α) y se grafican en la
distribución que supone que la hipótesis nula es cierta.
PÁGINA 92
DESCRIPCIÓN DE LA FIGURA 4: permite ver cómo varía la potencia de la prueba –
área en azul- para diferentes escenarios que suponemos referidos al verdadero valor
de la media poblacional (en este caso hemos tomado μ=10), para poder mostrar la
variación de la potencia de la prueba. Se comienza con una media muy alejada a la
poblacional y al acercarse a la media poblacional, la potencia de la prueba disminuye.
Sinteticemos la información del ejemplo en una tabla donde se consignen los valores
de la potencia.
PÁGINA 93
La relación descrita en la tabla anterior puede representarse en un gráfico que se
denomina curva de potencia. El gráfico presenta un mínimo en el valor
correspondiente al que se postula en la hipótesis nula. La potencia en ese caso es
igual a la significación.
Fuente: Salvador, E. (2018) I. Error tipo I y II. II. Nivel de significancia. III. Intervalo
de confianza. Facultad de Medicina Veterinaria y Zootecnia. Recuperado de
https://eliasnutri.files.wordpress.com/2018/10/clase-6-error.pdf
PÁGINA 94
Justificación: La potencia de la prueba no tiene relación directa con el error real del
parámetro. Es la probabilidad de rechazar Ho cuando esta es efectivamente no
verdadera y podemos conocer la potencia incluso sin saber el valor del parámetro.
Puedes retomar el concepto en el capítulo 9, punto 9.1 de la bibliografía básica de la
materia. ✓
Como hemos explicado anteriormente, las pruebas de hipótesis pueden ser de uno o
dos extremos (unilaterales o bilaterales). Esto dependerá del planteo de la hipótesis
nula, en función de la cual la zona de rechazo se ubicará en uno de los extremos o se
distribuirá entre ambos.
Significancia 𝛼=0,0
H₁: μ₀≠μ₁,
rechazo de H₀, además se muestran los valores críticos determinados por 𝛼. Observa
DESCRIPCIÓN DE LA FIGURA 6: En el gráfico se muestra la región de rechazo y no
que en cada cola queda una probabilidad de 𝛼/2 = 0,025 por tal motivo los valores
críticos son ± 1,96.
Significancia 𝛼=0,05
H₁: μ₀ < μ₁
PÁGINA 95
FIGURA 7: PRUEBA DE HIPÓTESIS DE COLA IZQUIERDA, QUE MUESTRA LA ZONA
DE RECHAZO DE H₀
rechazo de H₀; además, se muestra el valor crítico determinado por 𝛼. Observa que
DESCRIPCIÓN DE LA FIGURA 7 : En el gráfico se muestra la región de rechazo y no
en la cola izquierda queda una probabilidad de 𝛼 = 0,05; por tal motivo, el valor
crítico es -1,645.
Significancia 𝛼=0,0
H₁: μ₀ > μ₁
PÁGINA 96
rechazo de H₀; además, se muestra el valor crítico determinado por 𝛼. Observa que
DESCRIPCIÓN DE LA FIGURA 8: en el gráfico se muestra la región de rechazo y no
en la cola derecha queda una probabilidad de 𝛼 = 0,05; por tal motivo, el valor crítico
es 1,645.
Advertencia: no debe usar los resultados de la muestra para decidir entre usar una
prueba de dos colas, de cola superior o de cola inferior. Antes de recolectar los datos,
se determina la forma de la prueba a partir de lo que piensa o desea detectar el
tomador de decisiones (Levin y Rubin, 2004, p. 330).
En el extremo inferior.
Justificación: Para pruebas tanto z como t, cuando nuestra hipótesis nula establece
que el parámetro es mayor o igual a un valor hipotético, la zona de rechazo de H₀ es
un valor menor al hipotético, del lado izquierdo en la gráfica, o inferior. Puedes
retomar el concepto en el capítulo 9, punto 9.1 de la bibliografía básica de la materia.
✓
INTRODUCCIÓN
7. Como se pidió trabajar con una significación de 0,05, los valores críticos de Z
serán
-1,96 y 1,96.
Regla de decisión:
PÁGINA 100
DESCRIPCIÓN DE LA FIGURA 2: En el gráfico se muestran las zonas de rechazo de
quedan en los extremos están dadas por 𝛼/2, áreas limitadas por los valores de z: -
Ho y la de no rechazo de Ho. Observa que por ser bilateral las probabilidades que
1,96 y 1,96.
Bajo Ho cierta:
Recuerda que el dato es la varianza de la población, por lo que tendrás que extraer la
raíz cuadrada para obtener la desviación estándar.
9. Verificar en qué zona (de rechazo o de no rechazo) cayó el estadístico de prueba
obtenido con los datos muestrales.
a. Zcrít = 1,645
Según la tabla normal estandarizada, la probabilidad de que la cola superior tenga
0,05 o bien una acumulada de 0,95, el valor de Z es 1,645. ¡Cuidado!, z=± 1,96 es
PÁGINA 102
para un 95 % de confianza (0,95), no te confundas con los intervalos de confianza,
porque esa probabilidad se toma alrededor de la media, que deja un 0,025 de
probabilidad para cada extremo; por lo tanto, no es lo que se pide en este ejercicio. ✓
Se recomienda la lectura del capítulo 9 del texto básico, apartados 9.1, 9.2 y 9.3 con
la ejercitación correspondiente para complementar esta lectura.
1 3
2 6
3 7
4 2
5 1
6 0,5
7 1
8 2
9 2,5
PÁGINA 103
10 2
11 1
12 2
13 3
14 2
15 0,5
Ho: µ ≥ 3 horas.
PÁGINA 104
Como se desconoce la varianza, se trabajará con el estadístico t, con n-1 grados
de libertad:
Bajo H₀ cierta:
La media muestral la calculamos mediante la fórmula:
García Ben, M. (2006). Tests de hipótesis estadísticas. Test de hipótesis sobre la media de una
población. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Recuperado de
https://es.scribd.com/document/315921161/EstadQuimTH1
PÁGINA 106
CASO 4: COMBUSTIBLES IMPALA S.A.
IMPALA S.A. es una marca de combustibles que ha desarrollado un nuevo combustible
premium, el cual reemplazaría al que se produce actualmente; por este motivo,
quiere analizar si realmente hay una diferencia en cuanto a rendimiento entre el
nuevo combustible y el anterior. Se contrata a un experto en combustibles para
determinar si existe alguna diferencia en un mismo modelo de automóvil. El
combustible A3, que se está evaluando para considerar su introducción en el
mercado, se probó en 20 autos, y se calculó una media muestral de 14 km. por litro
(con una desviación estándar de 2 km. por litro), mientras que el combustible A2 que
se probó en 10 automóviles, produjo una media de rendimiento de 13,2 km. por litro,
con una desviación estándar de 2,1 km. por litro. Suponiendo varianzas iguales,
¿existe evidencia de que el nuevo combustible, A3, supera al A2, que se está
utilizando en la actualidad?
Det
ergente 1 81,8
1 lavavajilla litro 2 75,6
Lav 1 80,2
2 andina litro 75,2 4
PÁGINA 107
odorante
ambiente 50 cm³ 94
Pap
el
Higiénico
x rollo de u
4 50 m nidad 25,6 19,6
Roll
o de
cocina 50 u 80,2
5 hojas nidad 4 75,6
Jabó
n de u
6 tocador nidad 50,6 37,8
Lim 1
7 piapisos litro 58,9 75,9
Des
infectante 1 77,8
8 para pisos litro 63,9 9
Sua
vizante 8 110, 99,6
9 para ropa 50 cm³ 36 6
Det
1 ergente 1 129, 110,
0 para ropa litro 36 56
Muestras independientes.
MUESTRAS INDEPENDIENTES
Se dice que las muestras son independientes si la aparición o selección de un
individuo en una muestra no tiene ninguna relación con la aparición o selección de
ningún individuo o elemento en la otra muestra. Este caso se aplica cuando los
individuos de cada una de las muestras pertenecen a dos poblaciones distintas, cuya
diferencia de medias es el propósito principal de la prueba.
PÁGINA 109
MUESTRAS RELACIONADAS O APAREADAS
Cuando las dos muestras se han construido de manera que la inclusión de un
individuo en una de las muestras condiciona la selección de otro en la otra muestra
considerada, o bien se analiza repetidamente información (generalmente a lo largo
del tiempo) sobre un mismo individuo, decimos que son muestras relacionadas o
apareadas.
Como se muestra en el esquema de la figura 4, tanto en el caso de muestras
independientes como apareadas, consideraremos distintas pruebas de hipótesis,
teniendo en cuenta qué supuestos corresponde aplicar, como veremos a
continuación.
es el estimador puntual de
Referencias:
PÁGINA 110
Las muestras aleatorias con n₁ ≥ 30 y n₂ ≥ 30 se consideran adecuadas. En el caso en
que una o las dos muestras sea menor que 30, las distribuciones de las poblaciones
son importantes. En general, cuando esto ocurre, es importante que el analista se
convenza de que es razonable suponer que las distribuciones de las dos poblaciones
son al menos aproximadamente normales. (Anderson, Sweeney y Williams, 2012, p.
412).
PÁGINA 111
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo
(lo cual deriva en disponer de una la regla de decisión).
Como se pidió trabajar con una significación de 0,01, los valores críticos de z,
teniendo en cuenta que emplearemos zα/2 al ser un contraste bilateral, son:
(Recuerda que tienes que buscar en el cuerpo de la tabla la probabilidad más cercana
a 0,005 ó 0,995. En este caso, está a la misma distancia de z= 2,57 y z=2,58). Este
nivel de significancia también es muy utilizado, por lo que conviene aprenderlo.
Luego, quedará determinada la siguiente regla de decisión (indicada también en la
figura 5):
significancia 𝛼 (que se divide en dos), las áreas de rechazo quedan por debajo de z=-
probabilidad que queda en cada uno de los extremos es 0,005, dadas por el nivel de
PÁGINA 113
Donde, la varianza conjunta se construye de la siguiente manera a partir de las
varianzas muestrales de cada muestra respectiva:
queda en el extremo derecho está dada por la significancia 𝛼, el área queda por
la de no rechazo de Ho. Observa que por ser unilateral a derecha, la probabilidad que
encima de t=1,701.
PÁGINA 114
Con la evidencia muestral disponible no puede descartarse que el rendimiento del
nuevo combustible sea igual o menor que el combustible actual.
Cuando no podemos asumir que las dos poblaciones tienen iguales varianzas,
adoptamos esta prueba.
Te recomendamos que profundices en el texto básico, capítulo 10, apartado 10.1 bajo
el título de: Prueba t de varianza separada para la diferencia entre dos medias.
H₀: μ₁−μ₂ = 0
H₁: μ₁−μ₂ ≠ 0
PÁGINA 115
6. Calcular el o los valores críticos, identificando así las zonas de rechazo y no rechazo
(lo cual deriva en disponer de una la regla de decisión).
Se trunca la parte decimal y se toma la parte entera sin aproximar. En realidad, todos
estos cálculos hoy los realiza un software estadístico. Pero sí importa que sepas los
supuestos y por qué se aplican los distintos estadísticos, como así también todo lo
relacionado al razonamiento de cada test.
Como se pidió trabajar con una significación de 0,05, los valores críticos de t, con 55
grados de libertad son -2,004 y 2,004.
Bajo Ho cierta:
PÁGINA 116
10. Indicar la conclusión del problema.
Pese a las diferencias muestrales observadas, puede decirse que no hay diferencias
significativas entre ambas poblaciones. Por lo tanto, no hay suficiente evidencia para
afirmar que el promedio de gastos semanales de los dueños de gatos sea distinto que
el de los dueños de perros.
Esta prueba consiste en dos muestras que no son independientes, pues aquí los datos
entre las poblaciones y, por supuesto, las muestras, están relacionadas o apareadas.
Esta relación puede darse de dos formas:
1. Los apareos o parejas pueden ser por alguna característica de los individuos de
la población, por ejemplo, una prueba sobre la diferencia de ventas de un
producto bajo diferentes campañas publicitarias.
2. Otro tipo de investigación se realiza con los mismos elementos de una muestra,
antes y después de someterlos a algún tratamiento especial.
Este tema está desarrollado en el texto básico en el capítulo 10, apartado 10.2.
Para cada par de observaciones apareadas se calculan las diferencias entre las
mismas que denominamos D.
Tabla 3: diferencias entre los precios del mismo artículo en los dos
supermercados.
Sup Sup
ermercad ermercad D
A oA oB i=
PÁGINA 117
81,8 6
1 2 75,6 ,22
80,2 -
2 75,2 4 5,04
102, 3
3 94 99,6 ,34
4 25,6 19,6 6
80,2 4
5 4 75,6 ,64
1
6 50,6 37,8 2,8
-
7 58,9 75,9 17
77,8 -
8 63,9 9 13,99
110, 99,6 1
9 36 6 0,7
1 129, 110, 1
0 36 56 8,8
En nuestro caso:
Por lo que vemos hasta aquí, el promedio es positivo, por lo que podemos ir
deduciendo que los precios del supermercado A son en promedio más altos que los
del supermercado B.
PÁGINA 118
Pero comencemos con la prueba, para ver si nuestra intuición es cierta.
Denotaremos μ_D a la diferencia poblacional, que se somete a prueba.
La prueba se lleva a cabo con el mismo procedimiento utilizado previamente para los
diversos casos de pruebas de hipótesis.
Pero, como siempre, tendremos que tener cuidado en cómo planteamos las
hipótesis. Si ya tenemos una idea que, de ser confirmada, nos resuelve el problema,
entonces pongamos a prueba de que los precios en el supermercado A no son
mayores que los del supermercado B. Es decir o bien H₀:
Las muestras de trabajo se toman como una de 10 casos porque están apareadas.
Esta es otra fórmula de la desviación estándar que conoces, pero más adaptable a
este caso; es equivalente y los resultados son los mismos.
PÁGINA 119
Como se pidió trabajar con una significación de 0,05 y la prueba es de cola derecha,
el valor crítico de t, con 9 grados de libertad es 1,833.
Luego, quedará determinada la siguiente regla de decisión:
No existe evidencia estadística para afirmar que la media de los precios de los
artículos de limpieza en el supermercado A es mayor a la media de precios en el
supermercado B.
Mediante este ejemplo podemos ver que toda idea, por más evidente que sea, puede
no ser la correcta. Por lo tanto, el contrastar una suposición puede sorprendernos y
darnos una respuesta científica a una idea previa.
PÁGINA 120
No, porque se trata de una muestra mayor que 10
gl =23
gl =21
gl =31
gl =22
PÁGINA 121