Manual Estadistica

0
ESCUELA DE POSGRADO
FACULTAD DE CIENCIAS
ESTADÍSTICA APLICADA
A la investigación científica
Prof. Aurelio GAMEZ TORRES
Ventanilla - 2017
1
INTRODUCCIÓN
La palabra estadística se origina, en las técnicas de recolección, organización, conservación, y

tratamiento de los datos propios de un estado, con que los antiguos gobernantes controlaban sus
súbditos y dominios económicos. Estas técnicas evolucionaron a la par con el desarrollo de las
matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información
En nuestros días, son de uso cotidiano las diferentes técnicas estadísticas que partiendo de
observaciones muestrales o históricas, crean modelos lógico-matemáticos que se "aventuran" describir
o pronosticar un determinado fenómeno con cierto grado de certidumbre medible
La estadística, entonces, dejó de ser una técnica exclusiva de los estados, para convertirse en una
herramienta imprescindible de todas las ciencias, de donde proviene la desconcertante des-
uniformidad en las definiciones de los diferentes autores, ya que cada estudioso la define de acuerdo
con lo que utiliza de ella y tenemos definiciones como que: la estadística es la tecnología del método
científico, o que es el conocimiento relacionado con la toma de decisiones en condiciones de
incertidumbre, o que la estadística son métodos para obtener conclusiones a partir de los resultados de
los experimentos o procesos, o que es un método para describir o medir las propiedades de una
población. En fin, no se trata de discutir si la estadística es una ciencia, una técnica o una herramienta,
sino de la utilización de sus métodos en provecho de la evolución del conocimiento
La estadística es una ciencia auxiliar para todas las ramas del saber; su utilidad se entiende mejor si
tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado de incertidumbre... y
la Estadística ayuda en la incertidumbre, trabaja con ella y nos orienta para tomar las decisiones con
un determinado grado de confianza
En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de
incursionar en la totalidad de las ciencias
El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística,

sobre todo en la manipulación de la información, pues en el mercado existen paquetes estadísticos de
excelente calidad, como el SAS, SPSS, STATGRAPHICS, MINITAB, STATA S-PLUS amén de otros,
que "corren" en una PC sin mayores exigencias técnicas, permitiendo el manejo de grandes volúmenes
de información y de variables.
La estadística proporciona reglas, técnicas e instrumentos para los investigadores de diferentes ramas
del saber humano.
En los últimos años la aplicación del método científico a las ciencias exactas e ingeniería, ha
aumentado considerablemente lo cual ha llevado conjuntamente una gran difusión de las técnicas
estadísticas en la gran mayoría de los trabajos de investigación
ESTADÍSTICA 2
INTRODUCCIÓN A LA ESTADÍSTICA
I. OBJETIVOS DE LA SESION:
Los alumnos deberán ser capaces de:
-Comprender qué estudia la Estadística.
-Definir algunos términos estadísticos básicos.
DEFINICIONES BASICAS
¿QUÉ ES ESTADÍSTICA?
Es la ciencia que nos proporciona un conjunto de métodos, técnicas o procedimientos para: Recopilar,
Organizar (clasificar, agrupar), Presentar, y Analizar datos con el fin de describirlos o de realizar
generalizaciones válidas.
La Estadística actúa como disciplina de interconexión entre los modelos matemáticos y los
fenómenos reales. Un modelo matemático es una abstracción simplificada de una realidad más
compleja. Por ello, siempre existirá cierta diferencia entre lo observado y lo previsto en el modelo.
¿Que es un dato?
Los datos pueden concebirse como información numérica necesaria para ayudarnos a tomar una
decisión con más bases en una situación particular.
Si el dato es útil para a tomar decisiones se convierte en INFORMACIÓN
UNIDAD DE ANÁLISIS: Es el objeto o elemento indivisible que será estudiado.

Ejemplo: Se desea hacer un estudio sobre los tipos de personalidad en una compañía, el elemento a
estudiar será los empleados
POBLACION: Es el conjunto de todos los elementos que cumplen ciertas propiedades y entre los
cuales se desea estudiar un determinado fenómeno (pueden ser hogares, número de tornillos
producidos por una fábrica en un año, etc.).
La población puede ser:
Población finita: Es aquella que tiene un número determinado de elementos. Por ejemplo, se puede
considerar como una población finita a todas las llantas fabricadas por la Goodyear en un año.
Población infinita: Es aquella que tiene un número infinito de elementos. En la práctica, una
población finita con un número grande de elementos se considera una población infinita. .Por ejemplo
el conjunto de todos los resultados posibles al lanzar una moneda de forma sucesiva constituye una
población infinita.
 A cada uno de los elementos de la población se le llama individuo o unidad estadística
 Parámetro Es una medida de resumen que se calcula para describir una característica de toda
una población. Ejemplo: La tasa de desempleo se ha mantenido en 30%. Es un índice
estadístico que va dirigido a describir a la población.
o Se simboliza por letras griegas

 = Media poblacional. (mu)
2= Varianza poblacional (sigma cuadrado)
 = Proporción poblacional (phi)
 = Coeficiente de correlación poblacional (rho)
Profesor : Ms. Aurelio Gámez Torres

3
o Son calculadas a partir de los datos observados de toda la población . La idea es resumir
toda la información que hay en la población en unos pocos números (parámetros).
o Sólo hay un parámetro en cada población
 Censo: Estudio realizado en todos y cada uno de los

individuos que forman parte de la población. El
tamaño de la población se representa por N.
MUESTRA: Es un subconjunto de la población, es decir es la parte representativa de la población

esto quiere decir: sin sesgos. El elegir una muestra representativa es un problema importante en las
investigaciones estadísticas.
 Estadístico o estimador Es una medida que se calcula para describir una característica de una
muestra de la población. Ejemplo: De los 100 estudiantes entrevistados, el 70% apoya la
resolución sobre la vacancia del Rector
o Se representa por :
x  Media muestral.
s 2 = Varianza muestral.
p = Proporción muestral.
r= Coeficiente de correlación muestral
o Existen tantos estimadores como muestras se extraigan de una población.

n1
x1
n2 x2
POBLACIÓN n3
x3
. .
. .
nm
xm
PAR
ÁMETRO ESTIMA
DOR
ES
 Muestreo: Es un procedimiento de selección de los elementos a ser estudiados o encuestados
El tamaño de la muestra se representa por la letra n.

ESTADÍSTICA 4
NOTA.-
El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los

miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una
muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea
lo suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas a
la población.
Ejemplo 1: Se ha hecho un estudio para determinar la preferencia de una marca especial de detergente
por parte de las amas de casa. Entre las 50 amas de casa entrevistadas, 30 dijeron que preferían esta
marca.
a. ¿Qué constituye la muestra?
b. ¿Qué constituye la población?
c. ¿Cuál es la proporción, dentro de la muestra, de las amas de casa que prefieren la marca del
detergente?
Solución:
a. El conjunto de respuestas que dieron las 50 amas de casa.
b. El conjunto formado por las posibles respuestas de las amas de casa.
c. Es el estimador proporcional 0.6
Ejemplo 2: Una compañía produce arandelas que se supone tengan un diámetro promedio de
2.50 centímetros, según requerido por el comprador. Un equipo de ingenieros examina la
producción rutinariamente para velar que se cumpla con las especificaciones. Si encuentran
que las arandelas no cumplen con las especificaciones establecidas, las máquinas que las
producen son ajustadas. Ellos seleccionan una muestra de 100 arandelas de un lote producido
en la fábrica y encuentran con que el diámetro promedio es de 2.51 centímetros.
a) Indica cuál es el problema que debe ser resuelto.
b) En términos de este problema, indica explícitamente cuál es
1. La población
2. El parámetro que se debe estimar
3. La variable que se debe medir
4. La muestra
DIVISIONES DE LA ESTADÍSTICA
ESTADÍSTICA DESCRIPTIVA.-
Es la parte de la Estadística que describe, analiza y representa un grupo de datos utilizando métodos
numéricos y gráficos que resumen y presentan la información contenida en ellos. No pretende ir más
allá del conjunto de datos investigados.
EJEMPLOS:
 La clase de Métodos Estadísticos tiene 102 alumnos en el turno de mañana.
 El nivel promedio de inteligencia obtenido mediante la prueba Stanford Bidet resultó ser 104 para
el grupo de mujeres
 Durante los últimos dos días se han informado un total de ocho homicidios.
 La encuesta Gallup informa una ventaja de 5% para el candidato X
Como puede observarse en cada uno de estos ejemplos, los datos estadísticos utilizados solamente
describen e indican lo que hay, informando donde, cuando y cuanto de los hechos u observaciones
indicadas.

5
Lo mismo sucede cuando se realiza una encuesta política donde se nos informa que entrevistaron
a 1100 electores y que el candidato del Partido AP obtuvo la preferencia de un 44% de los
encuestados, que un 45% optó por el candidato del Partido PPC y que aún se mantiene unos 11%
de indecisos. Todos estos datos numéricos describen y nos señalan cuál es el parecer u opinión de
los electores encuestados y por tanto estos datos estadísticos se le clasifica como estadística
descriptiva de una muestra de electores.
INFERENCIA ESTADÍSTICA.-
Son métodos que apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa
estimaciones, decisiones, predicciones y otras generalizaciones sobre un conjunto mayor de datos. Es
decir hacen posible la estimación de una característica de la población, en base a una muestra.
Estas dos ramas no son independientes; por el contrario, son complementarias y entre ambas dan la
suficiente ilustración sobre una posible realidad futura, con el fin de que quien tenga poder de
decisión, tome las medidas correctivas necesarias para transformar ese futuro o para mantener las
condiciones existentes
Técnicasde MUESTRA
M uestreo
Estimador: x
POBLACIÓN EstadísticaInferencial
Parámetro:µ
µ̂=Errordemuestreo
EJEMPLOS DE ESTADÍSTICA INFERENCIAL:
 Los estudiantes que obtuvieron un IQ de inteligencia sobre 120, probablemente obtendrán sobre
700 puntos en cada área de la prueba de Admisión para el ingreso a la universidad.
 Si aún hay un 11% de los electores indecisos y si la población electoral es de cerca de 10 millones
electores, quiere decir que aún hay cerca de 1.1 millones de electores quienes realmente decidirán
cuál va a ser el candidato ganador.
En estos dos ejemplos se lleva a cabo una deducción lógica basada en unos datos estadísticos de
una muestra, pero la inferencia o deducción que se utiliza para generalizar una observación sobre
la población requiere de unos cómputos y análisis estadísticos que van más halla de los números
obtenidos de la muestra. La deducción o inferencia debe ser comprobada para aceptarse como
confiable y válida, por lo tanto, esto requiere un procedimiento estadístico mucho más complejo el
cuál compete a la estadística inferencial.
ESTADÍSTICA 6
CLASIFICACIÓN DE VARIABLES
I. OBJETIVO DE LA SESION:
Los alumnos deberán ser capaces de distinguir los distintos tipos de variables que se manejan en
estadística.
II. TEMAS:
Los datos que deben manejarse en una investigación científica para describir los objetos de interés
son, en general de naturaleza diversa. La consideración de esta diferenciación es esencial para
decidir el método de análisis estadístico adecuado.
VARIABLE: Las variables son las características observables de un objeto, problema o evento que se
puede describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población
constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de
motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de
suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras .
Es una característica observable que varía entre los diferentes individuos de una muestra o población.
La información que disponemos de cada individuo es resumida en variables
Clasificación:
I. Por su naturaleza
 nominales
cualitativas 1. VARIABLES CUALITATIVAS (Categóricas) Son
aquellas características que se pueden clasificar, pero no
 ordinales medirse. A su ves se clasifican en:

 Variables categóricas nominal: Son variables
variables categorías mutuamente excluyentes que no implican
ningún orden. Por ejemplo cuando sus respuestas son
cuanti ai vasdiscretas
"si" y "no", sexo, colores, carreras universitarias, grupo
sanguíneo.
 continuas 
Variables categóricas ordinal: Son variables categorías
 
en las cuales hay un orden. Por ejemplo
Calificación {excelente, bueno, regular, malo}
Clasificación {1º,2º,3º,.......}
Dolor que sufre un paciente ante un tratamiento
Nivel socioeconómico
2. VARIABLES CUANTITATIVAS: Son expresiones que se describen mediante números.

Denotamos por la letra mayúscula la variable X y sus valores por x1, x2, x3, ........ xn
Pueden ser:
 Variables Discreta: Son aquellos que se expresan por números enteros, no admiten
valores intermedios. Ej.
X: número de hijos. X = (0, 1, 2, 3, 4, 5....)
Y: número de cursos Y = (3, 4, 5....)
Z: número de cigarrillos Z= (0, 1, 2, 3, 4, 5....)

7
 Variable Continua: Pueden tomar cualquier número dentro de un intervalo.
X: Peso (Kg.) X = (55.6, 70.0, 89.5,....)

Y: Estatura (m) Y = (1.55, 1.77, 1.80....)
EJERCICIO
1. Clasificar las siguientes variables

Preferencias de cerveza.

Velocidad en Km/h.

El peso en Kg.

Signo del zodiaco.

Nivel educativo (primario secundario, superior).

Años de estudios completados.

Tipo de enseñanza (privada o pública).

Número de empleados de una empresa.

La temperatura de un enfermo en grados Celsius.

La clase social (baja, media o alta).

La presión de un neumático en Nw/cm2

Capacidad de un disco duro de un ordenador, en GB.

Velocidad de transferencia de ficheros en una red, en bps.

Resultado de un test que comprueba si un ordenador tiene virus o no.

Tipos de impresoras.

Velocidad de acceso a un disco duro, en milisegundos.
2. Dar cuatro ejemplos de variables categóricas (dos nominales y dos ordinales), y cuantitativas
relacionadas con el mundo informático.
3. Se desea comparar la calidad de varias marcas de computadoras. Proponer de forma razonada seis
variables que podrían utilizarse para realizar el estudio. ¿Qué tipo de variable es cada una de
ellas?
4. La empresa de conservas Inca Mar proyecta lanzar al mercado un producto nuevo. Se realiza un
Test de aceptación en una muestra de 20 personas, utilizando una escala de 20 puntos, para medir
el grado de aceptación. Los puntos obtenidos en las 20 personas fueron los siguientes: 6, 7, 4, 7,
10 6, 6, 5, 7, 3, 7, 7, 5, 8, 6, 4, 7, 5, 7, 6 La muestra estuvo compuesta por igual número de
personas de ambos sexos, de 25 a 40 años de edad residentes en el municipio.
(1) ¿Cuál es la población? (2) ¿Cuál es la muestra?
(3) ¿Cuál es la variable? (4) ¿De qué tipo es la variable?
II. Por su relación
 Variable Independiente: (Antecedentes, Causas, Insumos): Es la que modifica de una u otra

manera a la variable dependiente, llamándose también según el caso factor de riesgo, factor
predictivo, etc.
 Variable Dependiente: (Consecuencias. Efectos, Resultados): Es la variable motivo de

nuestro interés, cuyos valores dependen de otras variables que pueden influir en ella. También
se la llama variable. de respuesta. Por ejemplo la sobre vivencia, respuesta al tratamiento,
evolución, etc.
 Variable Interviniente o alterna (Constructos Teóricos)

ESTADÍSTICA 8
Es la variable que se interpone entre la variable independiente y dependiente y en el

momento de relacionar las variables interviene en forma notoria.
Será aquella cuyo contenido se refiere a un factor que ya no es causa, tampoco efecto,
pero sí modifica las condiciones del problema investigado.
Es importante analizar si esta variable aparece a partir de la variable independiente, es
decir, posterior a ella y con anterioridad a la variable dependiente, de tal forma que
entre a reemplazar la variable independiente que ha sido formulada, o si actúa como
factor concerniente en la relación de variables. A esta variable interviniente la forman
factores que influyen en el efecto, es decir la variable dependiente, pero que no van a
ser muy evidentes en el análisis
Ejemplo 1: Los niños que son reprimidos en la consecución de sus metas exhiben conductas
agresivas más frecuentemente que los niños que no son tan reprimidos
Variable Independiente: Grado que se reprime el logro de las metas.
Variable Interviniente: Frustración
Variable Dependiente: Número de conductas agresivas
Ejemplo 2: ¿Cuál es la incidencia del nivel de cariño que reciben los estudiantes de la ciudad
de Lima en su rendimiento escolar?
III. Por el valor de su medición
 Variable Nominal: Ubicación en una sola categoría(sexo, colores, estados civil)
 Variable Ordinal: Presentan un orden en sus categorías, pero no implican grados de distancias
iguales entre ellas (Nivel económico, clasificación, dolor de un paciente).
 Variable de Intervalo: Es un conjunto de valores numéricos para lo que la distancia entre

números sucesivos es de tamaño constante y medible.
Existe un punto arbitrario. Ejemplo el coeficiente intelectual, temperatura.
 Variable de Razón (Cociente): Estas variables además de tener las características de las
variables de intervalo, con la diferencia que incluye el cero absoluto
Ejemplo: edad, peso, sueldos, número de accidentes, etc.

9
ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA
El objetivo de la investigación es descubrir respuestas a determinadas interrogantes, a través

de la aplicación de procedimientos científicos.
El punto de partida de la investigación es la existencia de un problema que habrá que definir,
examinar, valorar y analizar críticamente, para poder luego formular y entender su solución.
Ender Egg (1971) define la Investigación Científica como “un proceso formal, sistemático,
racional e intencionado en el que se lleva a cabo el método científico de análisis; como un
procedimiento reflexivo, controlado y crítico que permite descubrir nuevos hechos o datos,
racionales o leyes, en cualquier campo del conocimiento, en un momento histórico concreto”.
ESTRUCTURA DE UN PROYECTO DE INVESTIGACIÓN
ASPECTOS PRELIMINARES
.
 Titulo de la investigación
El título de la investigación a realizar, debe ser claro, preciso y completo. Está destinado a
indicar dónde, qué, cómo y cuándo, en forma clara y sucinta indica el lugar a que se refieren los
datos, el fenómeno que se presenta, las variables que sé interrelacionan, y la fecha a que se
refiere la información.
Es decir el título debe ser general, en cuanto recoge la esencia del tema que va a tratarse, pero
específico en cuanto debe referirse al problema objeto de investigación.
 Introducción: Contiene de manera resumida problema, hipótesis, objetivos justificación,
hipótesis y procedimientos generales de investigación
I. EL PROBLEMA
FORMULACIÓN DEL PROBLEMA:
¿Qué entendemos por formular un problema? Partamos del siguiente criterio: formular un
problema es caracterizarlo, definirlo, enmarcarlo teóricamente, sugerir propuestas de
solución para ser demostradas, establecer unas fuentes de información y unos métodos
para recoger y procesar dicha información. La caracterización o definición del problema
nos conduce otorgarle un título, en el cual de la manera más clara y precisa
La formulación del problema, es la estructuración de toda la investigación, de tal forma

que uno de sus componentes resulte parte de un todo y que ese todo forme un cuerpo que
tenga lógica de investigación. Se debe por lo tanto, sintetizar la cuestión proyectada para
investigar, generalmente a través de un interrogante.
En primer lugar, deberá revisarse si el problema es susceptible de resolverse mediante una

investigación, es decir, si su solución representa una aportación importante al campo de
estudios y si puede abrir nuevos caminos. Se aconseja además preguntarse: ¿Es un
problema nuevo o ya existen trabajos sobre él? En este caso, ¿las soluciones son
pertinentes? ¿Esta adecuadamente planteado el problema? ¿Cuáles hipótesis se pretenden
confirmar? ¿Los términos están suficientemente definidos? ¿Vale la pena emplear tiempo
y esfuerzo en su solución, aunque esta sea provisional?
DETERMINACIÓN DE LOS OBJETIVOS: Debemos fijar cuales son nuestras metas y

objetivos. Estos deben plantearse de tal forma que no haya lugar a confusiones o
ambigüedades y debe, además, establecerse diferenciación entre lo de corto, mediano y
largo plazo, así como entre los objetivos generales y los específicos.
ESTADÍSTICA 10
JUSTIFICACIÓN DEL ESTUDIO: Una vez que se ha seleccionado el tema de investigación,

definido por el planteamiento del problema y establecidos los objetivos, se debe indicar
las motivaciones que llevan al investigador a desarrollar el proyecto. Para ello se debe
responder a la pregunta de: ¿POR QUÉ SE INVESTIGA?
LIMITACIONES DE LA INVESTIGACIÓN: Es pertinente dar al problema una formulación

lógica, adecuada, precisar sus límites, su alcance, para ello es necesario tener en cuenta
los siguientes factores:
 Viabilidad: lo importante es que el investigador debe verificar la posibilidad de
conseguir fuentes de datos para el desarrollo de su estudio, ya sean del grado primario
o secundario.
Lugar o espacio donde se llevará a cabo la investigación.
 Tiempo, si el asignado me da la cobertura del estudio o debo disponer de uno en caso
de imprevistos.
 Financiación, si voy a implementar algo que cantidad de dinero dispongo para ello o
si solo será un estudio de factibilidad.
5. MARCO TEORICO
 Fundamentos Teóricos
 Antecedentes de problema: Se refiere al nivel actual de conocimientos. La investigación que
se planea realizar debe contribuir a elevar el conocimiento que la humanidad tenga de este
tema. Si no se conocen los antecedentes, es probable que repita una investigación anterior.
Existen antecedentes teóricos (marco teórico) y antecedentes empíricos (resultados).
 Definición de términos básicos
6. FORMULACIÓN DE HIPOTESIS
 Variables
 Definiciones operacionales
Recomendación: al escribir el título, el problema, objetivos y las

hipótesis, se debe referir a lo mismo
7. MARCO METODOLOGICO
 Determinación de la población y la muestra
 Técnicas de recolección de datos( observación, experimentación, encuesta,, entrevista)
 Técnicas de análisis de datos descripción detallada de las técnicas estadísticas que serán
utilizadas en el procesamientos de los datos
8. CRONOGRAMA DE EJECUCIÓN: Con ayuda de un Diagrama Gantt o un PERT, para

visualizar las diferentes etapas
9. PRESUPUESTO DE LA INVESTIGACIÓN
10. BIBLIOGRAFÍA
11. ANEXOS
REDONDEO DE DATOS
REGLA 1:

11
Si la cifra que sigue es mayor a 5, se aumenta 1.

Si la cifra que sigue es menor a 5, el número no varía.
Ejemplo: Redondeo a 2 decimales

6,176 ……. 6,18
4,123 ……. 4,12
REGLA 2:
Si la cifra que sigue es 5 y el número anterior es par no se modifica.
Pero si el número es impar, aumenta 1.
Ejemplo: Redondeo a 2 decimales
6,545 ……. 6,54
1,975 ……. 1,98
PRECISION Y EXACTITUD
En el lenguaje común se suele usar la palabra precisión como sinónimo de exactitud. Sin embargo, en
estadística son conceptos bien diferentes.
Si se mide una magnitud patrón n veces, con un instrumento adecuado, se obtienen n valores que
difieren entre sí.
 La dispersión de estos valores tiene diferentes causas y cuanto menor sea, mayor será la precisión
del instrumento de medición.
 Cuanto más cercano esté el promedio de los valores al valor del patrón, mayor exactitud tendrá el
instrumento.
Ejemplo del tiro al blanco, en él se supone que: el centro del blanco es el valor patrón, cada impacto es
una medición realizada, y la pistola es el sistema de medición.
A, se puede ver que los impactos están muy cercanos entre sí pero muy lejos del centro, y por eso se
dice que hay mucha precisión, pero poca exactitud.
B, se ve que los impactos están muy dispersos pero rodeando sistemáticamente al centro, o
sea que su promedio resultará muy cercano al mismo. A este caso se lo califica como de poca
precisión y mucha exactitud.
C, el ideal, se tiene un grupo muy compacto de disparos en el centro del blanco, hay mucha
exactitud y mucha precisión.
RECOLECCION DE DATOS
ESTADÍSTICA 12
La recolección de datos es la fase en el cuál el investigador se pone en contacto con

los elementos sometidos a estudio, con el fin de obtener datos o respuestas de las
variables consideradas y a partir de aquí se prepara la información estadística
Antes de recolectar datos es importante determinar el objetivo de estudio, precisar
las variables, las fuentes de datos, con la finalidad de definir que datos hay que
recolectar
FUENTES DE DATOS: Son aquellos lugares, persona o elementos de los que se puede obtener datos
o información necesaria para realizare estudio de investigación
TIPOS
a) Fuentes Secundarias:
 Datos ya recolectados para cumplir otros objetivos
 Contiene información, sintetizada y organizada
 Es la primera fuente que se debe analizar
Ejemplo: Datos publicados en las revistas especializadas, base de datos

públicas y privadas, congresos conferencia y ponencias, tesis, etc.
Principales organismos que disponen de publicaciones son:

 Instituto Nacional de Estadística en Informática INEI
 Banco Central de Reserva BCR
 Asociación de Exportadores ADEX
 Ministerio de Salud MINSA
b) Fuentes Primarias:
 Datos que hay que recolectar para el trabajo
 Personas que por su conocimiento proporciona información especifica para el investigador
 Las técnica mas empleadas son
a) La Observación :
 El investigador no interfiere en el objeto de estudio
 Se registra el dato bajo condiciones normales
 Cuando se mide el desempeño la persona observada no debe saber
que es objeto de estudio.
Ejemplo: La observación de un paciente cuando espera en la sala de

emergencia de un hospital por mas de 20 minutos
b) La Experimentación:
 El investigador fija, manipula e introduce variables en el objeto de
estudio
 Se registra un dato bajo condiciones provocadas simulando el
proceso lo más real posible
Ejemplo Se pretender lanzar al mercado una nueva presentación de una

pasta de dental
c) La Entrevista
 Permite recolectar datos mediante el dialogo.
 Puede ser:
 Estructurada(Entrevista-Cuestionario) : Las preguntas son
precisas de acuerdo a indicadores previamente elaboradas y tienen
orden que se cumple para cada entrevistado

13
 No Estructurada: Se da al entrevistado, previamente un conjunto

de temas para que lo desarrolle
Ejemplo: Entrevista a un gerente de producción sobre normas de seguridad de la
empresa que dirige.
c) La Encuesta :
 Es el método de recopilación de datos acerca de hechos, opiniones
conocimientos, etc.
 Basado en una interacción directa (la entrevista) o indirecta (el
cuestionario) entre el investigador (encuestador) y encuestado
Ejemplo: Encuesta para saber el grado de satisfacción de los

pacientes que se atienden en la Clínica San Pablo
El Cuestionario
 Es el formulario impreso que los individuos responden un conjunto
de preguntas formuladas de acuerdo a la necesidad de la
información.
 Junto a las hojas de registro es la técnica más común de datos de
fuentes primarias.
RECOMENDACIONES PARA LA ELABORACIÓN DE

CUESTIONARIOS
 Las preguntas deben ser coherentes con el objeto de la investigación

 Debe partirse de las hipótesis y específicamente de los indicadores que
expresan a las variables. Estos indicadores deben traducirse en las preguntas
del cuestionario
 El número de preguntas depende de la necesidad de la información
 El lenguaje utilizado en la redacción debe ser entendible por los encuestados
Debe evitarse la ambigüedad
Ejemplo: En un estudio de sobre tabaquismo
¿Frecuentemente fuma? SI NO
 No formular preguntas dirigidas. Evitar adjetivos

Ejemplo: ¿Cree usted que precio de las tarifas postales son altas?
SI NO
 Neutralidad de las preguntas. El investigador debe intentar adoptar una

postura neutral con respecto al problema objeto de estudio, no
posicionándose de ninguna forma en el tratamiento dado a la pregunta.
Varias son las formas que pueden sesgar una pregunta:
Juicios de valor o preguntas tendenciosas.
Ejemplo: “La defensa del país exige contar con un presupuesto adecuado. ¿Está usted
de acuerdo con que se destinen fondos del presupuesto nacional a la actualización del
Armamento de las Fuerzas Armadas? Evidentemente, la primera parte del ítem
conlleva una respuesta positiva por parte de los encuestados.
 Presentación parcial del aspecto de la cuestión que se quiere estudiar. Es una
forma más sutil de sesgar la pregunta. Por ejemplo, se puede preguntar:
¿Considera usted que la empresa X ofrece un buen servicio postventa?
Si ____
ESTADÍSTICA 14
No ____
No sabe/ no contesta_____________
La pregunta señala sólo la línea positiva. Compárese con esta otra redacción:
¿Cómo encuentra usted el servicio post-venta de la empresa X?

Bueno _________
Regular ________
Malo ___________
No sabe/ no contesta __________
En este caso, no se orienta la pregunta como se había hecho en el caso anterior, dónde
se había primado sólo la parte positiva.
TIPOS DE PREGUNTAS
Preguntas Cerradas : Limita las posibilidades de respuesta
¿Le gusta el deporte?
SI NO
¿Con que frecuencia contrasta su presión arterial?
Anual...............Trimestral.............Mensual....................Nunca................
Preguntas Abiertas
 Dan completa libertad al encuestado

 Se usan cuando no se tiene precisión sobre ciertas respuestas
 Dificultad para el procesamiento de la información
 Es necesario codificar las respuestas para ser procesadas.
 Dificulta la interpretación de datos
 Sus mayores posibilidades de aplicación radican en investigaciones con
muestras reducidas
Ejemplo: ¿Qué opinión tiene sobre la política salarial del gobierno del
presidente Alejandro Toledo?
Preguntas de identificación: edad, sexo, profesión, nacionalidad, etcétera.
Preguntas de hecho: referidas a acontecimientos concretos. Por ejemplo: ¿terminó la educación

básica?
Preguntas de acción: referidas a actividades de los encuestados. Por ejemplo: ¿ha tomado algún
curso de capacitación?
Preguntas de información: para conocer los conocimientos del encuestado. Por ejemplo: ¿sabe qué
es software libre?
Preguntas de intención: para conocer la intención del encuestado. Por ejemplo: ¿utilizará algún
software para su próxima clase?
Preguntas de opinión: para conocer la opinión del encuestado. Por ejemplo: ¿qué carrera cursarás
después del bachillerato?

15
Existe otra clasificación de los cuestionarios que toma en la función que las preguntas desarrollaran
dentro del cuestionario. De esta manera tenemos:
Preguntas filtro: son aquéllas que se realizan previamente a otras para eliminar a los que no les
afecte. Por ejemplo: ¿Tiene usted coche? ¿Piensa comprarse uno?
Preguntas trampa o de control: son las que su utilizan para descubrir la intención con que se
responde. Para ello se incluyen preguntas en diversos puntos del cuestionario que parecen
independientes entre sí, pero en realidad buscan determinar la intencionalidad del encuestado al
forzarlo a que las conteste coherentemente (ambas y por separado) en el caso de que sea honesto, pues
de lo contrario «caería» en contradicciones.
Para la elaboración de un cuestionario eficaz y útil, Cadoche proponen 17 reglas fundamentales para
su confección:
1. Las preguntas han de ser pocas (no más de 30).

2. Las preguntas preferentemente cerradas y numéricas.
3. Redactar las preguntas con lenguaje sencillo.
4. Formular las preguntas de forma concreta y precisa.
5. Evitar utilizar palabras abstractas y ambiguas.
6. Formular las preguntas de forma neutral.
7. En las preguntas abiertas no dar ninguna opción alternativa.
8. No hacer preguntas que obliguen a esfuerzos de memoria.
9. No hacer preguntas que obliguen a consultar archivos.
10. No hacer preguntas que obliguen a cálculos numéricos complicados.
11. No hacer preguntas indiscretas.
12. Redactar las preguntas de forma personal y directa.
13. Redactar las preguntas para que se contesten de forma directa e inequívoca.
14. Que no levanten prejuicios en los encuestados.
15. Redactar las preguntas limitadas a una sola idea o referencia.
16. Evitar preguntas condicionantes que conlleven una carga emocional grande.
17. Evitar estimular una respuesta condicionada.
Es el caso de preguntas que presentan varias respuestas alternativas y una de ellas va unida a
un objetivo tan altruista que difícilmente puede uno negarse.
SUGERENCIAS PARA LA CODIFICACION
1. Es buena idea codificar las variables como números para poder procesarlas con facilidad en un
programa estadístico.
ESTADÍSTICA 16
2. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los
códigos numéricos.
o Sexo (Cualitativa: Códigos arbitrarios)
 1 = Hombre
 2 = Mujer
o Raza (Cualitativa: Códigos arbitrarios)
 1 = Blanca
 2 = Negra,...
o Felicidad Ordinal: Respetar un orden al codificar.
 1 = Muy feliz
 2 = Bastante feliz
 3 = No demasiado feliz
3. Se pueden asignar códigos a respuestas especiales como

 0 = No sabe
 99 = No contesta...
4. Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’)
EN CU ES TA D E IN IC I AC I ÓN EN EL TA BA QU I S MO
El pres ente es un cues tionario anónimo

17
R es ponda con una de las opciones marcando con un as pa en el es pacio

comprendido por los paréntes is .
1. ¿C uántos años de edad tiene? ........ años
2. S exo: mujer ( ) varón ( )
3. ¿H a fumado us ted, alguna vez en s u vida, al menos un cigarrillo ?
Si ( ) No ( )
4. ¿En los últimos 12 mes es ha fumado us ted por lo menos un cigarro?
Si ( ) No ( )
S i contes tó es ta pregunta continúe con en las s iguientes , en cas o
contrario termine.
5. ¿A qué edad empezó a fumar? ........................
6. ¿C uántos cigarrillos fuma actualmen te por mes ?........
C ons idere 30 encues tas y corregirlas para finalment e tras ladarla como
información en tablas y gráficos us ando el paquete es tadís tico S P SS .
SESION
TABLA DE CONTINGENCIA Y DE FRECUENCIA
ESTADÍSTICA 18
Los alumnos deben ser capaces de:

Organizar Tablas de contingencia
Organizar los datos correctamente, en una tabla de distribución de frecuencias.
Distinguir los cuatro tipos de frecuencia.
PARTES DE UNA TABLA ESTADISTICA
1. Título. Es la indicación que, precediendo a la tabla, es colocada en la parte superior de la misma.

Debe ser preciso, claro y conciso, indicando la naturaleza del fenómeno estudiado (¿Qué?), las
variables escogidas en el análisis del fenómeno (¿Cómo?), el local (¿Dónde?) y la época
(¿Cuándo?) en que el fenómeno fue observado. Por ejemplo: "Distribución del número de
empleados por sexo de la empresa XXX, año 2002".
2. Cuadro propiamente tal. Los elementos esenciales son: el cuerpo, el encabezamiento y la

columna matriz.
a) El cuerpo de la tabla está formado por un conjunto de

filas y columnas que contienen respectivamente, las series horizontales y verticales de
información.
b) El encabezamiento (referente a la primera fila) es la

parte de la tabla en que se indica la naturaleza (las categorías, las modalidades de la variable)
del contenido de cada columna. Estos al igual que los títulos deben ser breves, pero
suficientemente explícitos. Así por ejemplo en vez de poner simplemente "Edad" es preferible
poner "Edad en años".
c) La columna matriz, es la parte de la tabla en que es

designada la naturaleza (las categorías, las modalidades de la variable) del contenido de cada
fila.
3. Las indicaciones complementarias; con el fin de que no haya dudas sobre el contenido del
cuadro, éste se anotará en la parte inferior de la tabla. Las indicaciones complementarias son: la
fuente de información, comentarios y notas explicativas.
a) Fuente: Es el indicador de la entidad responsable de donde se obtuvieron los datos.
b) Notas. Son colocadas al pie del cuadro para esclarecimientos de orden general.
c) Comentarios. También colocadas al pie del cuadro, sirven para aclarar minucias en relación a
las celdas, columnas, filas.
TABLAS CONTINGENCIA
Es un arreglo ordenado de filas y columnas de datos estadísticos, o de características relacionadas con

el objeto de ofrecer información, es de fácil lectura, para su comparación e interpretación.
DISTRIBUCIÓN DEL NUMEROS DE EMPLEADOS

QUE FUMA SEGÚN SEXO

19
Tabla de contingencia SEXO * FUMAR
Recuento
FUMAR
FUMA NO FUMA Total
SEXO HOMBRE 55 25 80
MUJER 16 4 20
Total 71 29 100
Fuente MINSA 12/12/06
Ejemplo de Tabla de Contingencia de dos variables categóricas SEXO y FUMAR generada por el
programa SPSS. Obsérvese que cada variable presenta dos categorías:
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS
Son tablas de trabajo estadístico que presentan la distribución de un conjunto de elementos agrupados
o clasificados en las diversas categorías de la variable.
Elementos de una Tabla de Frecuencia:

1. Frecuencia Absoluta ( f i ): Es el número de veces que se repite cada valor de una variable.
Donde: m = número de intervalos o categorías

n = número total de observaciones
m
Además f i 1
1 n y 0  fi  n
2. Frecuencia Relativa ( hi ): Se expresa en términos de porcentajes

fi
Es el cociente de hi 
n
m
Además h
i 1
1 1 y 0  hi  1
3. Frecuencia Absoluta Acumulada ( Fi ): Es la acumulación sucesivamente de las frecuencias

absolutas, donde:
F1 = f1
F2 = f1 + f2 = F1 + f2
… = …………………………………
Fm = f1 + f2 + ………………………… fm = Fm-1 + fm = n
4. Frecuencia Relativa Acumulada ( H i ): Resulta de la acumular o sumar sucesivamente las

frecuencias relativas, donde:
H 1 = h1
H2 = h1 + h2 = H1 + h1
…………………………………………………………
Hm = h1 + h2 + ……………………… + hm = Hm-1 + hm = 1
CONSTRUCCION DE TABLA DE FRECUENCIA SIN INTERVALOS
VALORES DE LA Frecuencia Frecuencia Frecuencia Frecuencia

ESTADÍSTICA 20
VARIABLE Absoluta Relativa Absoluta Relativa

fi hi Acumulada Acumulada H i
Fi
X1 = f1 h1 F1 H1
X2 =
.... .... .... .... ....
Xn= fm hm Fm = n H m = 1.00
f i n m
i 1
h
i 1
i 1
Nota:
 En el caso de la escala nominal las dos últimas columnas
carecen de sentido
Ejemplo En una encuesta en Ate el año 2006, se entrevisto a 12 familias y se pregunto cuantos hijos
tienen, obteniéndose los siguientes datos:
Número de hijos (xi) 1 2 3 4

Frecuencias (fi) 1 3 5 3
Comparar los diagramas de barras para frecuencias absolutas, relativas y acumuladas.
Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:
Distribución de Familias según número de hijos en Ate (2006)
Variable F. Absolutas F. Relativas F. A Acumuladas F. R Acumuladas

xi fi hi Fi Hi
1 1 0,083 1 0,083
2 3 0,250 4 0.333
3 5 0,417 9 0.750
4 3 0,250 12 1.000
12 1
Fuente: Revista #10 de Apoyo
Interpretación:
f2: 3 familias tienen 2 hijos
h4: el 25% de las familias tienen 4 hijos
F3: que 5 familias tienen a lo mas 3 hijos.
H2: el 33.3% de las familias tuvieron a lo mas 2 hijos

21
CONSTRUCCION DE TABLA DE FRECUENCIA CON INTERVALOS
1. Determinar el rango R  X min  X max

2. Determinar el número m de intervalos. Se recomienda generalmente entre (5  m  20). También
se podría determinar por medio de la fórmula m = 1 + 3.322 x log (n)
R
3. Encontrar la amplitud del intervalo C  (En lo preferible se debe encontrar un número entero)
m
4. Calcular el rango ampliado R   mC
5. Hallar la diferencia a  R   R no debe ser superior a la amplitud
a es la cantidad mínima que hace falta al rango para ser exactamente divisible por la amplitud
6. Distribuir adecuadamente la diferencia
a
X min   Límite inferior del primer intervalo
2
a
X maz   Límite superior del último intervalo
2
7. Construcción de los intervalos [ >, < ]

8. Hallar la marca de clase Yi que es el promedio del intervalo
 Y  Yi
Yi  i 1
2
Histograma de Frecuencias: Constituido por un conjunto sucesivo de rectángulos.
Polígono de Frecuencias: Se construye tomando en cuenta la marca de clase.

ESTADÍSTICA 22
Ejemplo 1: La siguiente tabla muestra las edades de los 21 trabajadores que laboran en Siderúrgica
Aceros Arequipa:
58 42 51 54 40 39 49
56 58 57 59 63 58 66
70 72 71 69 70 68 64
Construir a partir de estos datos

a) Una tabla de frecuencia
b) Un histograma
c) Un polígono de frecuencia
Solución
1. El rango R =72 – 39 =33

2. Determinar el intervalo m =1 + 3.322log(21)
m =1 + 3.322x1.322 = 1 + 4.392 = 5.4392
m  5
R
3. Hallar la amplitud C 
m
33
C= = 6.6 (En lo preferible se debe encontrar un número entero).
5
La amplitud debe ser mayor que 6.6 fijándolo en 7
4. Luego el rango ampliado R  = 5x7=35
5. La diferencia a =35-33=2
6. Distribuyendo la diferencia
a
X min -  (Límite inferior del primer intervalo)
2
a
X max +  (Límite superior del último intervalo)
2
X min X max

23
Valores originales 39 72
Valores corregidos 38 73
<Xi-1 - Xi] fi hi Fi Hi X i
<38 - - 45] 3 0.14 3 0.14 41.5
<45 - - 52] 2 0.10 5 0.24 48.5
<52 - - 59] 7 0.33 12 0.57 55.5
<59 - - 66] 3 0.14 15 0.71 62.5
<66 - -73] 6 0.29 21 1.00 69.5
21
ESTADÍSTICA 24
Reporte del SPSS
Ejemplo 2 Los siguientes datos son los 80 tiempos en segundos que demoran en procesar ciertos
programas en la PC. Hallar los intervalos para los siguientes datos, interprete f3, F2 , h3 y H4. Haciendo
uso de un software estadístico
Ejemplo 3: La siguiente tabla muestra el número de horas de tardanza de 40 empleados de un hospital
7 8 12 1 4 7 8 17 3 4
10 7 11 1 5 7 13 3 1 7
12 3 3 13 5 3 1 4 17 7
4 8 8 10 8 2 7 5 10 11

25
Ejemplo 4: Calcular los datos que faltan en la siguiente tabla:
<Xi-1 - Xi] fi hi Fi
<0 - - 10] 60 h1 F1
<10 - - 20] f2 0.4 F2
<20 - - 30] 30 h3 F3
<30 - - 40] f4 0.1 F4
<40 - - 50] f5 h5 200
n
Construir a partir de estos datos

a. Una distribución de frecuencias
b. Un histograma de frecuencias
c. Un polígono de frecuencias
Ejemplo 5: Se realiza un estudio en 120 familias en la Perla, para conocer el nivel educacional que
tiene el jefe de familia. Los resultados son los siguientes: básica: 3 jefes de familia; básica incompleta:
65 jefes de familia; media: 21 jefes familia; media incompleta: 14 jefes de familia; universitaria: 11
jefes de familia; universitaria incompleta: 6 jefes de familia.
(1) ¿Cuál es la población? (2) ¿Cuál es la muestra?

(3) ¿Cuál es la variable? (4) ¿De qué tipo es la variable?
(5) ¿Cuántas clases tiene la variable? (6) Construya la distribución de frecuencias.
(7) Con la respuesta del punto 6), responda las siguientes preguntas:
a) ¿Qué porcentaje de jefes de familia tienen al menos media incompleta?
b) ¿Qué porcentaje de jefes de familias no tienen básica incompleta, ni universitaria ?
(8) Construya el histograma (9) Construya el polígono de frecuencia
ESTADÍSTICA 26
SESION
REPRESENTACIONES GRAFICAS
Los alumnos deberán ser capaces de representar gráficamente los datos según el(los) tipo(s) de
variable(s) que se maneje(n).
II. TEMAS:
El gráfico es la representación en el plano, de la información estadística, con el fin de obtener una
impresión visual global del material presentado, que facilite su rápida comprensión. Los gráficos
son una alternativa a las tablas para representar las distribuciones de frecuencias.
REPRESENTACIONES GRAFICAS
Una gráfica o diagrama es un dibujo que permite observar las tendencias de un fenómeno en
estudio y facilita el análisis estadístico de las variables allí relacionadas
1. Gráfico de Barras Simples:

Se utilizan para representar la distribución de frecuencias de variables discretas. Cada categoría
de la variable se representa por una barra, cuyo largo indica la frecuencia de observaciones en
dicha categoría.
Todas las barras deben ser de igual ancho y estar igualmente espaciadas. En el eje X se representa
el recorrido de la variable y en el eje Y la frecuencia absoluta o la frecuencia relativa .
2. Gráfico Circular o Sectorial:

Son una alternativa a los gráficos de barras separadas, es decir, se pueden utilizar indistintamente
estos dos tipos de gráficos, si la variable es discreta.
El gráfico sectorial siempre se debe construir con las frecuencias relativas.

27
3. Gráfico de barras agrupadas

Se utilizan para analizar la existencia de asociación entre dos variables discretas.
4. Gráfico de barras divididas

Son una alternativa a los gráficos de barras agrupadas.
Son más adecuados que el gráfico de barras agrupadas cuando algunas de las categorías de la
variable dentro de un grupo, tiene frecuencia cero ó 100%.
Ejemplo: En una consulta psiquiátrica, se realiza un estudio de cuatro nuevos
medicamentos para la depresión y se controla la mejoría de los pacientes.
TRATAMIENTO PEOR IGUAL MEJOR TOTAL
A 40 0 60 100
B 15 67 18 100
C 8 24 68 100
D 0 45 55 100
5. Gráficos lineales:
Son gráficos adecuados para analizar la existencia de asociación entre dos variables cuantitativas.
Son particularmente útiles cuando se desea mostrar los cambios de una o más variables a través
del tiempo.
ESTADÍSTICA 28
6. Pictogramas:
Son una forma de representar la información mediante dibujos de los objetos que son motivo de
estudio, con un formato tal que de una idea rápida y visual, de la distribución de frecuencias.
Son especialmente útiles para fines publicitarios por ser atractivos y de fácil comprensión.
7. Gráficos de correlación o diagramas de correlación

Son apropiados para analizar la existencia de asociación entre dos variables cuantitativas. La
información se representa en pares ordenados (x,y).
Ejemplo
X: años de antigüedad de un motor
Y: costo de mantenimiento (en dólares)
Observación Años Costo
1 4.0 148
2 2.0 128
3 3.0 133
4 5.0 154
5 2.2 118
6 3.4 145
7 4.5 148
8 5.5 159
9 4.7 142
10 3.7 127
8. Histograma:
Este tipo de gráfico se utiliza para representar la distribución de variables cuantitativas, discretas o
continuas tabuladas en intervalos.
En el eje X se representa el recorrido de la variable y en el eje Y la frecuencia absoluta o relativa.

29
9. Polígono de Frecuencias:
Se puede utilizar este tipo de gráfico como una alternativa al Histograma, es decir, también se
utilizan para representar la distribución de frecuencia de variables cuantitativas continuas o
discretas tabuladas en intervalos.
En el eje X se representa el recorrido de la variable y en el eje Y la frecuencia absoluta o relativa.
El polígono de frecuencias es particularmente útil cuando se tienen dos variables: una variable
cuantitativa tabulada en intervalos y otra variable discreta, como en el siguiente ejemplo .
10. El diagrama de puntos

El diagrama de puntos es una gráfica muy útil para visualizar un conjunto pequeño de datos; por
ejemplo, de unas 20 observaciones. La gráfica permite ver rápidamente la tendencia y variabilidad
de los datos. Para su elaboración dibuje una línea horizontal demarcada con los valores
encontrados en los datos, luego coloque tantos círculos pequeños rellenos (o esfera) encima uno
de otro sobre el número del eje correspondiente al dato.
Ejemplo
ESTADÍSTICA 30
Se toman 10 mediciones del diámetro interno de los tornillos para los pistones del motor de un
automóvil. Los datos (en mm) son: 74.001, 74.003, 74.015, 74.000, 74.002, 74.005, 74.001,
74.001, 74.002 y 74.004. El diagrama de puntos correspondiente se presenta en la figura 1.
11. Grafico de tallo y hojas:

Se trata de gráficos construidos con números. Consta de dos elementos el tallo y las hojas.
El tallo esta formado por el primer o primeros dígitos de la variable, las hojas están formadas por
los dígitos finales no representados en el tallo y están ordenados de mayor a menor.
No hay reglas definidas, ni fórmulas.
Sean los datos
Grafico de Tallos y Hojas (Stem-and-leaf of PESO)

N = 57
Leaf Unit = 1.0
5 1 22269
24 2 1223334455577778888
(10) 3 0011226688
23 4 2223334567999
10 5 0117
6 6 3589
2 7 49
12. Gráfico de Cajas y Bigotes (Box and Whisker)

Los diagramas de caja hacen énfasis en las medidas de posición. Es útil para hacer
comparaciones entre muestras de distintas poblaciones, también nos permite visualizar
datos atípicos (outliers) par ver si son influyentes o no.
Diagrama de Pareto
25
24 46
23 52
22 41
71
47
62
21 43
93
65
28
94
20
19
EDAD
18
17
N= 80 20
HOMBRE MUJER
SEXO

31
13. DIAGRAMA DE PARETO
El Diagrama de Pareto es una gráfica en donde se organizan diversas clasificaciones de datos por
orden descendente, de izquierda a derecha por medio de barras sencillas después de haber reunido
los datos para calificar las causas. De modo que se pueda asignar un orden de prioridad
El nombre de Pareto fue dado por el Dr. Joseph Juran en honor del economista italiano Vilfredo
Pareto (1848-1923) quien realizo un estudio sobre la distribución de la riqueza, en el cual
descubrió que la minoría de la población poseía la mayor parte de la riqueza y la mayoría de la
población poseía la menor parte de la riqueza. Con esto estableció la llamada "Ley de Pareto"
según la cual la desigualdad económica es inevitable en cualquier sociedad.
El Dr. Juran aplicó este concepto a la calidad, obteniéndose lo que hoy se conoce como la regla
80/20. Según este concepto, si se tiene un problema con muchas causas, podemos decir que el
20% de las causas resuelven el 80% del problema y el 80% de las causas solo resuelven el 20%
del problema.
Cuando se utiliza
o Para estudiar los resultados
o Para planear una mejora continua
o Para demostrar qué progreso se ha logrado
Las Gráficas de Pareto son especialmente valiosas como fotos de “antes y después”. Como tal, la
Gráfica de Pareto es una herramienta sencilla pero poderosa.
Ejemplo: Un problema de interés para la División de Economía Comercial (DEC) del

Departamento de Trabajo de Estados Unidos. Cada año, la DEC monitorea la empresas que
fracasan y clasifica cada fracaso en una de las seis siguientes categorías: (1) falta de experiencia
en la línea de producción, (2) falta de experiencia gerencial, (3) experiencia desequilibrada, (4)
incompetencia, (5) otras causas (como negligencia, fraude y desastres naturales) y (6) causas
desconocidas. Estas informaciones se basan en las opiniones de acreedores informados y los
informes de la DEC. En fechas recientes, la DEC determinó la causa de 1463 fracasos de
empresas constructoras. Los fracasos se muestran en la siguiente tabla
Causas fi hi
Incompetencia 698 47.7%
Experiencia desequilibrada 314 21.5%
Falta de experiencia gerencial 236 16.1%
Falta de experiencia de línea 111 7.6%
Causa desconocida 83 5.7%
Otras causas 21 1.4%
TOTAL 1463 100%
ESTADÍSTICA 32
SESION
MEDIDAS DE TENDENCIA CENTRAL
El alumno deberá ser capaz de:
 Identificar las distintas medidas de resumen.
 Calcular e interpretar las tres medidas de tendencia central, tanto para datos agrupados como
sin agrupar.
II. TEMAS:
MEDIDAS DE RESUMEN
Entre las medidas que permiten resumir información proveniente de una población, podemos
considerar las medidas de posición, medidas de dispersión y medidas de forma, como se resume en el
siguiente diagrama.
 La tendencia central de los datos; (media, mediana, moda)

 Los datos que ocupan ciertas posiciones. (cuartiles, deciles, percentiles)
 La dispersión o variación con respecto a este centro;(desviación típica, varianza, coeficiente de
variación, rango)
 La forma en la que los datos se agrupan (asimetría, apuntamiento o curtosis)
Medidas De Tendencia Central
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la
información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su
interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representabilidad
de ellas está asociada con el grado de concentración de la información.
Los de uso más frecuente son la media aritmética, media geométrica, media armónica, mediana,
moda,
etc.
1. MEDI
A

33
ARITMÉTICA ( x ): Se le denomina también media y comúnmente se le conoce como

promedio.
Se denota como: x la media de la muestra
 la media poblacional.
Procedimiento de Cálculo
I. DATOS SIN AGRUPAR x i

; n = número total de datos
x i 1
II. DATOS AGRUPADOS

m
a) Sin intervalos x i fi
, donde m= número de intervalos ó de categorías
x i 1
n
EJEMPLO: Cantidad de cigarrillos consumidos por un fumador durante una semana
CANTIDAD (Xi) FRECUENCIA( fi ) Xi fi

18 1 18
19 2 38
20 1 20
21 2 42
22 1 22
7 140
�x f i i
140
x i 1
  20
n 7
Interpretación: La persona fuma en promedio 20 cigarrillos por día
b) Con intervalos  X f i i
X  i 1
n
Del ejemplo anterior
<Xi-1 - Xi] fi hi Fi Hi X i� X i f
i
<38 - - 3 0.14 3 0.14 41.5 124.5
45]
<45 - - 52] 2 0.10 5 0.24 48.5 97
<52 - - 59] 7 0.33 12 0.57 55.5 388.5
<59 - - 66] 3 0.14 15 0.71 62.5 187.5
<66 - -73] 6 0.29 21 1.00 69.5 417
21 1.00 1214.5
1214.5
Luego X   57.83
21
ESTADÍSTICA 34
Interpretación. La edad promedio de los trabajadores es de 57.83 años
Desventajas:
 Los valores extremos influyen sobre la media en algunos casos puede distorsionarlos llegando
a una conclusión errada
Por ejemplo los gastos de 3 médicos que trabajan en cierta zona son $300, $300 y $600
¿podemos concluir que el gasto promedio es de $400?
 No se puede hallar la media aritmética cuando en los extremos de los intervalo indica " Mas
de 700" o "Menos de 1000"
PROPIEDADES DE LA MEDIA ARITMÉTICA

1. La suma de las desviaciones con respecto a la media aritmética es igual a
n
cero. (x
i 1
i  x)  0
2. La suma de las desviaciones al cuadrado de los diversos valores con

respecto a la media aritmética es menor que la suma de las desviaciones al
cuadrado de los diversos valores con respecto a cualquier punto K, que no
 X  X   X  K .
2 2
sea la media aritmética. i i
3. Sean m submuestras de tamaño n1  n 2  .......  n m con medias aritméticas

X 1 , X 2 ........ X m . Entonces la media aritmética total X es la media
ponderada.
n1 X 1  n2 X 2  ......  nm X m
X 
n1  n2  ......  nm
Donde N  n1  n2  .......  nm
4. La media del producto de una constante por una variable, es igual al
producto de la constante por la media de la variable.
M ( KX ) 
 KX i

K Xi
 KX .
N N
5. La media de la suma de una constante más una variable, es igual a la media
de la variable más la constante
M ( X  Y )  X  X i K  
  X i  K    X i   K  X  K.
n n n
2. MEDIA RECORTADA AL 5%
n j
1 5
X 5%   xi
n  2 j i 1 j
si j 
100
n es un número entero
 Posible remedio al problema de la media con los valores atípicos (falta de robustez)
 Eliminación de los valores más extremos
 Media recortada al por 5% es la media de los datos que quedan después de eliminar el 5% de
los datos más grandes y el 5% de los datos más pequeños
Ejemplo:
Sean los 10 datos:
1.7 2.8 3.2 3.4 5.3 5.9 6.2 7.2 9.3 83

35
128
 La media aritmética x   12.8
10
 La media recortada al 50%
 El 5% de 10 es 0.5  1
 Luego quitamos un valor menor y un valor mayor (1.7 y 83)
43
 La media recortada es x Re c   5.41
8
Descriptive Statistics
Variable N Mean Median TrMean StDev SE Mean

C1 10 12.80 5.60 5.41 24.77 7.83
Variable Minimum Maximum Q1 Q3

C1 1.70 83.00 3.10 7.73
1 Ejercicio: Se realizó una encuesta, en una población de la ciudad de Viña del Mar.
En dicha encuesta, entre las cosas que se consultaron, se les preguntó: ¿Cuántas
personas habitan la casa?, ¿Cuántos T.V. tenían?. Dicha encuesta arrojó los
siguientes resultados:
Casa Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nº de
3 4 6 1 7 10 4 5 3 8 6 2 7 3 4 5 3 2 3 2
Hab.
Nº de TV 1 1 2 0 3 4 2 1 1 3 3 1 3 1 2 2 2 1 0 1
1 a) Construya tablas apropiadas para analizar en forma separada los datos.

2 b) ¿Cuál es la cantidad promedio de habitantes y TV por casa?.
3 c) Calcular la media recortada al 5% para los TV y la media recortada al 10% para el
número de habitantes por casa.
4
3. MEDIANA ( M e ): Sea x1, x2, ....xn un conjunto de n datos, la mediana es aquel valor que divide
en dos partes al total de observaciones.
Mediana para datos no agrupados

 X n1 si n impar
 2

Me  
X  X
 n2 n2 1
 si n par
 2
Procedimientos de Cálculo
Si consideremos el ejemplo de la edad en años de las ocho personas que sufren un extraño mal.
Se ordenan los datos, en este caso los ordenaremos de menor a mayor:
10 18 25 32 12 5 7 7
Ordenando los datos de menor a mayor
5 7 7 10 12 18 25 32
Como n = 8, que es un número par, utilizamos la expresión:
ESTADÍSTICA 36
Xn  Xn
1 10  12
Me  2 2
  11
2 2
Esto significa que el 50% de las personas que sufren este extraño mal tienen entre 5 y 11 años y el
50% restante tiene entre 11 y 32 años.
Mediana para datos agrupados
n 
  Fi 1 
Me  Li  Ci  2 
 fi 
 
 
<Xi-1 - Xi] fi hi Fi Hi
<38 - - 45] 3 0.14 3 0.14
<45 - - 52] 2 0.10 Fi 1 =5 0.24
Li  <52 - - 59] f i =7 0.33 12 0.57
<59 - - 66] 3 0.14 15 0.71
<66 - -73] 6 0.29 21 1.00
21
n 21
Si  Fi 1 Entonces  10.5  5
2 2
 10.5  5 
Luego Me  52  7   57.5
 7 
Interpretación.=
esto quiere decir que el 50% de los trabajadores tienen una edad sobre 43.5 años y el otro 50 %
por debajo de los 43.5 años.
NOTA:
1. Los valores extremos no tienen efecto importante sobre la mediana, lo que si ocurre con la
media
Sean los datos 4,5,6,7,8 luego, X  M e  6 , pero si en lugar de 8 fuera 80 entonces la media
sería M e  6 pero la media aritmética X  20.4
4. MODA ( M 0 ): Es el valor de la variable que se presenta con mayor frecuencia, valor que se
corresponde al máximo del histograma.
Procedimiento de Cálculo
X : Notas 12,11,08,06, 11, 16  M 0 = 11 unimodal.
Y : Pesos 62,77,70,62,88,55,70  M 0 = 62 y 70 bimodal
X : Tallas 1.77, 1.66, 1.89, 1.75  M 0 = No existe moda

37
NOTA:
La moda se puede
utilizar para describir
datos cualitativos, por
ejemplo suponiendo
que los pacientes de
un hospital de salud
mental durante un año
recibieron los
siguientes
diagnósticos:
neurosis, psicosis,
trastorno de la
personalidad. .etc.
El diagnóstico que
ocurre con más
frecuencia se llama
diagnóstico modal
MEDIDAS DE POSICION
En el Capitulo anterior, vimos lo referente a las medidas de tendencia central, las cuales, a su vez, son
también medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información.
Nos ocuparemos ahora de ciertos parámetros posicionales muy útiles en la interpretación porcentual
de la información.
CUARTILES: Cuando se divide a un conjunto de datos en cuatro partes iguales, a los puntos de
división se les llama cuartiles
El primer cuartil Q1 es un valor en el cuál 25% de las observaciones es menor que él y 75% son
mayores que él.
Es el segundo cuartil Q2 es la mediana, el 50% de las observaciones son menores y el 50% son
mayores que él.
Es el tercer cuartil, Q3 es el valor en el cual el 75% las observaciones son menores que él y 25% son
mayores que él.
Ejemplo: Una muestra de 15 trabajadores de una ciudad indica la distancia que recorren para llegar a
su centro laboral.
ESTADÍSTICA 38
Trabajador Distancia (Km.) Trabajador Distancia (Km.)

1 5 9 13
2 9 10 7
3 11 11 3
4 3 12 15
5 12 13 12
6 13 14 15
7 12 15 5
8 6
a) Hallar la distancia promedia recorrida

b) Hallar la mediana e interprete
c) Hallar la moda
RELACION ENTRE X ,Me y Mo
En el caso de distribuciones unimodales, la mediana esta frecuencia comprendida entre la media y la

moda (incluso mas cerca de la media)
En las distribuciones que presentan cierta inclinación, es más aconsejable el uso de la mediana. Sin
embargo en estudios relacionados con propósitos estadísticos y de inferencia suele ser mas apta la
media.
 Si X > M e > M o  La distribución es asimétrica a la derecha (asimetría +)
“La mayoría de las observaciones se encuentran por debajo de la media”
 Si X < M e < M o  La distribución es asimétrica a la izquierda (asimetría -)
“La mayoría de las observaciones se encuentran por encima de la Media“
La identificación de la tendencia y nivel del sesgo de los datos, servirá parar hacer correcciones al
hacer inferencia estadística. También permitirá seleccionar la mejor medida para lograr las
estimaciones deseadas.
 Si X = Me = Mo  La distribución es simétrica

39
Si se presenta un caso en que la Media, Moda y

Mediana coinciden en valor, se dice que los datos se
distribuyen simétricamente. Este caso es hipotético,
difícilmente se dan, por lo tanto se debe tener cierta
flexibilidad al interpretar el comportamiento de estos
resultados.
Ejemplo: Sean los datos X = 1088.30 dólares, Me

=1092.50 dólares y Mo = 1110 dólares
La distribución presenta un sesgo aparente de tipo

negativo o a la izquierda. Este no es significativo, ya que todas las medidas de tendencia central caen
en el mismo intervalo, por consiguiente, se presume que es aproximadamente normal su distribución.
SESION
MEDIDAS DE DISPERSION
El alumno deberá ser capaz de calcular e interpretar las medidas de dispersión: rango, varianza y
desviación estándar.
II. TEMAS
MEDIDAS DE DISPERSIÓN
Las medidas de posición por si solas, no son suficientes para describir las distribuciones, ya que ellas
no consideran la variabilidad de estas. Al comparar dos o más distribuciones puede suceder que estas
tengan el mismo promedio, pero que la dispersión de los valores observados no sea la misma.
Una medida de dispersión, tiene como propósito ofrecer información adicional que permita juzgar la
confiabilidad de la medida de tendencia central.
Las medidas de dispersión más importantes son: el rango, varianza, coeficiente de variación,
desviación intercuartílica.
1. RANGO ( R ): Sirve para medir la variación de un conjunto de valores.

R  X max  X nim
2. RANGO INTERCUARTIL: Dc= Q3 – Q1

Permite ubicar 50% de los datos que se encuentran en el centro de la distribución, es decir, 25%
de los datos son menores al primer cuartil y también 25% de los datos son mayores al tercer
cuartil.
3. VARIANZA: La varianza de una muestra de n observaciones, x1 , x 2 , x 3 ,.......x n , se usa para

comparar dos o más poblaciones. A mayor dispersión más heterogeneidad en sus valores.
La varianza poblacional
N
�( x   )
i
2
2  i 1
N
ESTADÍSTICA 40
2
N
 N 
x 2
i   xi 
En forma simplificada:  2  i 1
  i 1 
N  N 
 
 
n
La varianza muestral
 (x i  x)2
s2  11
n 1
En forma simplificada 2
 n 
n
  xi 
 xi   i 1 
2
n
s 2  i 1
n 1
Ejemplo: Se uso dos tipos de máquinas para la producción de un tipo de agujas descartables, a
continuación se muestran los tiempos en segundos
A: 14, 24, 46, 50, 70 X = 40.8 M e = 46
B: 15, 38, 46, 52, 53 X = 40.8 M e = 46
¿En cuál grupo hay menos dispersión?
A B
xi x 2
i
xi xi2
14 196 15 225
24 576 38 1444
46 2116 46 2116
50 2500 52 2704
70 4900 53 2809
5 5 5 5
 xi  204
i 1
 xi2  10288  xi  204
i 1
x i
2
 9298
i 1 i 1
Reemplazando
A B
2
(204) (204) 2
10288  92998 
s2  5 s2  5
4 4
s 2  491.2 s 2  243.7
Como el grupo B tiene menor varianza por lo tanto hay menos dispersión
En el diagrama de puntos (dotplot) vemos que el grupo B los datos están mas agrupados alrededor de
la media
. . . . .
++++++A
. . . ..
++++++B
20 30 40 50 60 70
PROPIEDADES:

41
1. Si a y b son constantes, se cumplen las siguientes propiedades.

I. Si Y = a   Y2  0
II. Si Y  X  b   Y2   X2
III. Si Y  aX   Y2  a 2 X2
2. Para distribuciones normales siempre se cumple que:
68.27 % de los datos se encuentran en el intervalo ( X  S).

95.45 % de los datos se encuentran en el intervalo ( X  2S).
99.73 % de los datos se encuentran en el intervalo ( X  3S).
Estos valores se cumplen con bastante aproximación, para distribuciones que son
normales y para las que son ligeramente asimétricas
Ejercicio: Los siguientes datos corresponden a los tiempos (en minutos) que duran
36 llamadas telefónicas recibidas por una central:
1 a) Construya una tabla de frecuencias con seis intervalos de igual amplitud.

2 b) Construya un histograma de frecuencias relativas porcentuales.
3 c) ¿Qué porcentaje de llamadas se encuentran en el intervalo ( X  2S). e interprete;
Ejemplo
Los trabajadores de cierta empresa tienen un sueldo promedio de $383.290, con una varianza de
30.571 ($)2. Si a cada trabajador se le aumenta el sueldo en 8% más un bono de $10.500. Determine el
sueldo promedio y la varianza luego del aumento.
Desarrollo:
Llamemos:
X: sueldos antes del aumento.
Y: sueldos después del aumento.
 x  383.290 y  X2  30.571$ 2
ESTADÍSTICA 42
a  1.8 y b  $10.500
 y  a x  b   y  1.8  383.290  10.500  424.453,2
 Y2  a 2 X2   Y2  (1.8) 2  30.571  35.658.0144
Por lo tanto $424.453,2 y 35.658,0144 ($)2 son, respectivamente el sueldo promedio y la varianza de
los sueldos después del aumento.
3. DESVIACIÓN ESTÁNDAR (TÍPICA): Es la raíz cuadrada de la varianza.

n

 (x i  x)2
s i 1
n 1
Luego la desviación estándar de A es s  491.2 = 22.16
y la desviación estándar de B es s  243.7 = 15.61 luego la mas homogénea es la B
4. COEFICIENTE DE VARIACIÓN: Es una medida de variabilidad relativa de los datos, permite

comparar la variabilidad de dos o más conjuntos de datos expresados en unidades diferentes
s
C.V .   100
X
Tipo X S C.V.
A 40.8 22.16 0.5431
B 40.8 15.16 0.3826
NOTA:
 Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes
variables. Ejemplo si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
 No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una
cantidad fijada arbitrariamente. Por ejemplo 0ºC ≠ 0ºF
Reporte del SPSS

Reporte del MINITAB
Descriptive Statistics Variable: TIPOB
Variable: TIPOA
Anderson-Darling Normality Test
A-Squared: 0.431
Anderson-Darling
P-Value: Normality Test
0.171
A-Squared: 0.205
Mean
P-Value: 40.8000
0.730
StDev 15.6109
Mean
Variance 40.8000
243.7
StDev
Skewness 22.1630
-1.51515
Variance
Kurtosis 491.2
2.13976
Skewness 6.99E-02
NKurtosis 5
15 25 35 45 55 -1.10743
N 5
10 20 30 40 50 60 70 Minimum 15.0000
1st Quartile
Minimum 26.5000
14.0000
Median
1st Quartile 46.0000
19.0000
3rd Quartile
Median 52.5000
46.0000
3rd Quartile
Maximum 60.0000
53.0000
95% Conf idence Interv al f or Mu
95% Conf idence Interv al f or Mu Maximum 70.0000
21.4165 60.1835
13.2810 68.3190
15 25 35 45 55 65 95% Conf idence Interv al f or Sigma
10 20 30 40 50 60 70 95% Conf idence Interv al f or Sigma
Profesor : Ms. Aurelio Gámez Torres 9.3530
13.2786 44.8588
63.6867
95%
95%Conf
Confidence
idence Interv
Interval
al ffor
or Median
Median
95% Conf
95% idence
Conf Interv
idence alalf or
Interv f orMedian
Median 15.0000
14.0000 53.0000
70.0000
43
Ejemplo:
1. En una Empresa donde los salarios tienen una media de $100 y una desviación estándar de $10, el
sindicato solicita que cada salario X, se transforme en Y, mediante la siguiente relación
Y = 2,5 · X +10. El Gerente acoge la petición rebajando los salarios propuestos por el sindicato
en10%, lo que es aceptado. ¿Qué distribución de salarios es más homogénea? ¿Qué propuesta
prefieren los trabajadores?
Solución:
Tenemos: la propuesta del sindicato
X =100 S X = 10.
Luego: Y  2.5 X  10  Y  2.5 X  10 = 2.5(100)+10=260
 S Y  2.5S X  2.5(10)  25
S 25
Por lo tanto CV (Y )  Y  260  0.09615
Y
La propuesta de la Gerencia
Z  Y  10%Y  0.9Y  Z  0.9Y  0.9( 260)  234
 S Z  0.9S Y = 0.9(25) = 22.5
SZ 22.5
Por lo tanto CV ( Z )    0.09615
Z 234
Ambas distribuciones son iguales de homogéneas. El sindicato prefiere su propuesta, ya que, esta
tiene un promedio mayor
EJERCICIOS
1. En una empresa comercial, el salario medio semanal de los hombres es de $40.000 con una
desviación estándar de $15 y el de las mujeres es en promedio de $30.000 con desviación estándar
de $12
¿Halle el coeficiente de variación de los salarios de los hombres y mujeres?
2. El CV de los ingresos de 200 empleados de cierta empresa es 57%. Después de reajustar, según
ley, todos los sueldos en S/.11,000 este CV es ahora de 50%. Sin embargo la empresa fija un
sueldo mínimo de S/.71,000 Antes del reajuste había 35 personas que tenían un sueldo promedio
de 40,000 y todos ellos ganaban menos de $60,000; con la nueva política de la empresa, sus
sueldos serán elevados a $71,000
Determinar la cantidad de dinero que necesitará la empresa, para pagar los sueldos después de
hacer efectivos los reajustes.
3. Un grupo de 80 estudiantes se compone de 35 hombres. En un test, el puntaje medio de las

mujeres fue de 70 puntos y del grupo completo fue 66.5 puntos.
1 a) Determine el puntaje medio de los hombres.
2 b) Si se cambia la escala de puntajes mediante la transformación Y  2 X i  5 ( X i : puntaje
antiguo, Yi puntaje nuevo), determine el nuevo puntaje medio de hombres, mujeres y el grupo
completo.
3 c) Compruebe que si se aplica la transformación al puntaje medio del grupo total (66.5) se
obtiene el mismo resultado que si se calcula el puntaje medio del grupo total transformado, como
promedio ponderado de los puntajes transformados de hombres y mujeres (trate de comprobar esta
propiedad en forma general).
MEDIDAS DE ASIMETRIA (SESGO)
ESTADÍSTICA 44
Existen varias medidas de la asimetría de una distribución de frecuencias. Aquí estudiaremos dos de
ellas
Coeficiente de Asimetría de Pearson
3( X  M e )
C. A. 
s
Si:
C.A. > 0 entonces la distribución tiene sesgo positivo
C.A .< 0 entonces la distribución tiene sesgo negativo
C.A .= 0 entonces la distribución es simétrica.
Ejemplo: El tiempo de permanencia de los pacientes en un hospital se resumió en una tabla de

frecuencia y los datos fueron. La duración media 28 días, la mediana 25 días, la duración modal 23
días y la desviación estándar 4.2 días.
¿Qué tipo de distribución tiene?
¿Cuál es el coeficiente de asimetría?
Solución
a) Como X  M e  M 0 entonces es una distribución asimétrica con sesgo positivo
3(28  25)
b) C. A.   2.14 indica un grado importante de asimetría con sesgo positivo
4.2
Otra medida de sesgo viene dada por el Coeficiente de Asimetría de Fisher
3
n n
 xi  x 
CAsim  
( n  1))(n  2) i 1  s 

La interpretación del Coeficiente de Asimetría es la misma que la del coeficiente de Pearson: si la

distribución es simétrica vale cero, siendo positivo o negativo cuando exista asimetría a la derecha o
izquierda respectivamente
Los programas estadísticos usan este coeficiente.
1 n
Asimetría respecto a la media n
� ( xi  x )3
As  i 1 3
s
Medidas de Forma o Kurtosis
Indican el nivel de concentración de los datos respecto a su media.

45
1 n
n
 ( xi  x ) 4
K  i 1 4 3
s
Donde s es la desviación estándar

Si:
K> 0 Leptocúrtica (aguda) es decir, es más apuntada que la normal., los valores que toma la variable
están muy concentrados en torno a su media y hay pocos valores extremos.
K  0 Mesocúrtica (normal) es decir, es tan apuntada como la normal.
K< 0 Platicúrtica (plana) es decir, es menos apuntada que la normal, hay muchos valores extremos, las
colas de la variable son muy pesadas.
ANÁLISIS EXPLORATORIO DE DATOS
Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio que nos permita ver la
naturaleza de los datos.
Las técnicas de análisis exploratorio son útiles cuando se trabaja con grandes cantidades de datos, en
tales casos es de gran importancia organizar los datos.
El Análisis exploratorio utiliza medidas de tendencia central y de dispersión que tienen la propiedad
de robustez, es decir estadísticos que son relativamente insensibles a cambios extremos de algunos de
los datos
HERRAMIENTAS :
 Gráfico de Cajas y Bigotes(Box and Wisker): Nos muestra un gráfico que nos
permite detectar los outlier y el comportamiento asimétrico de la serie puesto que
lo divide en cuatro partes iguales. La caja cubre el 50% de los datos entre el
cuartil inferior y el cuartil superior.
Una caja se construye en base a la mediana ( M e ), el cuartil inferior ( Q1 ), el

cuartil superior ( Q3 ) y el rango intercuartílico (dispersión cuarta) Dc .
Si algún dato es menor que Q1  1.5 Dc o es mayor que Q3  1.5 Dc entonces es un
dato discordante y son marcados con una x
ESTADÍSTICA 46
º
x
dato atípico
Q 1 ,-1.5D c Q1 Me Q3 Q 3 +1.5D c
Donde: Los datos atípicos (outliers): desde 1,5 a 3 RI se indica como º

Los datos atípicos extremos: más de 3 RI se muestra con una x
Ejemplo Buscar si hay datos discordantes en: 157 96 73 49 36 59.

95 169 210 278 298 245.
Solución:
 Se ordena forma ascendente, las observaciones a esta característica se llaman
medidas de estadísticas de orden
1 36 X(1)
2 49 X(2)
3 59 ...
4 73 ...
5 95 ...
6 96 X(6) Me=126.5
7 157 X(7)
8 169 ...
9 210 ...
10 245 ...
11 278 ...
12 298 X(12)
 Luego hallamos la mediana
Xn  Xn
 2 2 1 n  par

Mediana   2
 X n1 n  impar
 2
47
 Hallar los cuartiles Q1 y Q3
 n 1
i)Si 4  Z  Q1  X n1
4
Cuartil inferior ( Q1 ) =
ii) Si n  1  Z  Se Interrpola
 4
 3(n  1 )
i)Si 4  Z  Q3  X 3(n1 )
4
Cuartil superior ( Q3 ) =
ii) Si 3(n  1 )  Z  Se Interpola
 4
12  1
Hallar, Q1 , si  3.25  Z entonces se interpola .
4
Q1 es el tercer dato más el 25% de las diferencias entre los valores de la cuarta y tercera
observación.
Q1 = X(3) + (X(4) –X(3)) 0.25
Q1 = 59 + (73-59)x0.25=59 +3.5 =62.5
3(12  1)
Hallar, Q3 , si  9.75
4
Q3 es el noveno dato más el 75% de las diferencias entre los valores de la décima y novena
observación.
Q3 = X(9) + (X(10) –X(9)) 0.75
Q3 = 210 + (245 - 210)x0.75= 210 +26.25 = 236.25
 Rango intercuartílico, Dc = Q3 - Q1 = 236.25 – 62.5= 173.75

 Se consideran datos discordantes sí:
> Q3  1.5 Dc = 236.25 + 1.5 x 173.75= 496.875
< Q1  1.5 Dc = 62.5 - 1.5 x 173.75 = - 198.125
Luego observamos que no hay datos discordantes
Variable N Mean Median Tr Mean StDev SE Mean

A 12 147.1 126.5 143.1 92.7 26.8
Variable Min Max Q1 Q3

A 36.0 298.0 62.5 236.2
ESTADÍSTICA 48
Ejercicios
1. En tres computadores con dispositivo de cinta DAT, se ha medido durante ocho días el
tiempo (en minutos) de realización de la copia de seguridad, obteniéndose los siguientes
resultados:
Computador 1 Computador 2 Computador 3

22.02 21.49 20.33
26.67 24.62 24.67
23.83 22.67 21.67
25.38 24.18 22.45
25.49 22.78 22.28
23.50 22.56 21.95
25.90 24.46 20.49
24.98 23.79 21.81
a) Obtener el gráfico caja para los resultados de cada computador.

b) Comentar el gráfico. ¿Hay simetría?
c) ¿Son parecidos los resultados?
d) ¿Cuál de ellos tiene más dispersión? ¿Hay algún valor atípico o extremo?
2. En la tabla adjunta tenemos la representación de un conjunto de datos obtenidos de una

población; se trata de una muestra de 20 ordenadores de una tienda informática, de los
cuales observamos varias características; para cada ordenador obtenemos datos
correspondientes a las variables:
X1: Marca. (1)
X2: Número de periféricos.
X3: Precios de la C.P.U. en euros.
X4: Sistema Operativo preinstalado.(2)
Marca
1. IBMP. Sistema Operativo
2. COMPACP. 1. WinXP.
3. ARCP. 2. Win98.
4. SUNP. 3. LINUX.
5. PCP. 4. Win NT.
6. HPP. 5. SCO UNIX
7. SS1. 6. MS-DOS.
8. TXP.
a. Clasificar las variables. Dar una explicación razonada de la clasificación.

b. Construir las tablas de frecuencias de las variables X1 y X4. ¿Qué conclusiones puedes
extraer de las tablas de frecuencias?
c. Representar la variable X1 de dos formas distintas: mediante un diagrama de barras y
mediante un diagrama de sectores. ¿Qué conclusiones extraes?
d. Representar mediante un diagrama de barras la variable X3. Interpreta el resultado.

49
e. Hacer un análisis exploratorio e interprete

f. ¿Qué conclusión puede extraerse de este estudio?
3. Los siguientes datos corresponden a los pesos en onzas de tumores malignos retirados del
abdomen de 57 trabajadores mineros del hospital de la Oroya.
Presentar un informe de los resultados de este reporte del Minitab
68 63 42 27 30 36 28 32 79 27
22 23 24 25 44 65 43 25 74 51
36 42 28 31 28 25 45 12 57 51
12 32 49 38 42 27 31 50 38 21
16 24 69 47 23 22 43 27 49 28
23 19 46 30 43 49 12
Variable N Mean Median Tr Mean StDev SE Mean

PESO 57 36.72 32.00 35.98 15.87 2.10
Variable Min Max Q1 Q3

PESO 12.00 79.00 25.00 46.50
Character Stem-and-Leaf Display

ESTADÍSTICA 50
Stem-and-leaf of PESO N = 57
Leaf Unit = 1.0
5 1 22269
24 2 1223334455577778888
(10) 3 0011226688
23 4 2223334567999
10 5 0117
6 6 3589
2 7 49
Completar la siguiente tabla:
4. Los salarios mensuales de 4 individuos son S/.. 1500, 1600, 1650 y 2000. Hallar el salario medio.
Ahora entra a trabajar una nueva persona en la empresa, percibiendo un salario de S/..5000
mensuales. ¿Se verá afectado el salario medio tras esta incorporación? ¿Crees que la media es una
medida de centralización adecuada en los dos casos?. En caso de que no lo sea, propón y calcula
otra medida de centralización más adecuada.
5. Complete las líneas en blanco que aparecen a continuación.

a) Las medidas de tendencia central que siempre existen son _________ y _________.
b) Cuando existen datos extremos no es adecuado el empleo de la ___________ como medida de
tendencia central.
c) La medida de variabilidad que es adecuada calcular cuando las medias de los grupos difieren
es ______________.
d) Cuando aproximadamente el 65% de los datos está en el intervalo [x-s; x+s] la distribución de
los datos es:_________________.
e) La clase ________es aquella dónde la frecuencia es mayor.
f) El rango intercuantil se calcula como_______________.
g) Los _______________ dividen a la distribución en cuatro partes iguales.
h) La varianza indica la distancia promedio de cualquier observación del conjunto de datos con
respecto a _______________.

51
i) La diferencia entre el valor más alto de un conjunto de datos y el mínimo se conoce como
____________.
6. Periódicamente la industria realiza mediciones de trabajo. En el último análisis de

medición del tiempo requerido para generar una sola unidad de producción, se midió
durante 50 días el número de horas-operario totales necesarias para realizar cierta tarea. El
resumen del análisis descriptivo de los datos es el siguiente
Nota: todas las interpretaciones que se piden a continuación, y en general, debe hacerlas en
el contexto del problema.
a) Indique el valor de la/s moda/s e interpretar su resultado en el contexto del problema.
b) ¿Qué porcentaje de valores observados para el tiempo es igual o superior a 131 horas?
Justificar
c) Interpretar el valor numérico del cuartil inferior
d) Interpretar el valor numérico de la desviación estándar
e) Realice el diagrama de caja
g) ¿Aparecen valores atípicos? ¿y apartados? Justifique su respuesta.
BIBLIOGRAFIA
 Cadoche, L. S.; G. Stegmayer, J. P. Burioni y M. De Bernardez (1998). Material del Seminario de Encuestas en Educación,
impartido vía internet por parte de la Universidad Nacional del Litoral, en Santa Fe, y de la Universidad Tecnológica Nacional,
Regional Santa Fe, en la República de Argentina.
 Devore Jay, L. “Probabilidad y Estadística para Ingeniería y Ciencias Aplicadas”. 4ª edición Editorial Thompson. 2000.
 Irak L. Berenson & David M. Levine Estadística Básica en Administración 5º Edición Editorial Prentice Hall 2000
 Montgomery, C. Douglas & Runger, C. George. “Probabilidad y Estadística aplicadas a la Ingeniería”. Editorial McGraw-Hill,
1996.
 Walpole, Myers. “Probabilidad y Estadística para Ingenieros”. Editorial Prentice Hall. 1998.
 Canavos, George C. “Probabilidad y Estadística”. Editorial McGraw-Hill, 1990.
 William Mendenhall Introducción a la Probabilidad y Estadística. Editorial Iberoamerica,1999
 Irwin Miller y John Freund Probabilidad y Estadística para Ingenieros Editorial: Prentice Hall, 2000
 Marija J. Norusis - SPSS Advanced Statistics 11.0 – SPSS Inc., Chicago, IL, 2002.

Manual Estadistica

Cargado por

Copyright:

Formatos disponibles

Manual Estadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Estadistica

Cargado por

Copyright:

Formatos disponibles

0

Prof. Aurelio GAMEZ TORRES

La palabra estadística se origina, en las técnicas de recolección, organización, conservación, y

El avance tecnológico en la informática ha contribuido enormemente al desarrollo de la estadística,

Si el dato es útil para a tomar decisiones se convierte en INFORMACIÓN

UNIDAD DE ANÁLISIS: Es el objeto o elemento indivisible que será estudiado.

La población puede ser:

 A cada uno de los elementos de la población se le llama individuo o unidad estadística

o Se simboliza por letras griegas

Profesor : Ms. Aurelio Gámez Torres

o Sólo hay un parámetro en cada población

 Censo: Estudio realizado en todos y cada uno de los

MUESTRA: Es un subconjunto de la población, es decir es la parte representativa de la población

o Existen tantos estimadores como muestras se extraigan de una población.

 Muestreo: Es un procedimiento de selección de los elementos a ser estudiados o encuestados

El tamaño de la muestra se representa por la letra n.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los

Profesor : Ms. Aurelio Gámez Torres

EJEMPLOS DE ESTADÍSTICA INFERENCIAL:

 ordinales medirse. A su ves se clasifican en:

2. VARIABLES CUANTITATIVAS: Son expresiones que se describen mediante números.

Profesor : Ms. Aurelio Gámez Torres

 Variable Continua: Pueden tomar cualquier número dentro de un intervalo.

X: Peso (Kg.) X = (55.6, 70.0, 89.5,....)

II. Por su relación

 Variable Independiente: (Antecedentes, Causas, Insumos): Es la que modifica de una u otra

 Variable Dependiente: (Consecuencias. Efectos, Resultados): Es la variable motivo de

 Variable Interviniente o alterna (Constructos Teóricos)

Es la variable que se interpone entre la variable independiente y dependiente y en el

III. Por el valor de su medición

 Variable Nominal: Ubicación en una sola categoría(sexo, colores, estados civil)

 Variable de Intervalo: Es un conjunto de valores numéricos para lo que la distancia entre

Profesor : Ms. Aurelio Gámez Torres

ETAPAS DE LA INVESTIGACIÓN ESTADÍSTICA

El objetivo de la investigación es descubrir respuestas a determinadas interrogantes, a través

ESTRUCTURA DE UN PROYECTO DE INVESTIGACIÓN

La formulación del problema, es la estructuración de toda la investigación, de tal forma

En primer lugar, deberá revisarse si el problema es susceptible de resolverse mediante una

DETERMINACIÓN DE LOS OBJETIVOS: Debemos fijar cuales son nuestras metas y

JUSTIFICACIÓN DEL ESTUDIO: Una vez que se ha seleccionado el tema de investigación,

LIMITACIONES DE LA INVESTIGACIÓN: Es pertinente dar al problema una formulación

 Definición de términos básicos

Recomendación: al escribir el título, el problema, objetivos y las

8. CRONOGRAMA DE EJECUCIÓN: Con ayuda de un Diagrama Gantt o un PERT, para

Profesor : Ms. Aurelio Gámez Torres

Si la cifra que sigue es mayor a 5, se aumenta 1.

Ejemplo: Redondeo a 2 decimales

La recolección de datos es la fase en el cuál el investigador se pone en contacto con

Ejemplo: Datos publicados en las revistas especializadas, base de datos

Principales organismos que disponen de publicaciones son:

Ejemplo: La observación de un paciente cuando espera en la sala de

Ejemplo Se pretender lanzar al mercado una nueva presentación de una

Profesor : Ms. Aurelio Gámez Torres

 No Estructurada: Se da al entrevistado, previamente un conjunto

Ejemplo: Encuesta para saber el grado de satisfacción de los

RECOMENDACIONES PARA LA ELABORACIÓN DE

 Las preguntas deben ser coherentes con el objeto de la investigación

 No formular preguntas dirigidas. Evitar adjetivos

 Neutralidad de las preguntas. El investigador debe intentar adoptar una