Notas de Estadística-2023

Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública.
Mayo
de 2023
1
NOTAS DE ESTADÍSTICA Y PROBABILIDAD

Curso Común a los tres pregrados
EUGENIO PANIAGUA SUÁREZ

ramon.paniagua@udea.edu.co
Tel: 2196827
CEL: 3122278165
FACULTAD NACIONAL DE SALUD PÚBLICA

UNIVERSIDAD DE ANTIOQUIA
MEDELLÍN
Mayo de 2023
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
2
TABLA DE CONTENIDO
Página
A. CONCEPTUALIZACIÓN
1. La salud pública 4
2. Los sistemas de información en la sociedad 6
3. Los enfoques cualitativo y cuantitativo en la investigación 7
4. Conceptos básicos de estadística 8
B. FRACCIONES 9
5.2 Porcentajes. Ejercicio 1. Indicadores demográficos 12
5.4 Tasas. Tabla 6 12
6. Práctica 1 12
C. VARIABLES 16
7.1 Clasificación de las variables 16
7.2 Identificación de variables 17
7.3 Variable dependiente y variable independiente. Ejercicios 2 y 3. 17
7.4 Gráficas según la medida de las variables 17
D. LA ENCUESTA 19
8.1 Cuadro de variables de una investigación 24
8.2 Diseño de un cuestionario 25
8.3 Un cuestionario para indagar sobre saneamiento básico 26
8.4 Análisis de una variable cualitativa. Ejercicios 7 al 9 27
8.5 Ejemplo de una encuesta sobre un estudio de hipertensión arterial. Ejercicio 4 30
8.6 Componentes del análisis de una encuesta 32
8.7 Informe de la encuesta de hipertensos 33
9.1 Instalación del R 34
9.2 Ejemplo de una encuesta en R 35
9.3 Análisis de la encuesta Turbo 1 41
9.5 Análisis de la encuesta Turbo 2 45
E. MUESTREO
10. Selección de una muestra aleatoria simple de estudiantes. Ejercicio 10 49
11. Valoración de una escala de medida 50
11.1. Distribución normal 51
12. Análisis de variables cuantitativas. 52
12. 1 Tabla de frecuencia 54
12.2 Diagrama de tallos y hojas 55
12.3 Estadísticos de resumen 59
12.4 Diagrama de caja 65
12.5 Distribución de frecuencia 72
12.6 Taller de ejercicios 74
F. RELACIÓN DE DOS VARIABLES 74
13.1 Relación de dos variables cualitativas. Tabla de contingencia 74
13.2 Relación de dos variables cuantitativas. Regresión lineal 76
13.3 Tres ejemplos de regresión lineal simple 83
G. PROBABILIDAD 85
14.1 Espacios muestrales y eventos 87
14.2 Taller No 1 de ejercicios sobre probabilidad 89
14.3 Principio de la multiplicación para el conteo de puntos muestrales 92
14.4 Algunas leyes de probabilidad 94
14.5 Regla de la adición 94
14.6 Probabilidad condicional 96
14.7 Regla multiplicativa de la probabilidad de dos eventos 102
H. PROYECTOS DE AULA
15.1 Proyecto de aula sobre una subzona geográfica 110
15.2 Proyecto de aula sobre la factura de EPM 113
de 2023
3
A. CONCEPTUALIZACIÓN
1. LA SALUD PÚBLICA
1.1 Contexto a la salud pública
Para González (2002)10, en salud y educación, hay bienes muy complejos donde la lógica de los precios no
funciona. La naturaleza del bien salud es compleja; generalmente, se mira de manera restringida, frente a la
vida y la muerte; el sistema de aseguramiento que estipula la Ley 100 de 1993 entra en esa complejidad y se
debe liberar del núcleo que es la lógica de los precios para pensar en las políticas públicas. Lo público
aparece bien definido en la Constitución de 1991 pero hay que liberarlo del núcleo de la lógica de los precios.
Existe una dicotomía entre lo financiero y la política social porque están centrados en el núcleo; hay una
tecnocracia esquizofrénica que sigue pegada al núcleo y por eso la gestión financiera monetaria y cambiaria
condiciona a la política social. Adam Smith y Bertol Smith son conscientes de que hay que liberarse del
núcleo con cualquier ideal ético para construir lo público y entonces la política estatal es secundaria. El
problema es definir bien lo público para regular la intervención del Estado. En Colombia, hay que definir bien
lo público en salud y educación. Cuando se acepta un subsidio a la demanda, la salud, se mete en el núcleo.
Para Keynes, las sociedades sin pobres se logran mediante modelos de desarrollo económico incluyentes. En
los 80`s se empieza a desarrollar una tecnocracia en el mundo que desconoce la teoría económica porque se
trabaja en la modelización matemática sin haber leído la teoría económica. Walraz en 1910 es el encargado de
trasladar las matemáticas a la economía; estuvo en la comuna de París y la defiende; pensaba que la propiedad
de la tierra debe ser para el Estado y construir luego el mercado; Arrow es el que continúa la modelización
matemática siguiendo a Walraz; Arrow se basa también en filósofos como Platón y Kant. Los economistas
contemporáneos, creen que la economía es una ciencia exacta y se quedan aprisionados en el núcleo porque
parece desconocen a los clásicos de la teoría económica y a los filósofos. El comportamiento tecnocrático
impide ver el problema de centrarse en el núcleo y dejar de ver lo complejo de la educación y la salud. Los
condicionantes y determinantes de la salud están por fuera del sector salud, por ello, hay que hablar de
políticas públicas. La relación entre crecimiento, distribución y pobreza es una discusión de vieja data; hoy en
el gobierno y desde hace 20 años, se habla en términos apocalípticos; hay que crecer, para mejorar la calidad
de vida. Hay otra visión de muchos economistas que dicen que hay que empezar a vivir bien desde el minuto
siguiente: Marshall, Keynes, Amartya Senn; si se redistribuye, hay márgenes de acción. Hay que pensar el
reordenamiento de la sociedad en forma distinta; más de 22 millones de colombianos no pueden seguir
haciendo sacrificios; hay que manejar de manera heterodoxa la economía; los mensajes apocalípticos no son
buenos. Es posible romper la dicotomía entre lo financiero y la política social. El Sistema General de
Seguridad Social, SGSSS no se financia en ninguna parte del mundo; los problemas de salud no se resuelven
al interior del sistema; se requieren recursos públicos (participación del Estado). La inequidad se genera en: la
focalización de los ricos, los pobres y los más pobres; en el plan diferencial de servicios a los más pobres; en
separar un bien que no se puede separar para ofrecer bienes para algunos en los servicios preventivos y
curativos; se pierde la visión territorial del problema y se segmenta en prestadores de servicios,
desconociéndola.
Para Nieto (2002)11, la edad de oro en las políticas públicas se da en el Estado benefactor. En 1920, Keynes
define nuevas condiciones para la relación Estado-economía en la cual el Estado asume un papel protagónico
porque define las políticas públicas. Hoy, las políticas públicas se impulsan de acuerdo con una tendencia, por
actores privados, no estatales que buscan una rentabilidad económica; se ha abierto un nuevo espacio público
no estatal, no económico que está constituido por nuevas formas de organización de la sociedad; una nueva
forma de sociedad civil; está este escenario de lo público no estatal con una nueva lógica contraria a la
neoliberal; la guerra no ha permitido construir esa sociedad civil.
1.2 El concepto de salud
El concepto de salud es relativamente amplio, puede entenderse como un estado de armonía y equilibrio
funcional que se traduce en un silencio orgánico, y sólo, cuando uno de estos órganos se altera, se escucha, es
decir, rompe el silencio. La enfermedad es la ruptura del silencio orgánico.
Tautológicamente la definición sería no estar enfermo, por tanto, estar enfermo es una condición de no estar
sano.
Para la Organización Mundial de la Salud, el concepto trata de abarcar la aspiración de los pueblos y como
marco ideal define la salud como “el completo bienestar físico mental y social y no solamente la ausencia de
la enfermedad”6
de 2023
4
Pero el concepto de salud también puede ser entendido y tratado desde la estadística, ya que se convierte, de
cierto modo, en un indicador referido del concepto de salud, porque al identificar poblaciones “…no es
posible establecer claramente una línea divisoria entre la salud y la enfermedad. Este concepto sugiere llamar
sanos al promedio estadístico de la población y enfermos a aquellos que escapan excesivamente de tal
promedio.”6
1.3 Conceptos de salud pública
Para Granda (2005)7, la salud pública, SP es: 1) una práctica, 2) una función de Estado, 3) una disciplina. Se
requiere un análisis de la SP como disciplina en términos deductivos para analizar el riesgo en salud que trae
la globalización.
Para Franco (2207)8, hay una crisis conceptual, estructural y de orden práctico en la SP; hay una crisis de lo
público y de su conceptualización. No se tiene claro qué es la SP. El objeto de la SP está indefinido y cada
uno lo mira desde la perspectiva indisciplinar y no multidisciplinar ¿Es posible la integración del saber a la
práctica de la SP en la nueva ciencia? ¿Es crisis de las disciplinas o de la SP? Una disciplina científica tiene
especificidad de su objeto de estudio (la SP lo tiene); es un conjunto de teorías que orientan la investigación
(la SP lo tiene); existencia de pertinencia de los procedimientos metodológicos con que afronta la
comprensión de su objeto de estudio ((la SP más o menos lo tiene); tiene permanente crítica del trabajo
disciplinar permitiendo incorporar cambios y nuevos hallazgos (la SP lo tiene). El objeto de la SP es: la
situación de salud, condiciones de vida, contexto a la SP (político, económico, social), planificación, gerencia
de organizaciones de salud. La SP como conjunto de saberes es diversa, como práctica es interdisciplinaria e
intersectorial. La salud pública está muy condicionada por la decisión del político. El objeto de
transformación de la SP puede darse si se forman actores sociales; lo público se debe reconstruir con la gente
y las organizaciones comunitarias. Un concepto de salud pública puede ser, “la SP es el esfuerzo organizado
de la sociedad, principalmente a través de sus instituciones de carácter público, para mejorar, promover,
proteger y restaurar la salud de las poblaciones por medio de actuaciones de alcance colectivo”.
Para el Ministerio de la Protección Social de Colombia, “Salud Pública, es la responsabilidad estatal y
ciudadana de protección de la salud como un derecho esencial, individual, colectivo y comunitario logrado
en función de las condiciones de bienestar y calidad de vida”.
Para Jarillo y López (2007)9, el eje explicativo de la SP ha sido la enfermedad y transitar a una explicación
científica de la salud, es una deuda pendiente. El contexto general que enmarca el pensar y el hacer en
América Latina se caracteriza por la desigualdad social y económica, la polarización socio-sanitaria y la
pobreza generalizada; la transición demográfica hace más complejos los patrones de enfermedad y muerte
debido al envejecimiento de las poblaciones. El objeto de conocimiento de la SP se ha centrado en torno al
proceso salud/enfermedad y a las formas como la sociedad responde a él; en un principio, la medicina aportó
el pensamiento, pero hoy en día se ha dado una independencia conceptual y metodológica.
Bibliografía
6. Alvarez H Francisco, Alvarez H Aurelia. Investigación y epidemiología. Santafé de Bogotá. ECOE, 1998.
P 8- 19.
7. Granda Edmundo. Globalización de los riesgos en salud. IV congreso internacional de salud pública.
Facultad Nacional de Salud Pública. Universidad de Antioquia; 12 de noviembre de 2005.
8. Franco, Álvaro. El componente de salud pública en los programas de la Facultad Nacional de Salud
Pública. Universidad de Antioquia; 17 de enero de 2007.
9. Jarillo E, López O. Salud pública: objeto de conocimiento, prácticas y formación. Rev. Salud pública. 9(1):
140-154; 2007.
10. González Jorge Iván. Enfoque de las políticas públicas. Proyecto interinstitucional de políticas públicas y
salud. Facultad Nacional de Salud Pública. Universidad de Antioquia; 25 de noviembre de 2002.
11. Nieto Jaime Rafael. Políticas públicas y sistemas políticos. Conceptos fundamentales. Seminario de
pensamiento en salud pública. Facultad Nacional de Salud Pública. Universidad de Antioquia; 30 de
septiembre de 2002.
de 2023
5
2. LOS SISTEMAS DE INFORMACIÓN EN LA SOCIEDAD

Un sistema de información, SI, es un conjunto de procedimientos ordenados que proporcionan información
que apoya la toma de decisiones a los seres humanos. Las funciones básicas del SI son: recolección de datos-
procesamiento-salida-información-usuario-decisión. La información consiste en datos procesados de alguna
forma, por ejemplo, procesados y reumidos1.
La información ha sido útil para el ser humano desde que existe; los SI han estado presente a la par que el
hombre y las sociedades se han ido desarrollando. Las organizaciones, desde sus inicios han requerido de los
SI porque manejan información de producción, administración, financiera, consumos externos, mercados,
toda ella necesaria para el buen funcionamiento de ésta.
La estadística permite producir la información inicial para operar el SI e inclusive la información que
proporciona el SI. Similarmente, la computadora facilita el procesamiento de grandes volúmenes de datos y
por ello se diseñan SI basados en computadoras, pero, los SI también pueden ser manuales.
Entre las diferencias más importantes para los SI de información manuales y los basados en computadoras
están que los primeros son más fáciles de comprender en su tecnología, la administración es sencilla, la
conversión e instalación es fácil, son altamente flexibles pero la repercusión en la empresa es mínima, en
tanto, que los basados en computadoras pueden ser importantes e implicar cambios en las organizaciones y en
los comportamientos de los usuarios.
Generalmente cuesta mucho desarrollar sistemas basados en computadoras, sus fallas pueden resultar muy
costosas para la organización y afectan negativamente al recurso humano, pueden provocar conflictos entre
los individuos y entre los departamentos.
El resultante de un buen funcionamiento de SI es que mucha información interpretada se difunde dentro de la

organización para que sus miembros la usen.
No existe una teoría central que soporte los SI; éstos están relacionados con el uso efectivo de la tecnología en
una organización.
Un ciclo para los SI va de la ciencia de la computación en un extremo a la psicología en el otro. La ciencia

de la computación contribuye con los fundamentos matemáticos de los sistemas de cómputo. Estos resultados
ayudan a los ingenieros electrónicos a desarrollar mecanismos y programas de computación. La investigación
y desarrollo, ID proporciona gran número de técnicas para mejorar la toma de decisiones y desarrollar
soluciones a problemas complejos. Las áreas funcionales de la administración, como contabilidad, finanzas,
producción y comercialización, proporcionan el contexto y el medio específico para los SI. La psicología
apoya la toma de decisiones por parte de los seres humanos en la organización, quienes de acuerdo a sus
modelos de pensamiento han definido lo que los psicólogos han llamado “estilo cognoscitivo” para interpretar
la información; el individuo analítico busca información cuantitativa en tanto que el heurístico está interesado
en conceptos mucho más amplios y es más intuitivo. El usuario de los SI desarrolla un modelo para interpretar
la información.
Un modelo es la representación de una entidad tangible o intangible; Montgomery y Urban (1969) 2 han
identificado cuatro tipos:
 Modelo intuitivo: es una idea parcialmente formada de cómo se relacionan dos variables.
 Modelo verbal: el encargado de la toma de decisiones considera que si se sigue el curso de la acción
A, se obtiene B.
 Modelo de flujo lógico: se establecen las relaciones entre las variables, puede hacerse gráficamente.
Es un modelo que resulta ser el más explícito.
 Modelo físico: se realiza una maqueta en madera o cartón antes de edificar el proyecto final.
Bibliografía
1. Lucas Henry. Conceptos de los sistemas de información para la administración. 2a edición. Mc
Graw-Hill. México. 1983.
2. Montgomery D, Urban G. Management sicience, vol 16 N° 4 pp B212-B232.
de 2023
6
3. LOS ENFOQUES CUALTITATIVO Y CUANTITATIVO EN LA INVESTIGACIÓN
La investigación es un proceso que nos lleva al conocimiento de algo mediante la aplicación de métodos y
técnicas que nos permiten aprehender los elementos de ese algo y sus interrelaciones para describirlo,
explicarlo, predecirlo y transformarlo.
Si el conocimiento genera poder y éste es necesario para transformar la sociedad, la investigación debe ser el
punto de partida y de confluencia de esa acción transformadora.
La investigación conduce al investigador (a) a un estado superior de conocimiento frente al común de las
personas; además de una actitud positiva hacia la investigación, se debe tener cierta madurez que la dan una
edad mayor y la experiencia; mi práctica me ha enseñado que estudiantes menores de 20 años de edad
difícilmente comprenden la dimensión de un proyecto de investigación científica como un todo y la forma
como se relacionan sus partes.
No se tienen diagnósticos del nivel de desarrollo dentro del ciclo vital, de los estudiantes de la Facultad
Nacional de Salud Pública, FNSP y es posible que, en el cuarto o quinto semestre, algunos(as) de estos(as) se
encuentren en el nivel de las operaciones concretas y la investigación obliga a la abstracción y a la síntesis.
Si bien no toda persona tiene aptitudes y actitudes para la investigación, el profesional medio, debe llegar a
manejar los elementos básicos del proceso de investigación como herramientas para el ejercicio profesional.
Todos los docentes de la Universidad de Antioquia, somos responsables de la formación y acompañamiento

de los estudiantes en su proceso de formación; es mayor la responsabilidad, para los (las) docentes
investigadores y para quienes se encuentren vinculados a los grupos de investigación de la FNSP porque son
quienes, en últimas, pueden articular los trabajos de grado a las líneas de investigación de esos grupos.
Todos sabemos que la pregunta de investigación es la que define el enfoque que se le dará a la misma y en ese
sentido pienso que no debería existir ninguna rivalidad en el quehacer de un investigador con los métodos.
Pregunta de
investigación
Cuando busca:
describir, explicar Cuando busca:
interpretar y
comprender.
Método cuantitativo Método

Cualitativo
En la investigación con método cuantitativo, que es el centro en un curso de estadística, el instrumento

de recolección de la información es la encuesta.
Una encuesta es un conjunto de preguntas que indagan sobre características de un fenómeno de salud pública
que requiere ser medido y analizado para producir información. La encuesta en sus preguntas incluye las
variables que serán objeto de medición de acuerdo con su naturaleza y nivel de medición.
de 2023
7
4. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA
Existen diferentes conceptos sobre lo que es una POBLACIÓN para la estadística; algunos definen a la
población como el conjunto de objetos, animales o personas que tienen una característica de interés para un
estudio y que pueden ubicarse geográficamente en un lugar. Otros definen la población como el conjunto de
mediciones sobre los objetos, animales o personas que son de interés para un estudio y que están delimitados
geográficamente.
Asociado al concepto de POBLACIÓN aparece la VARIABLE que algunos la definen como una
característica de los elementos de una población que toma diferentes valores. Otros definen la VARIABLE
como: fenómeno medible que varía (cambia) a través del tiempo, o que difiere de un lugar a otro o de un
individuo a otro.
Para algunos, el concepto de población tomado como el conjunto de mediciones está contenido en el de
universo de estudio. En un universo pueden existir varias poblaciones estadísticas; por ejemplo, en el
universo de estudiantes de la universidad, pueden existir poblaciones formadas por el sexo, la edad, es
semestre, la dirección, el número de teléfono, el estado civil. El estrato socioeconómico, etc.
4.1 Características que se miden en la población en las investigaciones por muestreo: las variables
aleatorias que se miden en la población pueden ser cualitativas o cuantitativas y en ese sentido los cálculos
que se pueden hacer con ellas se resumen en la proporción o porcentaje, el total desde la proporción, la
media o promedio y el total desde el promedio que son los PARÁMETROS.
4.2 Experimento: Es el proceso mediante el cual se observa un fenómeno y se registra una observación. Es
decir, es cualquier acción que produzca un resultado medible. En los experimentos las mediciones o registros
las generan variables aleatorias que se observan.
4.3 Variable aleatoria: Es una variable de la cual se sabe qué valores puede tomar, pero no se conoce cuál
tomará exactamente con anticipación en la realización de un experimento.
Los experimentos involucran una o más variable aleatorias y por eso pueden ser univariados o multivariados.
Los resultados de medir la variable en cada uno de los individuos es el dato.
4.4 Los experimentos estadísticos
En los experimentos planeados se controlan la (s) variables independientes antes de la recolección de los
datos, como, por ejemplo, en un ensayo clínico a nivel psicológico en el que se controlan las variables: dosis
de un medicamento, exposición a una intervención, etc. En los experimentos puros, los sujetos se asignan
aleatoriamente a los grupos, control versus experimental. En los experimentos no planeados (diseños no
experimentales) no se controlan variables, sino que se accede de manera aleatoria a los elementos de la
población directamente, por ejemplo, en una encuesta de opinión.
En la investigación con enfoque cuantitativo, el instrumento de recolección de la información es la encuesta;

en los estudios con enfoque cualitativo, el instrumento de recolección de la información, en la mayoría de las
ocasiones, es la entrevista.
4.5 La muestra es una parte o un subconjunto de la población y dependiendo de la forma como sea
seleccionada esta parte, puede ser representativa de la población.
4.6 Las características que se miden en la muestra son cuatro desde las variables aleatorias que se miden
en la población y pueden ser cualitativas o cuantitativas y en ese sentido los cálculos que se pueden hacer con
ellas se resumen en la proporción o porcentaje, el total desde la proporción, la media o promedio y el total
desde el promedio que son los ESTADÍSTICOS.
de 2023
8
4.7 Muestra aleatoria: Es la muestra que se selecciona, teniendo en cuenta que cada elemento de la
población tiene la misma probabilidad de formar parte de ella. Se enumeran los elementos de la población y
se seleccionan utilizando la tabla de números aleatorios que están incluidos en la calculadora.
Para seleccionar una muestra aleatoria debe existir un procedimiento de selección que sea objetivo y se
distribuya uniformemente en toda la población con igual probabilidad de selección de sus elementos.
No todos los temas de investigación permiten la selección aleatoria en los elementos de la población por lo
que en algunos temas y casos se utiliza una muestra por conveniencia que es seleccionada de acuerdo al
interés del investigador (a). La selección de una muestra aleatoria requiere que hay recursos económicos para
realizarla.
4.8 Muestra al azar: Se toma sin tener ningún criterio de selección sino por el orden de llegada. Por ejemplo,
las encuestas aplicadas a las personas que entran en un centro comercial, las personas que llaman a los
programas de radio o de TV.
4.9 La unidad elemental: Es cada uno de los elementos del universo de estudio que se desea medir.
B. FRACCIONES
Cada parte del trabajo estadístico desde la medición y la presentación gráfica hasta el cálculo de
probabilidades estadísticas implica trabajar con proporciones matemáticas.
Numerador Parte Número.de. personas.u.objetos.en.una.categoría

5. Fracción =  
Deno min ador Todo Número.de. personas.u.objetos.en.un.grupo.total
5.1 Proporción: Es una parte de un total expresada en forma decimal; la parte aparece en el numerador de la
fracción y el total en el denominador de la misma fracción.
#.en.una.categoría
Cálculo de una proporción, P=
#.en.grupo.total
#.en.una.categoría
5.2 Cálculo de un porcentaje, p (100) = x100
#.en.grupo.total
5.3 Razón: Es el cociente de dos totales de dos variables. Se utiliza la comparación uno a uno ó 100 a 100, ó
1000 a 1000, ó 10000 a 10000, ó 1000000 a 100000.
Ejercicio 1. Cálculo de porcentajes
Considere los datos de los censos de población que aparecen en la tabla 5 y con ellos realice los siguientes
pasos:
a) Un análisis por separado para el total de hombres y mujeres en los grupos de edad 0 a 4 años y 80 y
más años.
b) Un análisis sobre los cambios drásticos en la población de hombres y mujeres por separado para cada
censo.
c) Calcule el porcentaje de la población adolescente para cada censo (entre 10 y 19 años).
d) Calcular el porcentaje de hombres y de mujeres con base en el total de población para cada censo.
de 2023
9
e) Calcular el índice de masculinidad (Total de hombres sobre total de mujeres) para la población
adolescente de cada censo.
f) Calcule la Razón de Dependencia que relaciona la población dependiente (0 a 14 años, más 65 años
en adelante) con respecto a la que está en edad productiva (15 a 64 años).
g) Grafique la pirámide poblacional para cada censo.
Tabla 5. Población total censada, por sexo, según grupos de edad. Total, nacional. Colombia.
Censo de 1993 Censo de 2005

Grupos de Total Hombres Mujeres Total Hombres Mujeres
Edad
Total, Nacional 33.109840 16296539 16813301 41468384 20336117 21132267
0-4 años 3.754.870 1.914.391 1.840.479 4108861 2106179 2002682
5-9 3.816670 1.943.375 1.873.295 4295913 2197689 2098224
10-14 3.840.632 1.947.256 1.893.376 4339046 2214464 2124582
15-19 3.301.436 1.614.187 1.687.249 3933754 1975856 1957898
20-24 3.156.530 1.508.254 1.648.276 3641839 1783320 1858519
25-29 2.977.533 1.420.298 1.557.235 3280767 1590993 1689774
30-34 2.693.270 1.303.844 1.389.426 2917290 1401139 1516151
35-39 2.219.750 1.060.353 1.159.397 2919161 1392512 1526649
40-44 1.735.926 864.685 871.241 2732504 1304948 1427556
45-49 1.323.815 650.119 673.696 2291308 1088238 1203070
50-54 1.139.501 559.518 579.983 1835340 876301 959039
55-59 855.265 413.838 441.427 1450658 692733 757925
60-64 798.234 388.860 409.374 1104733 524576 580157
65-69 539.716 260.405 279.311 921054 428876 492178
70-74 417.485 201.401 216.084 702518 321765 380753
75-79 260.423 123.908 136.515 504438 228608 275830
80-84 161.961 73.107 88.854 489200 207920 281280
85 y más 116.823 48.740 68.083
Fuente: DANE. Censos generales 1993 y 2005. www.dane.gov.co
Clasificación de la población colombiana en el SGSSS

Menores de 15 años Entre 15 y 64 años Mayores de 65 años
Población de estudiantes- Población económicamente activa Adultos mayores-dependiente
dependiente
Disminuyeron los menores de 15 años y aumentaron las poblaciones en edad de trabajar y la de adultos
mayores. Una de cada tres personas tiene menos de 15 años en el 2005 (Tabla 1).
Tabla 1. Porcentaje de población total de Colombia según los censos.
Censo Menores de 15 años Entre 15 y 64 años Mayores de 65 años

1993 34.5% 61.0 % 4.5 %
2005 30.7% 63.0 % 6.3%
En 1993 por cada 100 personas en edad de trabajar, había 64 personas dependientes. Para el 2005 la población
dependiente disminuyó, pero continúa siendo alta porque aproximadamente, tres de cada cinco personas son
dependientes (Tabla 2).
de 2023
10
Tabla 2. Razón de dependencia en Colombia según los censos.
Censo Razón por 100

1993 63.9
2005 58.8
Una de cada cinco personas en Colombia, es adolescente (Tabla 3).
Tabla 3. Porcentaje de población adolescente en Colombia según los censos.
Censo Porcentaje
1993 21.6
2005 19.9
¿Cómo graficar la pirámide poblacional en Excel?
Se escriben 3 columnas en el siguiente orden: edad, hombres y mujeres. Se requiere que los hombres queden
en la izquierda de la pirámide y por ello se resalta esta columna y con el botón derecho del Ratón se entra al
formato celda y se entra a número; se escoge el número de color rojo y se le da aceptar. Se les antepone a
los datos de hombres un signo negativo y se oprime enter después de cada cambio. Todos los números de esa
columna quedan en rojo.
Se resaltan los datos con el botón izquierdo del Ratón y se va a gráficos y se escoge las barras (que son
horizontales); se oprime siguiente; se escoge el rango de datos por columnas; se oprime siguiente. Se coloca
el título de la gráfica, los nombres de los ejes y se termina la gráfica.
Una vez que se termina de construir la gráfica, se le da clic a cualquiera de las barras y todas las de ese lado
deben aparecer resaltadas con un puntito; se entra con el botón derecho del Ratón a formato serie de datos y
se entra a opciones; en ancho de rango se coloca cero y en superposición 100. Se hacen los ajustes estéticos
que se quieran.
5.4 TASA: Es la frecuencia de ocurrencia de un fenómeno en relación con un número “base” especificado de
sujetos de una población. El número base se coloca en el denominador para que la tasa pueda representar los
casos por mil, por diez mil, por cien mil, por un millón y así sucesivamente. Un número base útil es aquel que
especifica la población en riesgo.
En general el denominador en las tasas es la población total y el numerador es el número de personas de esa
población en riesgo. Luego se multiplica por factores que son múltiplos de 10 como 1000 (103), 10000 (104) ó
100000(105) y en esos términos se expresan los resultados de esa tasa.
Las tasas son cocientes que establecen la relación entre la población expuesta a ciertos hechos (denominador),
y los individuos que fueron afectados por ese hecho (numerador). Por ejemplo, niños que tiene el hábito de
chupar dedo (denominador), y los que presenten posteriormente mordida abierta. El resultado significa riesgo,
es decir, implica probabilidad. Al calcular las tasas se debe cuidar que el denominador sea el correcto, es
decir, que contenga toda la población expuesta al riesgo.
La tasa es la población que presenta un hecho particular (A), la población susceptible a ese hecho (B),
multiplicado por una constante K (102, 103, …)
A
Tasa = K . Donde, A: total de casos que presentaron el evento y que antes no lo tenían, en un
B
área o período definido. B: total de la población expuesta al evento, en la misma área y período definido.
K: constante que da validez al cociente (102, 103, …).

de 2023
11
Tasa de suicidio = Número de suicidio en la comuna en el año dividido el total de la población de la comuna
en ese año y multiplicado por 100000.
Tabla 6. Algunos indicadores demográficos según comuna de Medellín.
AÑO 2005 AÑO 2006

Mortalidad por suicidio según lugar Mortalidad por suicidio según lugar
de residencia de residencia
COMUNA Muertes Tasa por cien Muertes Tasa por
mil hab. cien mil
hab.
POPULAR 7 6,02 6 4,6
SANTA CRUZ 6 6,67 3 2,8
MANRIQUE 11 7,47 11 7,2
ARANJUEZ 9 6,66 6 3,8
CASTILLA 4 2,85 10 6,8
DOCE DE OCTUBRE 12 6,23 11 5,8
ROBLEDO 6 3,75 6 3,5
VILLA HERMOSA 6 5,74 6 4,3
BUENOS AIRES 9 7,20 5 3,7
LA CANDELARIA 5 6,68 9 10,8
LAURELES 8 6,85 3 2,6
LA AMÉRICA 6 6,26 2 2,3
SAN JAVIER 5 3,72 9 6,5
EL POBLADO 4 4,22 7 6,7
GUAYABAL 4 5,24 2 2,3
BELÉN 11 6,90 8 4,1
Fuente: Alcaldía de Medellín. Indicadores básicos. Situación de salud. 2005 y 2006.
6. PRÁCTICA 1. EJERCICIOS DE PORCENTAJES
Este Taller busca contextualizar a cualquier persona para un curso de estadística descriptiva de cualquier
programa; se utiliza como un complemento de las actividades desarrolladas en clase y se espera que se
entregue como nota de evaluación en forma individual aunque en su realización se puede trabajar con otras
personas.
1. El censo de población1 de una ciudad dio el siguiente resultado: mujeres de 15 años o más: 435720;
menores de 15 años: 122305. Hombres de 15 años o más: 422137; menores de 15 años: 113132;
halle:
a. Con base en el total, las proporcionalidades de cada clase

b. Las proporcionalidades interclase: con base en el total de mujeres, las menores de 15 años y
las mayores. Con base en el total de hombres, las proporcionalidades de los menores de 15
años y mayores de 15 años.
2. Si en una encuesta sobre el estado civil de una población, las modalidades de respuesta son: soltero,
casado, diga:
a) las categorías de respuesta son exhaustivas?,
b) Qué categorías debe agregar para que sean exhaustivas?
1
Los ejercicios 1 al 7 son tomados del libro: Estadística de Lincoyan Portus. Ed. Mc Graw – Hill.
de 2023
12
3. Si en una investigación en un supermercado usted clasifica a los usuarios en las siguientes categorías:
“A” personas que compran, “B” personas que entran al supermercado, diga si puede sumar los datos
obtenidos en las dos categorías para ampliar la información.
4. En una biblioteca investigan dos encuestadores: el uno a los lectores que consultan simultáneamente
menos de tres libros, el otro a los que consultan más de tres libros. Diga si las categorías son
exhaustivas. ¿Son mutuamente excluyentes?
5. Si se deben investigar los granos de arroz partido que hay en un cargamento de una tonelada de
arroz, diga si desde el punto de vista estadístico ésta en una población finita o infinita.
6. Si en una encuesta de hogares usted visita sólo a sus familiares y personas conocidas, diga si ha
obtenido una muestra aleatoria. ¿Qué puede decirse de las encuestas que recogen los noticieros de
T.V. a través de una dirección de Internet?
7. Redondear los siguientes números hasta la segunda cifra decimal 2.
a) 99.99500 b) 46.40501 c) 2.96500

d) 0.00501 e) 16.46500 f) 1.05499
g) 86.2139 h) 10.0050
8. Usando los datos de la tabla siguiente, responder a las siguientes preguntas:

a) De todos los estudiantes que se gradúan en cada área académica, ¿cuál es el porcentaje de
mujeres?
b) Considerando únicamente a los hombres, ¿qué porcentajes se encuentran en cada área
académica?
c) Considerando únicamente las mujeres, ¿qué porcentajes se encuentran en cada área académica?
d) De todos los estudiantes que se gradúan en las cinco áreas, ¿cuál es el porcentaje de hombres y
el de mujeres?
El número de estudiantes graduados en cada una de las cinco áreas académicas, conforme a su sexo,
es:
Área Académica Hombres Mujeres

Administración de empresas 400 100
Enseñanza 50 150
Humanidades 150 200
Ciencias 250 100
Ciencias Sociales 200 200
9. Eugene J Kanin ha estudiado varios aspectos del comportamiento de varones sexualmente agresivos.
La agresividad sexual se definió como “un intento de contacto sexual con una mujer en actitud de
rechazo, durante el cual se utiliza violencia física en grado tal que da lugar a reacciones que denotan
ofensa en la mujer”. Cuando sus resultados fueron comparados con los correspondientes a una
muestra de varones no agresivos, se formuló la hipótesis de que los varones no agresivos pudieron
utilizar técnicas de seducción en lugar de técnicas agresivas con más frecuencia que los varones
agresivos como medio de conseguir contacto sexual.
Una muestra de 254 varones no agresivos y 87 varones agresivos reveló las siguientes frecuencias en
que los sujetos admitieron el uso de técnicas de seducción.
2
Los ejercicios 8 al 12 son tomados del libro Estadística para ciencias sociales. Haber/ Runyon. Fondo
Educativo Interamericano.
de 2023
13
Varones no agresivos Varones agresivos Total

Intento de embriagar 23 33 56
Falsa promesa de matrimonio 19 7 26
Amor fingido 37 39 76
Amenaza de terminar las relaciones 9 8 17
Seducción 166 0 166
Total 254 87 341
a) Hallar el porcentaje de varones no agresivos y agresivos que admiten cada una de las técnicas agresivas.
b) Construya un diagrama de barras para mostrar los porcentajes de varones no agresivos y agresivos en
cada técnica.
c) ¿Se tiene la impresión de que la hipótesis tiene fundamento?
10. Muchas de las poblaciones estudiadas en condiciones experimentales son teóricas. Dé algunos
ejemplos de poblaciones teóricas que puedan presentarse en la investigación.
11. Indíquese en cada uno de los siguientes casos si se trata de una variable o de una constante:
a) Número de días del mes de agosto.
b) Número de acciones negociadas en la Bolsa de Medellín en varios días del año.
c) Tiempo requerido para completar un ejercicio.
d) Edad en la que un colombiano adquiere el derecho de votar.
e) Calificaciones obtenidas en un examen que contiene 100 preguntas.
f) Máxima calificación obtenida en un examen de Estadística en la U.de A.
g) Cantidad de dinero gastada anualmente en libros por un estudiante.
12. La matrícula de una universidad, en el quinquenio 1979 -1983, fue:

% DE INCREMENTO
Año Matrícula Año 1979 Año anterior
1979 14325 ……. …….
1980 17432 21,7 21,7
1981 18320 27,9
1982 20231 41,2
1983 21132 47,5
Calcule los valores de la columna del % de incremento con base en el año 1979 y año anterior.
valorañoactual  valorañoanterior
%incremento  *100
valorañoanterior
16. En una empresa industrial la nómina de pago mensual por estamentos en cierto mes fue así: personal de
administración: $423380; el personal de ventas $560325; el personal de producción: $2360420. Elaborar
un cuadro que destaque:
a. El porcentaje de cada estamento con base en el total de la nómina.

b. El porcentaje de la nómina de pago de cada estamento y del total con base en el total de ventas
que fue de $10775514.
17. Elabore un cuadro cronológico de producción de mineral de hierro en Colombia en el quinquenio 1978-
1982 y muestre las variaciones de cada año:
Producción de toneladas: 1978=453532; 1979=377508; 1980=491288; 1981=410584; 1982=445434.
a. Con base en el año anterior

b. Con base en el año 1978
de 2023
14
18. Dibuje en un diagrama las ventas en un almacén en el semestre enero/junio de un año. El reporte de
contabilidad fue:
Enero, $675532; febrero, $563684; marzo, $785322; abril, $760520; mayo, $821230, y junio,
$890410.
19. Elabore un gráfico de barras en el que figuren los seis países americanos de mayor área: Argentina,
2776889 Km2; Brasil, 8511965 Km2; Canadá, 9976137 Km2; Perú, 1285215 Km2, Estados Unidos,
9363498 Km2; México, 1958201 Km2.
20. En un gráfico de barras muestre las exportaciones colombianas de café y otros productos en el
quinquenio 1978-1982.
AÑO CAFE OTROS

En millones de dólares
1978 1702.5 866.5
1979 1769.4 1274.4
1980 1981.1 1413.1
1981 1562.7 1362.8
1982 1508.1 1225.0
Con los mismos datos anteriores elabore un gráfico lineal uniendo los puntos respectivos.
21. Utilizando un diagrama lineal represente la deuda externa de América Latina cuyos valores en millones
de US$ (dólares) son: (Fuente: BID).
1973 55.4 1978 141.6
1974 68.5 1979 169.2
1975 82.9 1980 207.1
1976 98.3 1981 279.1
1977 119.1 1982 312.0
de 2023
15
C. VARIABLES
7.1 CLASIFICACIÓN DE LAS VARIABLES
Las variables se clasifican según su naturaleza en cuantitativas y cualitativas. Las variables cuantitativas o
numéricas se dividen en discretas y continuas. Las variables cualitativas o categóricas toman valores que son
categorías o atributos como el estado civil.
1. Las variables continuas son las que se miden en una escala, ejemplo, peso, estatura, distancia, tiempo, peso
al nacer, tiempo de espera en la cola, etc; existen dos escalas de medida para las variables continuas, la escala
de razón (tiene cero verdadero) y la escala de intervalo (tienen cero arbitrario). Con las variables continuas se
pueden efectuar las cuatro operaciones básicas de la aritmética: suma, resta, multiplicación y división.
2. Las variables discretas son las que se cuentan, ejemplo, número de hijos, número de habitantes, número de
errores, etc.
3. Las variables cualitativas pueden estar en cualquiera de dos escalas, la ordinal y la nominal:
 Las variables cualitativas nominales son variables cuyos valores son nombres o etiquetas, ejemplo,
número de teléfono, dirección, número de cédula, municipio de nacimiento, barrio donde vive, etc.
 Las variables cualitativas ordinales son variables cuyos valores son nombres que orden, ejemplo,
nivel educativo, estrato socioeconómico, nivel de ingresos, etc. Se pueden convertir algunas
variables ordinales en variables en escala de intervalo.
Los valores de las variables se llaman modalidades y cuando la variable es cualitativa a los valores también se
les llama categoría.
Para analizar una variable en la mayoría de las veces se le codifica como números para procesarlas más fácil
en el software estadístico.
de 2023
16
Se asignan etiquetas a los valores de las variables para recordar el significado de los códigos numéricos; por
ejemplo, en la variable sexo, 1: Hombre, 2: Mujer. Aunque se codifiquen como números, se debe recordar
siempre el verdadero tipo de variable al momento de realizar el análisis.
Algunas variables continuas pueden agruparse en intervalos de clase; por ejemplo, la variable edad en: menos
de 20 años, de 20 a 62 años, más de 62 años. Estas modalidades deben ser exhaustivas y excluyentes.
Las medidas de las variables cualitativas son las frecuencias y el estadístico es la proporción o el porcentaje.
Las medidas de las variables cuantitativas son los datos y los estadísticos dependen de si la distribución de la
variable es simétrica o no; si es simétrica los estadísticos apropiados son la media, la mediana, la moda,
desviación estándar y coeficiente de variación. Si la distribución no es simétrica, los estadísticos apropiados
son los percentiles (25, 50 y 75), además de los valores, máximo y mínimo.
7.2 IDENTIFICACIÓN DE VARIABLES3
14. Para cada una de las siguientes variables diga cuál es su escala de medida y su nivel de medición:
Nombre de la Variable Descripción Naturaleza Nivel de Medida

Edad en años cumplidos
Estado Civil
Estrato social
¿Le realizaron control?
Tipo de complicaciones
Tipo de parto
Riesgo obstétrico
Atendido por
Edad gestacional en semanas
Peso
Sexo
Causa de la muerte
Momento de la muerte
Especialidad requerida
Barrio de procedencia
Tasa de pérdidas
PIB período base
Tasa de crecimiento
Lugar de trabajo
Tipo de oficio
Nivel de salarios
Necesidad del servicio
Gastos en salud
Productos y servicios ofrecidos
Tipo de atención
7.3 VARIABLE DEPENDIENTE Y VARIABLE INDEPENDIENTE
En algunas ocasiones al investigar un fenómeno se define una variable principal de interés para el
investigador (a) que se constituye en la variable dependiente y se desea saber qué provoca un incremento o
una disminución en la cantidad de esta variable. Esta variable principal se denomina variable dependiente y es
3
Estas variables son tomadas del proyecto de Recurso Humanos en Salud desarrollado por la Facultad
Nacional de Salud Pública de la U.deA para Minsalud 2001-2002.
de 2023
17
la variable que se quiere explicar. Las variables que se sospechan que están relacionadas con el incremento o
la disminución son las variables independientes.
Ejercicio 2. Encontrar mínimo diez variables independientes para la variable dependiente en

consideración. Elabore un cuadro con tres columnas (variable, definición operacional y naturaleza y
escala de medida).
Considere como variable dependiente el rendimiento académico de un estudiante de la Universidad de

Antioquia. Defina por lo menos diez variables que puedan explicar ese rendimiento académico.
Variable dependiente: RENDIMIENTO ACADÉMICO DE UN ESTUDIANTE DE LA UDEA
Cuadro 2-2 Ejemplos de variables dependientes e independientes en estudios cuantitativos de ciencias de la

salud. Tomado de: Polit D, Hungler B. Investigación Científica en Ciencias de la Salud.
PREGUNTA DE INVESTIGACIÓN VARIABLE VARIABLES

INDEPENDIENTE DEPENDIENTES
¿Cuál es el efecto de intervenciones no dietéticas Intervenciones alternativas Restricción de alimentos,
alternativas en la restricción del consumo de Insatisfacción corporal
alimentos y en la insatisfacción corporal entre las
mujeres obesas?
(Ciliska, 1998)
¡hay alguna relación entre el abuso durante la Abuso infantil Victimización en la edad
niñez y la victimización de mujeres en la edad adulta
adulta? (Draucker, 1997)
¿Cuál es el efecto del ejercicio activo regular Cantidad de ejercicio Ganancia de peso de la
durante el último trimestre del embarazo en el madre, peso al nacer del
aumento de peso de la madre y el peso al nacer producto
del producto? (Hornas, Ratcliffe, Leggert y
Swason, 1996)
¿Cuál es el efecto del dolor en la expresión facial, Nivel de dolor la expresión facial llanto,
la conducta de llanto, la frecuencia cardíaca y la frecuencia cardíaca,
sudación palmar en lactantes de 0 a 12 meses de sudación palmar
edad ? (Fuller y Corner, 1995)
Ejercicios 3. Sobre variables y conceptos
(Tomados del libro Estadísticas para las ciencias sociales de Ferris J. Ritchey)
1. En un estudio sobre los estudiantes de último año en una prestigiosa universidad, se mide el área de
especialización (psicología, sociología, química, inglés, arte, etc.) y su año de escolaridad (primero,
segundo, tercero, último año). En dicho estudio, ¿cuál de estas mediciones representa una variable y
cuál una constante?
2. ¿Cuál es la característica esencial de la ciencia que la distingue de otras formas de indagar sobre la
naturaleza?
3. Para una muestra de personas sin hogar, usted se interesa en la relación entre el género y tipos de
lugares para dormir (donde pasó la noche anterior. ¿Cuál es la variable independiente y cuál es la
variable dependiente?
4. Brian encuestó a 5 000 personas para un estudio sobre la salud. Su definición operacional de nivel de
salud es “visitas al médico”, es decir, el número de veces que un encuestado fue al médico durante el
último año.
a) ¿Sería ésta una medición válida para el nivel de salud? Explique.
b) ¿Sería inteligente que alardeara de su pequeño error de muestreo? Explique.

de 2023
18
7.4 GRÁFICA PARA LAS VARIABLES, Aunque se aconseja que la presentación de datos numéricos se
haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a
representar de un modo más eficiente nuestros datos.
Para variables categóricas con pocas categorías, como el sexo, nivel de depresión, grado que cursa
profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría.
Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o
diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tortas", se divide
un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco
de círculo proporcional a su frecuencia absoluta o relativa.
Un ejemplo se muestra en la Figura 1. Como se puede observar, la información que se debe mostrar en cada
sector hace referencia al porcentaje de casos dentro de cada categoría. Si el número de categorías excede a
tres no se recomienda utilizar el gráfico y en su lugar se utiliza un diagrama de barras separadas.
Figura 1. Distribución de frecuencia según el tipo de colegio de los estudiantes adolescentes de la Zona
Nororiental, Medellín, 2006
Los diagramas de barras se utilizan para una variable cualitativa con más de tres categorías, son
similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo
que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase Figura
2. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman
pocos valores (número de hijos, etc.).
Uno de cada dos adolescentes tiene algún riesgo de suicidio (Figura 2)
60%
49,7%
(IC95% 45,6-53,7)
50%
39,1%
(IC95% 35,1-43,0)
40%
Porcentaje
30%
20% 11,3%
(IC95% 8,7-13,9)
10%
0%
Alto Moderado Bajo
Nivel de riesgo de orientación suicida
Figura 2. Nivel de riesgo de orientación suicida de los adolescentes escolarizados. Medellín, zona
noroccidental. 2010.
de 2023
19
El diagrama de barras combinadas relaciona dos variables cualitativas; en este caso, la variable comuna
sexo y la variable riesgo de suicido con los valores, alto, moderado y bajo.
60%
51,0%
IC95% (45,1-57,0) 48,4%
IC95% (42,7-54,1)
50% 41,7%
IC95% (36,1-47,3)
36,2%
40% IC95% (30,5-41,9)
Porcentaje
30%
20% 12,8%
IC95% (8,7-16,8) 9,9%
IC95% (6,4-13,3)
10%
0%
Alto Moderado Bajo*
X2=0,57; p=0,45 X2=1,24; p=0,27
Hombre Mujer
Nivel de riesgo de orientación suicida
*Categoría de referencia
Figura 3. Nivel de riesgo de orientación suicida de los adolescentes escolarizados según sexo. Medellín, zona
noroccidental. 2010.
Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el
tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de
valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que
tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la
proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los
rectángulos. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una
imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué
rangos se encuentra la mayor parte de los datos. Un ejemplo, se presenta en la Figura 4.
Figura 4. Histograma del puntaje de depresión en adolescentes escolarizados de la zona nororiental de

Medellín, 2006.
de 2023
20
La puntuación obtenida por los adolescentes encuestados en el CDI-LA se ubicó entre un mínimo de 0 puntos
y un máximo de 42 con un predominio marcado de las puntuaciones bajas, la media fue de 10,46, la
desviación estándar fue 6,34 puntos y el coeficiente de variación fue 60,6%.
Las puntuaciones de depresión se interpretan de la siguiente forma: entre 0 y 13 no presentan depresión, entre
14 y 18 hay depresión moderada, más de 19 clínicamente significativa.
El diagrama de caja permite relacionar una variable cualitativa y una variable cuantitativa. La Figura
5 muestra un gráfico de cajas correspondiente a los datos de puntaje de riesgo de suicidio por sexo. La caja
central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1 er
y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es
simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja
son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores
extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este
rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles
errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar
variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan
además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
El Riesgo de Suicidio en adolescentes se mide con el Inventory Suicide Orientation 30 (ISO-30). La medición
final del ISO-30 se produce con una variable llamada riesgo de suicidio de tipo ordinal y cuya
operacionalización es en la siguiente forma:
Puntaje total bruto Número de ítems críticos marcados Riesgo de suicidio

Menor que 30 y Menos de 3 ítems Bajo
Entre 30 y 44 y Menos de 3 ítems Moderado
Más de 45 ó Más de 3 ítems Alto.
Según el diagrama de caja, el valor mediano del puntaje de riesgo de suicidio es mayor en los hombres que en
las mujeres. El puntaje de riesgo de suicidio en los hombres es simétrico porque los bigotes son del mismo
tamaño y la mediana está ubicada en el centro de la caja, o sea que puede decirse que se aproximan mejor a
una distribución normal en tanto que esos puntajes son asimétricos porque el bigote de los valores altos es
más largo; existen valores atípicos en las mujeres y se observa que hay mayor variación en los mismos.
En cuanto al sexo de los Adolescentes, los estudios de Berman y Jobes (1991) indican que los Adolescentes
hombres cometen actos suicidas en una proporción cuatro veces mayor que las mujeres (18% y 4%
respectivamente) si bien los intentos de suicidio son más numerosos en mujeres
de 2023
21
80
60
RiesgoS
40
20
Hombre Mujer
Sexo del estudiante
Casos ponderados por Inverso del peso del colegio en el estrato
__
Figura 5. Diagrama de caja del puntaje de riesgo de suicidio para hombres y mujeres en los
adolescentes escolarizados de la zona nororiental de Medellín, 2006.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis,
comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o
un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el
"apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad.
Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los
primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la
variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea
recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de
la variable respecto a los cuantiles de la distribución normal. En la figura 6 se muestra el gráfico P-P
correspondientes a los datos de la puntuación de riesgo de suicidio 82) que sugiere, que la distribución de la
variable se asemeja a la de la normalidad.
Gráfico P-P Normal de RiesgoS
1.0
0.8
Prob acum esperada
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Prob acum observada

Casos ponderados por Inverso del peso del colegio en el estrato
__
Figura 6. Gráfico de P- P para la puntuación de riesgo de suicidio (2) en adolescentes escolarizados de

la zona nororiental de Medellín, 2006.
de 2023
22
Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa
estudiar tendencias a lo largo del tiempo (F7). No son más que una serie de puntos conectados entre sí
mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada
momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada
grupo, etc.).
Gráfico 3. Coberturas de vacunación Gráfico 2. Coberturas en vacunación en

en Sarampión. Medellín 1986 - 1996 D.P.T. . Medellín 1986 - 1996
140,0%
200,0%
120,0%
150,0% 100,0%
80,0%
100,0% 60,0%
40,0%
50,0% 20,0%
0,0%
0,0%
1984 1986 1988 1990 1992 1994 1996 1998
1985 1990 1995 2000
Gráfico 1. Coberturas de vacunación en

Poliomelitis. Medellín 1986 - 1996
150,00%
100,00%
50,00%
0,00%
1984 1986 1988 1990 1992 1994 1996 1998
Figura 7. Gráfico de líneas. Número de pacientes trasplantados renales en el Complexo Hospitalario

"Juan Canalejo" durante el periodo 1981-1997.
de 2023
23
El diagrama de dispersión como el de la Figura 8 relaciona dos variables continuas y ubica los puntos
formados por las dos variables en un plano cartesiano para observar si la relación entre ambas variables define
alguna tendencia, generalmente lineal, porque de ser así da indicios de una correlación positiva o negativa
dependiendo de la forma de la tendencia lineal.
Figura 8. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar
en el proceso de análisis de datos. La mayoría de los textos estadísticos hacen hincapié en los distintos tipos
de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que
una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los
mismos datos.
D. LA ENCUESTA
En la investigación con método cuantitativo el instrumento de recolección de la información es una encuesta.

En todos los libros de estadística hay pautas para construir un cuestionario, pero desde mi experiencia con la
investigación en salud pública y lo que se ha construido en nuestra facultad, hay temas que requieren de
expertos para que construyan esos cuestionarios o escalas. Por ejemplo, el riesgo de suicidio, la depresión, el
consumo de sustancias psicoactivas, la vulnerabilidad familiar, el funcionamiento familiar. En estos casos se
deben buscar escalas o cuestionarios validados nacional e internacionalmente. Nuestro grupo de investigación
tuvo que validar para Colombia, el Inventory Suicide Orientation, ISO-30 porque los pares académicos
nuestros indicaron que así debíamos hacerlo. En nuestra la línea de investigación con las cinco escalas que se
mencionaron antes, se construyó una encuesta en la cual cada pregunta es una variable y también hay
agrupaciones de preguntas que producen puntajes totales y da lugar a otras variables. En total esa encuesta
tiene 120 variables.
En el anteproyecto de la egresada de gerencia de sistemas de información en salud, Leidy Jhoanna Vergara

Usme, el cuadro de variables es como sigue:
de 2023
24
8.1 CUADRO 1. Cuadro de variables de la investigación, Depresión y Algunos Factores Asociados en

Adolescentes Escolarizados de Marinilla 2015.
Nombre de la variable Categorías Naturaleza Nivel de Medida
Sexo 1: Hombre Cualitativa Nominal
2: Mujer
Grupo de edad 1: 11 a 14 años Cualitativa Ordinal
2: 15 a 19 años
Zona 1: urbana Cualitativa Nominal
2: rural
Nivel de depresión 1.Alto: mayor que 19 Cualitativa Ordinal
2.Leve: de 14- 18
3.Ninguno: de 0-13
Nivel de Riesgo de Suicidio 1.Alto: mayor que 45 ó Cualitativa Ordinal
presencia de 3 ó más ítems
críticos
2.Moderado: de 30 – 44
3.Bajo: menor que 30
Nivel de funcionamiento 4. Disfunción severa: Cualitativa Ordinal
familiar menor o igual que 9
3. Disfunción moderada:
de 10 – 13.
2. Disfunción leve: de 14 –
17.
1. Buen funcionamiento:
de 18 – 20.
Consumo sustancias 1: Sí Cualitativa Nominal
Psicoactivas 2: No
3: NR
Baja autoestima 1: Alto Cualitativa Ordinal
2: Moderado
3: Bajo
Desesperanza 1: Alto Cualitativa Ordinal
2: Moderado
3: Bajo
Manejo de emociones 1: Alto Cualitativa Ordinal
2: Moderado
3: Bajo
Aislamiento social 1: Alto Cualitativa Ordinal
2: Moderado
3: Bajo
Ideación Suicida 1: Alto Cualitativa Ordinal
2: Moderado
3: Bajo
Vulnerabilidad en Comunicación 1: Sí Cualitativa Nominal
padres e hijos 2: No
Vulnerabilidad en 1: Sí Cualitativa Nominal
Poder, dinero y sexo 2: No
Vulnerabilidad en Satisfacción 1: Sí Cualitativa Nominal
con la vida 2: No
de 2023
25
8.2 DISEÑO Y ELABORACIÓN DE UN CUESTIONARIO
En ocasiones para recoger información sobre la opinión de un grupo de personas o para registrar el resultado
de la observación de un fenómeno se utiliza un cuestionario que se convierte en el instrumento de recolección
de la información.
Los pasos a seguir para el diseño del cuestionario son4:
1. Prepare un documento donde se enuncien claramente los objetivos, las necesidades de información y el
plan de análisis.
2. Establezca las variables a medir, las preguntas en orden de importancia y las alternativas de respuesta
necesarias para cumplir los objetivos.
3. Prepare un listado de preguntas y asegúrese de la pertinencia de ellas en relación con los objetivos y
necesidades de información. En este punto revise preguntas que se hayan utilizado en anteriores
encuestas sobre algún tema igual o similar.
4. Analice la racionalidad de cada pregunta y haga el ejercicio de usar sus respuestas para cumplir los
objetivos planteados; recuerde que el criterio no debe ser lo interesante de la pregunta o de la respuesta
sino su correspondencia con un cuadro de salida preestablecido y acorde con los objetivos del estudio.
5. Ponga el listado de preguntas a consideración de los expertos en la temática de la encuesta.
6. Revise la gramática, el lenguaje y la pertinencia de conceptos, palabras o giros idiomáticos.
7. Con el listado final de preguntas estructure un cuestionario fluido, sin saltos bruscos en la temática, sin
repeticiones, ameno y en general que no constituya una carga de trabajo intelectual tanto para el
entrevistado como para el entrevistador.
8. Realice pruebas de cuestionario, en las que usted mismo juegue varias veces el papel de entrevistador.
Válgase para estas pruebas piloto de personas del universo de estudio, ojalá no vinculadas al grupo de
trabajo de la encuesta. De esta manera podrá identificar preocupaciones y asuntos propios del universo en
estudio.
8.3 EJEMPLO DE UN CUESTIONARIO PARA INDAGAR SOBRE SANEAMIENTO BÁSICO
Esta encuesta pretende describir algunas de las características de saneamiento ambiental de un municipio de
Antioquia intrínsecamente relacionadas con la calidad de vida de sus habitantes.
Bloque I. Suministro de agua

1. De dónde proviene el agua que consume
2. Sabe si el agua que consume es potable sí ____ no _____
3. ¿Cuenta con servicio de agua todos los días? sí ____ no _____
4. Cuenta con servicio de agua las 24 horas del día sí_ ____ no _____
5. ¿En el último año usted ha sufrido enfermedades gastrointestinales o dérmicas? sí ____ no _____
6. ¿Qué opinión le merece la gestión de la empresa de servicios públicos domiciliarios del municipio?
Bloque II. Manejo de aguas residuales

1. ¿Cuenta el municipio con sistema de tratamiento de aguas residuales?
2. ¿Su casa está conectada al sistema de tratamiento de aguas residuales?
3. Si la respuesta a la pregunta anterior es no, ¿cómo dispone sus aguas residuales?
a. Caño
b. Quebrada
c. suelo
4. ¿Recoge las aguas lluvia?
4
Tomado textual de: Bautista, Leonardo. Notas de Muestreo. Simposio de Estadística 2000. Universidad
Nacional.
de 2023
26
5. ¿Da algún uso a las aguas lluvia? Si_____, no________. ¿Cuál?

a. Aseo de baños
b. Lavado de trapeadora
c. Sacudir
6. Cuáles son las peores molestias ocasionadas por las aguas residuales
a. Olores
b. Enfermedades
c. Proliferación de vectores y roedores
Bloque III. Manejo de residuos sólidos

1. ¿Separa las basuras en su casa? Si_____, no________.
2. ¿Cómo las separa?
3. Accede al servicio de recolección de basuras Si_____, no________.
4. Cuál es la frecuencia de recolección de los residuos
a. Diaria
b. Cada 2 días
c. Semanal
5. Si no accede al servicio de recolección de basuras en su casa, las bota cerca de ella Si_____,
no________
6. En qué lugar las bota
a. Acera
b. Patio de la casa
c. Solar de la casa
d. Terreno baldío
7. Que problemas percibe por el manejo de las basuras
a. Olores
b. Desagrado
c. Malestar
d. Enfermedades
e. Roedores y vectores
8. Piensa que el manejo de las basuras es responsabilidad de:
a. Municipio
b. Empresa de servicios públicos
c. Comunidad
d. Cada persona
e. Todas las opciones anteriores
8.4 ANÁLISIS DE UNA VARIABLE CUALITATIVA
Para el análisis de las variables se sigue la siguiente secuencia que se hace intuitivamente cuando se está
realizando un estudio y que se describe muy bien en el libro: la investigación aplicada a proyectos. Volumen I
de María Nuncia Medina Suárez. Página 106.
Ejercicio 7
Pregunta: ¿Cómo es la distribución por sexo en los adolescentes escolarizados de la zona nororiental de
Medellín en el año 2006?
Objetivo: Determinar la distribución por sexo de la muestra de adolescentes de la zona nororiental de
Medellín en el año 2006.
de 2023
27
Hipótesis: Es posible que haya más mujeres en la muestra de adolescentes escolarizados porque se mueren
más los hombres por las violencias de la ciudad.
Variable: sexo del adolescente
Estadístico: el porcentaje
Gráfico: Diagrama de pastel
La distribución por sexo en la muestra de los adolescentes escolarizados de la zona nororiental es similar a la
reportada en los censos de población en Colombia (Tabla 1).
Tabla 1. Distribución de frecuencia del sexo del adolescente escolarizado en la muestra de adolescentes de la
zona nororiental de Medellín en el año 2006.
Frecuencia Porcentaje
Hombre 374 48
Mujer 405 52
Total 779 100
En todo análisis de una encuesta se inicia con una descripción de la muestra, en variables como el sexo, el
estrato socioeconómico, comuna donde está el colegio, grupo de edad, etc., que son muchas veces llamadas
variables sociodemográficas.
Luego de la descripción de la muestra se presentan los resultados del estudio y en ellos se hace una
generalización a la población y esto es lo que se llama la inferencia estadística. En este punto pueden
construirse intervalos de confianza o se pueden realizar pruebas de hipótesis.
El error permitido en la estimación de cualquier proporción o porcentaje en los adolescentes de la zona

nororiental para el tamaño de la muestra n=779 es de e=3,5%. Como esta muestra se obtiene con una
confianza del 95%, entonces se puede construir un intervalo del 95% para cada porcentaje, sumando y
restando esta cantidad al porcentaje.
Frecuencia Porcentaje IC 95%

Hombre 374 48 44.5%,51.5%
Mujer 405 52 48.5%,55.5%
Total 779 100
El intervalo de confianza solo se construye cuando se tienen muestras aleatorias. La interpretación de éste
para los hombres es como sigue: con una confianza del 95% puede decirse que el porcentaje de hombres
adolescentes escolarizados en la zona nororiental de Medellín en el 2006 estaba entre 44,5% y 51,5%.
Ejercicio 8
Pregunta: ¿Cómo es la distribución del funcionamiento familiar en los adolescentes escolarizados de la zona
nororiental de Medellín en el año 2006?
Objetivo: Determinar la distribución del funcionamiento familiar en la muestra de adolescentes de la zona
nororiental de Medellín en el año 2006.
Hipótesis: Es posible que haya más un porcentaje de familias en la muestra de adolescentes escolarizados que
no funcionen bien porque mucha gente habla de una crisis en las familias.
Variable: funcionamiento familiar
Gráfico: Diagrama de barras
de 2023
28
Una de cada cuatro familias, aproximadamente, tiene buen funcionamiento de acuerdo a los que perciben los
adolescentes escolarizados de la zona nororiental de Medellín (Tabla 2).
Tabla 2. Distribución de frecuencia del funcionamiento familiar de la familia del adolescente escolarizado en
la muestra de adolescentes de la zona nororiental de Medellín en el año 2006
Buena 216 27,7
Disfunción leve 227 29,1
Disfunción moderada 170 21,8
Disfunción severa 166 21,3
Total 779 100
Ejercicio 9
Pregunta: ¿Cómo es la distribución del riesgo de suicidio en los adolescentes escolarizados de la zona
nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del riesgo de suicidio en la muestra de adolescentes de la zona
nororiental de Medellín en el 2006.
Hipótesis: Es posible que haya más un porcentaje alto adolescentes con riesgo de suicidio en la muestra de
adolescentes escolarizados porque existen muchos problemas en esa zona de la ciudad.
Variable: nivel de riesgo de suicidio
Uno de cada cinco adolescentes escolarizados de la zona nororiental se encuentra en alto riesgo de suicidio.
Para la zona, en magnitud representa aproximadamente un tamaño en número de adolescentes de 10 colegios
grandes. Los estudiantes con algún riesgo de suicidio son el 46, 2 % lo que indica, que aproximadamente, uno
de cada dos estudiantes presenta algún riesgo de suicidio. (Tabla 3).
Tabla 3. Distribución del porcentaje del nivel de riesgo de suicidio de los estudiantes de la zona nororiental,
Medellín, 2006
Porcentaje, n=779
Alto 22,4
Moderado 23,8
Bajo 53,8
Total 100
Tres de cada cinco adolescentes han consumido alguna sustancia psicoactiva a lo largo de su vida (Tabla 4).
Tabla 4. Distribución del porcentaje de adolescentes que ha consumido alguna sustancia psicoactiva alguna
vez en la vida en la zona nororiental, Medellín, 2006
Porcentaje,
n=779
Sí 63,6
No 36,4
Total 100
de 2023
29
8.5 EJEMPLO DE UNA ENCUESTA SOBRE UN ESTUDIO DE HIPERTENSIÓN
Todo cuestionario tiene una validez interna que trata de que las preguntas que se hacen apuntan a alcanzar el
objetivo de la investigación. Se busca que todas las preguntas sean respondidas en su totalidad por los
encuestados. La falta de información es un costo muy alto que se asume en una investigación.
El primer análisis que se hace a las variables (preguntas) de un cuestionario se refiere a sus estadísticos
básicos o estadísticos de resumen. Si la variable es cualitativa, se mirará la frecuencia con la cual se obtiene el
porcentaje de respuestas para cada modalidad. Si la variable es cuantitativa, se considerará la media, su
desviación estándar y el coeficiente de variación.
Ejercicio 4. Análisis de la encuesta sobre hipertensión arterial en pacientes
En un estudio con los pacientes de un programa de control de la hipertensión realizado en el año 2003 en un
municipio de Antioquia con pacientes que se encuentran afiliados a una IPS, se seleccionaron algunas
variables medidas en una muestra de individuos y se presentan a continuación:
Sexo del (la) paciente: 1: Hombre. 2: Mujer.

Edad del (la) paciente
Conocimiento del medicamento que usa: 1: Sí. 2: No.
Fuma 1: Sí. 2: No.
Consume licor 1: Sí. 2: No.
Realiza actividad física 1: Sí. 2: No.
Fritos al día 1: Una vez 2. Dos veces 3: tres o más veces
Elemento que usa para freir 1: Aceite. 2: Manteca. 3: Ambos.
Contenido de sal en los alimentos 1: Normal. 2: Bajo.
Usa salero en la mesa del comedor 1: Sí. 2: No.
Sus problemas influencian la hipertensión 1: Sí. 2: No.
Tabla 1. Archivo de datos de la muestra de personas hipertensas de una IPS de Frontino (Antioquia), 2003.
Identif sexo edad conoci fuma licor activfisica fritos/dia freír sal salero proble
1 2 64 2 2 2 2 3 1 1 2 2
2 2 65 1 1 2 1 3 1 1 2 1
3 2 45 1 1 2 1 3 1 2 2 1
4 2 59 1 2 2 1 3 1 2 2 1
5 2 52 1 2 2 1 1 1 1 2 2
6 2 52 1 2 2 1 2 1 1 2 1
7 1 65 2 1 2 1 3 3 1 1 1
8 2 62 1 2 2 1 3 1 2 2 1
9 1 46 1 1 2 1 3 1 1 2 1
10 1 62 1 2 2 1 1 1 2 2 2
11 1 64 2 2 2 2 3 1 1 2 1
12 1 50 1 1 2 1 3 1 2 2 1
13 2 73 1 1 2 2 2 1 2 2 1
14 2 73 1 1 2 1 3 1 3 1 1
15 2 46 1 1 2 1 2 1 2 2 1
16 2 64 1 1 2 2 2 1 2 2 1
17 2 59 1 1 2 1 1 1 2 2 1
18 2 72 1 1 2 1 1 1 2 2 1
19 1 61 2 1 2 2 1 1 2 2 1
20 1 62 1 2 2 1 3 1 2 2 2
21 2 55 1 1 0 1 3 1 2 2 1
22 1 50 1 2 2 1 3 1 2 2 2
23 2 55 2 2 2 2 2 1 2 2 1
de 2023
30
24 2 61 2 2 2 1 3 1 2 2 1
25 2 71 2 1 2 2 1 1 1 1 2
26 2 63 1 2 2 1 1 1 2 2 1
27 1 73 1 2 2 2 3 3 1 2 1
28 2 57 2 2 2 2 3 1 2 2 1
29 2 57 2 2 2 2 3 3 1 2 1
30 2 59 1 2 2 2 2 1 2 2 1
31 2 64 1 2 2 1 2 1 2 2 1
32 1 65 1 2 2 1 3 1 1 2 1
33 2 69 1 2 2 2 3 1 1 2 1
34 2 48 1 2 0 2 3 1 1 2 1
35 2 74 1 2 0 2 3 1 2 2 1
36 1 50 2 2 0 1 2 1 2 2 2
37 2 58 2 2 0 1 3 1 1 2 1
38 2 65 1 2 0 1 3 1 2 2 1
39 2 73 1 1 0 1 2 1 2 2 1
40 1 69 2 2 0 2 3 1 2 2 2
41 2 67 1 2 0 1 1 1 2 2 1
42 2 71 1 2 0 1 3 1 2 2 2
43 1 71 1 2 1 1 3 1 1 2 1
Complete el siguiente cuadro de variables

Nombre Valores Naturaleza Medida
Sexo del (la) paciente 1. Hombres
2. Mujeres
Edad del (la) paciente
Conocimiento del 1. Sí
medicamento 2. No
Fuma el paciente 1. Sí
2. No
Consume licor 1. Sí
2. No
Realiza actividad física 1. Sí
2. No
Fritos al día 1. Una vez
2. Dos veces
3. Tres o más
Contenido de sal en los 1. Normal
alimentos 2. Bajo
Usa salero en la mesa de 1. Sí
comedor 2. No
Sus problemas 1. Sí
influencian la 2. No
hipertensión
de 2023
31
8.6 COMPONENTES DEL ANÁLISIS DE LA ENCUESTA

Construir una tabla para cada una de las anteriores variables:
a) Para las variables cualitativas, construir una tabla de frecuencia en la forma,
Tabla #. ….
b) Para la variable cuantitativa, la edad, construir una tabla en la siguiente forma: Tabla
#…. Estadísticos de resumen de …
Estadístico Valor
Media
Desviación estándar
Coeficiente de variación %
Mediana
Máximo
Mínimo
c) Obtener la razón de prevalencias OR de conocimiento del medicamento, fuma, consume licor, realiza
actividad física, contenido de sal, usa salero, los problemas influencian por las columnas y por las
filas, el sexo.
Con el fin de obtener la Razón de Disparidades para cada exposición con posible asociación al
riesgo de suicidio en adolescentes, se realizó la siguiente tabla de contingencia 71.
Efecto
+ -
Factor de riesgo + a b
- c d
a+c b+d
La asociación en este tipo de estudio se midió a través de la Razón de Disparidades (RD), que es un
estimativo de Riesgo Relativo53.
RD = ad/bc
La RD es la disparidad de los casos con respecto a la exposición, comparada con la disparidad de los
controles con respecto a la exposición71:
Disparidad de los casos en el FR a/a+c / c/a+c

= ad/bc
Disparidad de los controles en el FR b/b+d / d/b+d
Si la RD es igual a 1, significa que no existe asociación entre los factores de riesgo estudiados y la condición
de riesgo de suicidio en los adolescentes71.
de 2023
32
Si es mayor de 1, y mientras más se aleje de 1, tanto mayor será la fuerza de asociación 71.
El intervalo del 95% de confianza para el OR se construye obteniendo los valores de los límites superior e
inferior mediante las siguientes fórmulas:
L.S. = OR*e1.96*sqrt(1/a + 1/b+1/c +1/d)

-1.96*sqrt(1/a + 1/b+1/c +1/d)
L.I. = OR*e
71. Trujillo F J, Mazuera M. Curso Modular de Epidemiología Básica. 3. Ed. Medellín: Universidad de
Antioquia; 1994.
Construir la tabla,
Tabla # Razones de prevalencia de hombres a mujeres en el examen a los pacientes de un programa

de hipertensión en un municipio de Antioquia, 2003.
Razón de prevalencia, L.I L.S.

OR
Conocimiento del medicamento
Fuma
Realiza actividad física
Contenido de sal
Usa salero
Los problemas influencian su salud
8.7 INFORME DE LA ENCUESTA DE HIPERTENSOS
El informe contiene en total 12 tablas discriminadas así: una tabla con los estadísticos de resumen de la edad
del paciente porque el nivel de medida es escala y 10 tablas de frecuencia con tres columnas, categoría,
frecuencia y porcentaje. La última tabla corresponde a la razón de disparidad, OR, con su intervalo de
confianza. Cada tabla tiene una interpretación y en la última tabla se interpretan cada uno de sus renglones.
Siete de cada 10 pacientes son mujeres (Tabla 1).
Tabla 1. Distribución de frecuencia del sexo del paciente del programa de hipertensión en un municipio
antioqueño, 2003.
Hombre 13 30,2
Mujer 30 69,8
Total 43 100
de 2023
33
Tabla 2. Distribución de frecuencia del conocimiento que tiene del medicamento el paciente del programa
de hipertensión en un municipio antioqueño, 2003.
Sí 31 72,1
No 12 27,9
Total 43 100
La edad promedio de los pacientes es 61,4 años (d.e.= 8,4 años) (Tabla 11).
Tabla 11. Estadísticos de resumen de la edad del paciente del programa de hipertensión en un municipio
antioqueño, 2003.
Estadístico Valor
Media 61,42
Desviación estándar 8,387
Coeficiente de variación 13,70%
Mediana 62
Máximo 74
Mínimo 45
Tabla 12. Razón de disparidad de hombres a mujeres del programa de hipertensión en un municipio
antioqueño, 2003.
Razón de prevalencia, Intervalo del 95 % de

OR confianza
Conocimiento del medicamento 0,487 0,120 a 1,978
Fuma 0,768 0,191 a 3,089
Realiza actividad física 1,303 0,324 a 5,242
Contenido de sal
Usa salero
Los problemas influencian su salud
9. EL MANEJO DEL SOFTWARE ESTADÍSTICO R

Introducción
El software estadístico R es un software de libre distribución siempre y cuando se acojan las observaciones
éticas diseñadas por el grupo de científicos que lo administran. Es un proyecto colaborativo basado en
librerías muchas de las cuales han sido desarrolladas en diferentes por grupos de investigación. Un comité
central que administra el R da el aval para incluir cualquier modificación.
El grupo de profesores de Matemáticas y Estadística de la Facultad Nacional de Salud Pública acogió la

enseñanza de este software en los cursos de la Facultad que tuvieran más de 36 horas; en los demás se trabaja
el software estadístico SPSS.
de 2023
34
En el semestre 20201 se inicia por primera vez el trabajo con el R en los cursos de Estadística descriptiva y
probabilidad, utilizando las guías de clase y las asesorías del profesor Jaime Andrés Gaviria Bedoya del grupo
de profesores de Matemáticas y Estadística de nuestra Facultad.
9.1 Instalación del R

En Google se digita R y aparece el The R Project for statistical computing ; se ingresa a esta página y a la
izquierda aparece CRAN ; está la lista de los mirror; cada país tiene uno; el que no se bloquea es el de
Austria; se digita la secuencia, download R.3.5.1 y se instala en una carpeta.
En el R, el RStudio es un acompañante muy amigable. Se debe instalar una vez se ha instalado el R, en google
se digita RStudio y aparece; se ingresa la secuencia, download RStudio desktop RStudio0.94109.windows
xp/vista/7.
Para instalar el R se da doble clic al R.3.5.1.win.exe y se instala el R en la carpeta archivos de programa. Se le
da instalación completa. Luego se instala el RStudio.
Para ingresar al RStudio se puede hacer una ejecución desde su ícono en archivos de programa para que
quede con un acceso directo en el escritorio de su PC.
Se ingresa al RStudio y aparece en el lado izquierdo arriba el source y abajo, console con su signo de
preparación para recibir líneas de comando, >.
En el lado derecho del Rstudio aparece el Enviroment donde está el espacio de trabajo, workspace y el History
que almacena todos los comandos digitados; abajo, aparece Files, plots donde se almacenan archivos de las
gráficas que son muy buenas; packags donde aparecen los paquetes base del R los cuales suman como 25; a
medida que se desarrollan paquetes para el R aparecen aquí. En Help aparecen los manuales de ayuda.
El R es un software estadístico que tiene una base de comandos estadísticos y matemáticos con los que opera,
pero los comandos más especializados aparecen en librerías (library).
En google se encuentran todas las librerías en: R- RCRAN que son grupos de paquetes y son totalmente
confiables porque son revisadas por el R core Team que es el equipo director de R.
Mediante la secuencia de instrucciones: R-CRAN-packages-table of available packages, sorted by name-
ctrlF-aparece buscar: epi-aparecen todas las librerías de epidemiología (17 en total).
Se ingresa a la librería Epi que tiene se ejecutable, ayuda – doble clic- Windows binary: Ep1.1.24.zip
vignettes:follow-up: se guardan las viñetas.
En RStudio-packages-instala el paquete que se desea desde el R: Epi-install-previamente verificar que esté
chuleado install independences.
9.2 EJEMPLO DE ANÁLISIS DE UNA ENCUESTA EN R
Se analizará una encuesta recogida por dos enfermeras profesionales de la Universidad de Antioquia quienes
cursaban estudios de Especialización en la Universidad María Cano. Ellas recogieron la encuesta entre los
pacientes de un programa de hipertensión en dos municipios del occidente antioqueño. El análisis de la
encuesta se basa en el tratamiento estadístico de las variables con nivel de medida en escala, en nivel de
medida nominal o en ordinal. Se termina el análisis con el cálculo de la razón de prevalencias, OR que es una
medida de asociación entre dos variables dicotómicas, en este caso el sexo por las filas y por las columnas
otras variables de interés. Todos los procedimientos estadísticos se realizan en R.
Encuesta sobre hipertensión arterial en pacientes
En un estudio con los pacientes de un programa de control de la hipertensión realizado en el año 2003 en un
municipio de Antioquia con pacientes que se encuentran afiliados a una IPS
Preparación para el análisis de la encuesta en R
A. Creación de un archivo de datos en Excel
Seleccione en la tabla 1 desde los nombres de las variables hasta la observación 43 en la última fila y
dele copiar. Luego abre una hoja de Excel y en la primera celda (celda 1A) le da clic derecho y luego
pegado especial, y escoge la opción, texto. Da clic y se despliega el archivo de datos en la hoja de
Excel. Dele la opción guardar como y dele el nombre Hipertensos; luego, guarda el archivo en la
carpeta, documentos en un archivo tipo Excel.
de 2023
35
B. Construcción de un Script en R
El espacio de trabajo será el Restudio que usted previamente ha instalado después de la instalación
del R.
Un Script es una serie de comandos de R que se escribe en la ventana source y en el cual se hacen
comentarios anteponiendo el símbolo, # o se ejecutan líneas de código de R en cualquiera de las
siguientes dos formas: i) se ubica el cursor en la línea de código y se oprimen las teclas control enter
en forma simultánea; ii) se ubica el cursor en la línea de código y se oprime run que está en el primer
renglón del source. Cuando se ejecuta una línea de código su resultado aparece en console y
posiblemente en la ventana Enviroment.
Se crea el Script siguiendo la siguiente secuencia de instrucciones: File – New file – Rscript. El
cursor lo ubica en la primera línea del Source. Se escribe el comentario o la instrucción y luego se
guarda mediante la secuencia, File-save as, le da el nombre, Hipertensos, escoge la carpeta donde lo
guardará, documentos y le da save. Queda guardado el Script; a medida que le adicione nuevas líneas
las puede guardar en el mismo Script. Si necesita copiar el script en un documento Word, lo
selecciona, lo copia y lo pega.
C. Importación y grabación del archivo de datos en R
Se importa la base de datos desde el archivo Excel mediante la instrucción que está en el
Enviroment, import dataset; esta instrucción permite importar archivos desde Excel, desde SPSS,
desde SAS y desde STATA que son los paquetes estadísticos más utilizados.
En nuestro caso, tenemos guardado el archivo, Hipertensos.xlsx, en la carpeta documentos; la
secuencia es import dataset- from Excel. Busca el archivo en la carpeta con Browse. Selecciona el
archivo y le da open; muestra el archivo con sus datos y sus variables; en code preview, muestra el
comando de R que se utilizó para importar. Se oprime import y el archivo con las primeras 50
observaciones es mostrado en source.
Este paso que es el más importante se hace más fácil con el Restudio que con el R. Se verifica que el
archivo esté completo y se guarda como una base de datos de R, en la carpeta documentos, póngale
el nombre, HipertensosR en la secuencia, En Enviorement se va al disquete para guardar, se busca la
carpeta donde se guardará, se asigna el nombre y se da save; va al primer renglón del source para
traer el Script que se está trabajando. Cada vez que se necesite la base de datos en R es más fácil
traerla al espacio de trabajo desde Enviroment con la opción de abrir carpeta.
D. Ejecución de cada línea de comando y obtención de los resultados
En este momento del presente documento, hemos guardado la base de datos de HipertensosR y la
tenemos disponible en Enviroment que es el espacio de trabajo; aparece que tiene 43 observaciones y
12 variables.
En el Script en source hemos escrito la primera línea con un comentario,
# Hipertensos y en la siguiente línea agregamos otro comentario, # Paso 1. Fijar los nombres de las
variables; luego escribimos la instrucción attach(Hipertensos) para fijar los nombres de las variables;
puede ejecutarse esta línea colocando el cursor al final de la instrucción y oprimir simultáneamente
control enter; se puede leer lo que aparece en la consola abajo, The following objects are masked
from Hipertensos (pos = 3): activfisica, conoci, edad, freír, fritos/dia, fuma, Identif, licor, proble,
sal, salero, sexo.
La siguiente línea en el Script es, names(Hipertensos)#Este comando sirve para mostrar los nombres
de las variables. Puede ejecutarse y observar el resultado: > names(Hipertensos)#Este
comando sirve para mostrar los nombres de las variables
[1] "Identif" "sexo" "edad" "conoci" "fuma" "licor" "activfisica" "fritos/dia"
[9] "freír" "sal" "salero" "proble"
Se le van a colocar etiquetas a la variable sexo para que 1 sea Hombre y 2 sea mujer; se escriben
varias líneas de código en el Script para lograr este objetivo:
de 2023
36
class(sexo)
sexo
#cómo convertir la variable sexo en factor
sexo<-as.factor(sexo)
# especificar las etiquetas de la variable
levels(sexo)<-c('Hombre','Mujer')
levels(sexo)
Puede seleccionarlas en el Script y ejecutarlas simultáneamente con control enter. Se obtendrá el

siguiente resultado en la consola:
> class(sexo)
[1] "factor"
> sexo
[1] Mujer Mujer Mujer Mujer Mujer Mujer Hombre Mujer Hombre Hombre Hombre Hombre
Mujer Mujer Mujer Mujer
[17] Mujer Mujer Hombre Hombre Mujer Hombre Mujer Mujer Mujer Mujer Hombre Mujer
Mujer Mujer Mujer Hombre
[33] Mujer Mujer Mujer Hombre Mujer Mujer Mujer Hombre Mujer Mujer Hombre
Levels: Hombre Mujer
> #cómo convertir la variable sexo en factor
> sexo<-as.factor(sexo)
> # especificar las etiquetas de la variable
> levels(sexo)<-c('Hombre','Mujer')
> levels(sexo)
[1] "Hombre" "Mujer"
Para obtener las frecuencias del sexo, se escriben las siguientes instrucciones:
#Tabla de frecuencia de la variable
table(sexo)
prop.table(table(sexo))
prop.table(table(sexo))*100
El resultado que se obtiene es el siguiente:

> #Tabla de frecuencia de la variable
> table(sexo)
sexo
Hombre Mujer
13 30
> prop.table(table(sexo))
sexo
Hombre Mujer
0.3023256 0.6976744
> prop.table(table(sexo))*100
sexo
Hombre Mujer
30.23256 69.76744
Con esta información se escribe la primera tabla del informe final:

de 2023
37
Tabla 1. Distribución de frecuencia del sexo del paciente del programa de hipertensión en un
municipio antioqueño, 2003
Hombre 13 30.2
Mujer 30 69.8
Total 43 100.0
Con las 10 variables cualitativas restantes de debe realizar el mismo procedimiento.

Se obtienen luego los estadísticos descriptivos de la edad de los pacientes con las siguientes
instrucciones:
#análisis descriptivo de la edad
class(edad)
summary(edad)
sd(edad)#desviación estándar de la edad
cv=sd(edad)/mean(edad)*100
cv
Al ejecutar simultáneamente estas líneas de código, se obtienen los siguientes resultados:
> #análisis descriptivo de la edad

> class(edad)
[1] "numeric"
> summary(edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
45.00 56.00 62.00 61.42 68.00 74.00
> sd(edad)#desviación estándar de la edad
[1] 8.387157
> cv=sd(edad)/mean(edad)*100
> cv
[1] 13.65573
Se escribe la segunda tabla del informe final:
Tabla 2. Estadísticos de resumen de la edad del paciente del programa de hipertensión en un

municipio antioqueño, 2003.
Estadístico Valor
Media 61.42 años
Desviación estándar 8.39 años
Coeficiente de variación 13.7%
Mediana 62 años
Máximo 74 años
Mínimo 45 años
de 2023
38
E. Cálculo del OR y su intervalo de 95% de confianza

Primero se genera una tabla cruzada en la cual el sexo está por las filas y por las columnas del
conocimiento del medicamento, conoci; las instrucciones que se ejecutan son:
#Generación de una tabla cruzada
table(sexo,conoci)
El resultado es el siguiente:
conoci
sexo 1 2
Hombre 8 5
Mujer 23 7
La tabla cruzada que se produce para obtener el OR es:
Conoci
1= Sí 2=No
Hombre 8 5
Mujer 23 7
Cálculo del OR
OR= (8*7)/(23*5) = 0.486956

Intervalo del 95% de confianza para el OR
1 1 1 1
1.96   
8 5 23 7
OR * e
1 1 1 1
1.96   
8 5 23 7
El límite inferior del intervalo es: OR * e
1 1 1 1
1.96   
8 5 23 7
El límite superior del intervalo es OR * e
En el Script se escriben las siguientes líneas de código:

LimInf<-OR*exp(-1.96*(sqrt(1/8+1/5+1/23+1/7)))
LimInf
LimSup<-OR*exp(+1.96*(sqrt(1/8+1/5+1/23+1/7)))
LimSup
Se ejecutan simultáneamente y se obtiene el siguiente resultado:
> LimInf
[1] 0.1198959
> LimSup<-OR*exp(+1.96*(sqrt(1/8+1/5+1/23+1/7)))
> LimSup
[1] 1.977772
de 2023
39
La tabla con la información del OR es las siguientes
Tabla 13. Relación de hombres a mujeres en los pacientes de un programa de hipertensión en

un municipio antioqueño en el 2003
OR Límite Límite
inferior del superior del
OR OR
Conocimiento del 0.486956 0.1198959 1.977772

medicamento
Actividad física
salero
sal
problemas
F. Script en R
# Hipertensos
# Paso 1. Fijar los nombres de las variables
attach(Hipertensos)
names(Hipertensos)#Este comando sirve para mostrar los nombres de las variables
class(sexo)
sexo
#cómo convertir la variable sexo en factor
sexo<-as.factor(sexo)
# especificar las etiquetas de la variable
levels(sexo)<-c('Hombre','Mujer')
levels(sexo)
#Tabla de frecuencia de la variable
table(sexo)
prop.table(table(sexo))
prop.table(table(sexo))*100
#análisis descriptivo de la edad
class(edad)
edad
summary(edad)
sd(edad)#desviación estándar de la edad
cv=sd(edad)/mean(edad)*100
cv
#Generación de una tabla cruzada
table(sexo,conoci)
#Obtención del OR
OR<-(8*7)/(23*5)
OR
de 2023
40
LimInf
LimSup<-OR*exp(+1.96*(sqrt(1/8+1/5+1/23+1/7)))
LimSup
9.3 ANÁLISIS DE LA ENCUESTA TURBO 1
IDENTIFICACIÓN DE ALGUNOS PROBLEMAS DE SALUD PÚBLICA EN EL MUNICIPIO DE

TURBO, ANTIOQUIA, 2015
Profesores participantes:
Ramón Eugenio Paniagua Suárez
Emmanuel Nieto
Margarita María Pérez Osorno
Juan David Correa
Estudiantes de la Tecnología de Sistemas de Información en Salud –Turbo.
Coordinador del programa: Fernán Alonso Villa Garzón
Introducción
El presente estudio responde a la pregunta, ¿cuáles son los problemas de salud pública que identifican los
jefes de hogar en el municipio de Turbo?, para lo cual se diseñó una muestra aleatoria de manzanas en la zona
urbana tomadas desde el mapa del municipio. La investigación tiene tres dimensiones: una familiar y de salud
mental, la segunda corresponde al saneamiento básico y una tercera sobre salud y trabajo con las cuales le
damos pertinencia social a tres cursos de los ofrecidos a los programas en salud pública que ofrece la Facultad
Nacional de Salud Pública. Se pretenden visibilizar algunos problemas en estas tres dimensiones para buscar
colocarlos en la agenda pública de la administración del municipio en el período que recientemente se
iniciará. El objetivo de la investigación es conocer el acceso a los servicios de salud pública en las
dimensiones en consideración.
Objetivo general
Identificar los problemas de salud pública en tres aspectos: funcionamiento familiar, satisfacción con la vida
y situaciones difíciles de la familia y empleabilidad desde una muestra de jefes de hogar del municipio de
Turbo en el año 2015.
Objetivos específicos
Determinar el nivel de funcionamiento familiar en una muestra de jefes de hogar de municipio de Turbo en el
año 2015.
Determinar la satisfacción con la vida en una muestra de jefes de hogar de municipio de Turbo en el año
2015.
Determinar las situaciones difíciles en la familia en una muestra de jefes de hogar de municipio de Turbo en
el año 2015.
Metodología
El estudio es exploratorio y descriptivo en el cual se selecciona una muestra por conveniencia de jefes de
Hogar en el municipio de Turbo (Antioquia) entre los meses de agosto y septiembre de 2015. Desde el mapa
del municipio de Turbo en el cual se delimita el componente urbano y se identifican las manzanas, se procede
a enumerarlas consecutivamente desde la 1 hasta la 404 para obtener una muestra aleatoria de 20 manzanas
tomando en cuenta que, según el Departamento Administrativo Nacional de Estadística, DANE, existen en
promedio 40 viviendas por manzana. Se muestrean todas las viviendas de las manzanas seleccionadas. La
de 2023
41
unidad de observación es el jefe del hogar sea hombre o mujer que habite la vivienda componente de la
manzana que aparece en le muestra. Se utiliza una encuesta elaborada por los profesores la cual recoge
preguntas de otros instrumentos y con la cual se miden el funcionamiento familiar, el saneamiento básico y el
empleo.
Después de un mes del conteo y selección de las manzanas se seleccionan 18 de ellas y se les asignan
estudiantes de la Tecnología en Sistemas de Información con sede en Turbo para que recojan la información.
Tabla 1. Direcciones y número de viviendas en las manzanas seleccionadas aleatoriamente, Tubo, 2015.
Número de la Dirección Número de N° de
manzana en el mapa viviendas estudiantes
212 Calle 106, caño yoyó, carrera 10 y carrera 11 41 2
294 Calle 98 B y calle 98 C, carrera 11 y 12 56 3
346 Carrera 15 y 16, calle 96 y calle 96 A 86 4
46 Carrera 13 y calle 110 y 111 97 4
41 Carrera 13 y 14 calle 99 y 98ª 32 2
264 Carrera 15 y 16, caño Veranillo y calle 101 33 2
291 Calle 99 y calle 98 C, carrera 12 50 2
287 Carrera 10 y 9, Calle 100 y 101 92 4
388 Carrera 19 y calle 91 54 2
323 Carrera 15, calle 98 y 98 A 50 2
103 calle 110 y 111, carrera 10 65 3
390 Calle 96, carrera 15 42 2
231 Calle 103 y 104, carrera 11 48 2
262 Calle 102, carrera 16 y 17 41 2
106 Carrera 13 y 12, calle 110 48 2
30 carrera 17 calle 102 y 102b 36 2
Total 897 42
Existe un equipo de seis estudiantes para organizar la parte logística. La meta es realizar por lo menos 400
encuestas y con estas manzanas es suficiente.
Se realizó una prueba piloto el día sábado 8 de agosto de 2015 con jefes de hogar de los municipios de
Apartadó, Chigorodó, Necoclí, Mutatá y Turbo para probar el instrumento con un total de 42 encuestas.
Después de su revisión y análisis se construye una encuesta final.
El tamaño demuestra final para el estudio fue de n = 518 viviendas.
CUADRO DE VARIABLES PARA EL ARCHIVO TURBO 1

Nombre variable Etiqueta Valores Medida
idencuesta Número de identificación de la
encuesta
VARIABLES SOCIODEMOGRÁFICAS
Sexo Sexo del jefe (a) del hogar 1: Hombre; 2: Mujer Nominal
Edad Edad del jefe (a) del hogar Escala
Estrato Estrato socioeconómico de la 1, 2, 3, 4, 5, y 6 Nominal
vivienda
Personas Número de personas en el hogar Escala
de 2023
42
Barrio Tiempo viviendo en el barrio 1: Toda la vida; 2: Desde Ordinal

hace menos de 1 año;
3: Más de una año
Parentesco Parentesco con el jefe del hogar 1: Hermano(a); 2: Nominal
Hijo(a) o Hijastro(a); 3:
jefe (a) de hogar; 4:
Otro; 5: Padre o madre;
6: Pareja, esposo(a),
cónyuge, compañero (a)
Niveleduca Nivel educativo más alto alcanzado 1: Ninguno; 2: Primaria Ordinal
por el jefe del hogar completa; 3: Primaria
incompleta;
4: Secundaria completa;
5: secundaria
incompleta;
6: Superior
FUNCIONAMIENTO FAMILIAR – INSTRUMENTO, APGAR DE FAMILIA
Funciona Nivel de funcionamiento familiar 1: Bueno; 2: Disfunción Ordinal
leve; 3: Disfunción
moderada; 4:
Disfunción severa
SATISFACCIÓN CON LA VIDA
Sacontigo Contigo mismo 1: Nunca; 2: Muy rara Ordinal
vez; 3: Con frecuencia;
4: Siempre
Samigos Tus amigos 1: Nunca; 2: Muy rara Ordinal
4: Siempre
Sareligios La vida religiosa de tu familia 1: Nunca; 2: Muy rara Ordinal
4: Siempre
Saservicios Los servicios de salud de que dispone 1: Nunca; 2: Muy rara Ordinal
la familia vez; 3: Con frecuencia;
4: Siempre
Sacomunidad El barrio o comunidad donde vives 1: Nunca; 2: Muy rara Ordinal
4: Siempre
Saeconom La situación económica de tu familia 1: Nunca; 2: Muy rara Ordinal
4: Siempre
Satrabajo Tu trabajo u ocupación principal 1: Nunca; 2: Muy rara Ordinal
4: Siempre
Safamilia Tu familia 1: Nunca; 2: Muy rara Ordinal
4: Siempre
SITUACIONES DIFÍCILES DE LA FAMILIA
Incapacitado Uno de nosotros o un pariente 1: No ocurrió; 2: Ordinal
cercano quedó físicamente Ocurrió, pero no afectó a
incapacitado, adquirió una mi familia; 3: Ocurrió y
enfermedad o lo pusieron en un afectó mucho a mi
hogar o asilo familia
Psicológicos Uno de nosotros presentó problemas 1: No ocurrió; 2: Ordinal
emocionales o psicológicos Ocurrió, pero no afectó a
mi familia; 3: Ocurrió y
de 2023
43
afectó mucho a mi
familia
Murió Murió un miembro de la familia, un 1: No ocurrió; 2: Ordinal
pariente o un amigo cercano Ocurrió, pero no afectó a
mi familia; 3: Ocurrió y
afectó mucho a mi
familia
Dificultades Uno de nosotros tuvo dificultades en 1: No ocurrió; 2: Ocurrió Ordinal
la escuela, colegio o universidad pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Cambios Uno de nosotros tuvo cambios 1: No ocurrió; 2: Ocurrió Ordinal
importantes en el trabajo. pero no afectó a mi
afectó mucho a mi
familia
Conflictos Hubo serios conflictos o problemas 1: No ocurrió; 2: Ocurrió Ordinal
familiares pero no afectó a mi
afectó mucho a mi
familia
Separaron Mis padres se separaron 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
afectó mucho a mi
familia
Dinero Hubo problemas de dinero en la casa 1: No ocurrió; 2: Ocurrió Ordinal
afectó mucho a mi
familia
Violencia Hubo violencia entre los miembros 1: No ocurrió; 2: Ocurrió Ordinal
de la familia pero no afectó a mi
afectó mucho a mi
familia
Vivienda La familia se cambió de vivienda 1: No ocurrió; 2: Ocurrió Ordinal
afectó mucho a mi
familia
Nuevapareja Uno o ambos padres se unió a una 1: No ocurrió; 2: Ocurrió Ordinal
nueva pareja o se volvieron a casar pero no afectó a mi
afectó mucho a mi
familia
Adoptó La familia o uno de sus miembros 1: No ocurrió; 2: Ocurrió Ordinal
tuvo o adoptó un hijo pero no afectó a mi
afectó mucho a mi
familia
Alimentó La familia se alimentó mal por falta 1: No ocurrió; 2: Ocurrió Ordinal
de dinero. pero no afectó a mi
afectó mucho a mi
de 2023
44
familia
Sinvivienda La familia se quedó sin vivienda 1: No ocurrió; 2: Ocurrió Ordinal
afectó mucho a mi
familia
Faltadiner Alguien de la familia no pudo ir al 1: No ocurrió; 2: Ocurrió Ordinal
médico por falta de dinero pero no afectó a mi
afectó mucho a mi
familia
Sefugó Uno de los hijos se fugó de la casa 1: No ocurrió; 2: Ocurrió Ordinal
afectó mucho a mi
familia
Abandonó Uno de los padres abandonó a la 1: No ocurrió; 2: Ocurrió Ordinal
familia pero no afectó a mi
afectó mucho a mi
familia
Las encuestas fueron tabuladas en el área tecnológica por parte de estudiantes y egresados de la Facultad
Nacional de Salud Pública y la entregaron el formato del software estadístico SPSS.
INFORME FINAL SOBRE EL ANÁLISIS DE UNA ENCUESTA

En el informe final deben aparecer las tablas de cada una de las variables construidas teniendo en cuenta su
medida que indica si es una tabla de frecuencia (nominal y ordinal) o una tabla con estadísticos de resumen
(escala). Cada tabla tiene un título y una interpretación. Observe que en el cuadro de variables parecen unos
temas que agrupan a unas variables. Se deben interpretar cada una de las tablas y luego sacar una conclusión
de lo evidenciado en cada tema. Luego se saca una conclusión general de todo el estudio en un párrafo de por
lo menos 200 palabras.
9.3 ANÁLISIS DE LA ENCUESTA TURBO 2

IDENTIFICACIÓN DE ALGUNOS PROBLEMAS DE SALUD PÚBLICA EN EL MUNICIPIO DE
TURBO, ANTIOQUIA, 2015
Profesores participantes:
Ramón Eugenio Paniagua Suárez
Emmanuel Nieto
Margarita María Pérez Osorno
Juan David Correa
Estudiantes de la Tecnología de Sistemas de Información en Salud –Turbo.
Coordinador del programa: Fernán Alonso Villa Garzón
Introducción
El presente estudio responde a la pregunta, ¿cuáles son los problemas de salud pública que identifican los
jefes de hogar en el municipio de Turbo?, para lo cual se diseñó una muestra aleatoria de manzanas en la
zona urbana tomadas desde el mapa del municipio. La investigación tiene tres dimensiones: una familiar y de
salud mental, la segunda corresponde al saneamiento básico y una tercera sobre salud y trabajo con las cuales
le damos pertinencia social a tres cursos de los ofrecidos a los programas en salud pública que ofrece la
Facultad Nacional de Salud Pública. Se pretenden visibilizar algunos problemas en estas tres dimensiones
para buscar colocarlos en la agenda pública de la administración del municipio en el período que
de 2023
45
recientemente se iniciará. El objetivo de la investigación es conocer el acceso a los servicios de salud pública
en las dimensiones en consideración.
Objetivo general
Identificar los problemas de salud pública en cinco aspectos: suministro de agua, manejo de aguas residuales,
manejo de residuos sólidos y ámbito de trabajo del jefe de hogar del municipio de Turbo en el año 2015.
Objetivos específicos
Describir algunas de las características de saneamiento ambiental, intrínsecamente relacionadas con la calidad
de vida de sus habitantes en una muestra de jefes de hogar de municipio de Turbo en el año 2015.
Caracterizar el perfil de empleo, desempleo e ingresos laborales de una muestra de jefes de hogar de
municipio de Turbo en el año 2015.
Identificar los factores socioeconómicos y laborales asociados al acceso a los servicios de salud de una
muestra de jefes de hogar del municipio de Turbo en al año 2015.
Metodología
El estudio es exploratorio y descriptivo en el cual se selecciona una muestra por conveniencia de jefes de
Hogar en el municipio de Turbo (Antioquia) entre los meses de agosto y septiembre de 2015. Desde el mapa
del municipio de Turbo en el cual se delimita el componente urbano y se identifican las manzanas, se procede
a enumerarlas consecutivamente desde la 1 hasta la 404 para obtener una muestra aleatoria de 20 manzanas
tomando en cuenta que, según el Departamento Administrativo Nacional de Estadística, DANE, existen en
promedio 40 viviendas por manzana. Se muestrean todas las viviendas de las manzanas seleccionadas. La
unidad de observación es el jefe del hogar sea hombre o mujer que habite la vivienda componente de la
manzana que aparece en le muestra. Se utiliza una encuesta elaborada por los profesores la cual recoge
preguntas de otros instrumentos y con la cual se miden el funcionamiento familiar, el saneamiento básico y el
empleo.
Después de un mes del conteo y selección de las manzanas se seleccionan 18 de ellas y se les asignan
estudiantes de la Tecnología en Sistemas de Información con sede en Turbo para que recojan la información.
Tabla 1. Direcciones y número de viviendas en las manzanas seleccionadas aleatoriamente, Tubo, 2015.
Número de la Dirección Número de N° de
manzana en el mapa viviendas estudiantes
212 Calle 106, caño yoyó, carrera 10 y carrera 11 41 2
294 Calle 98 B y calle 98 C, carrera 11 y 12 56 3
346 Carrera 15 y 16, calle 96 y calle 96 A 86 4
46 Carrera 13 y calle 110 y 111 97 4
41 Carrera 13 y 14 calle 99 y 98ª 32 2
264 Carrera 15 y 16, caño Veranillo y calle 101 33 2
291 Calle 99 y calle 98 C, carrera 12 50 2
287 Carrera 10 y 9, Calle 100 y 101 92 4
388 Carrera 19 y calle 91 54 2
323 Carrera 15, calle 98 y 98 A 50 2
103 calle 110 y 111, carrera 10 65 3
de 2023
46
231 Calle 103 y 104, carrera 11 48 2

262 Calle 102, carrera 16 y 17 41 2
106 Carrera 13 y 12, calle 110 48 2
30 carrera 17 calle 102 y 102b 36 2
Total 897 42
Existe un equipo de seis estudiantes para organizar la parte logística. La meta es realizar por lo menos 400
encuestas y con estas manzanas es suficiente.
Se realizó una prueba piloto el sábado 8 de agosto de 2015 con jefes de hogar de los municipios de Apartadó,
Chigorodó, Necoclí, Mutatá y Turbo para probar el instrumento con un total de 42 encuestas. Después de su
revisión y análisis se construye una encuesta final.
El tamaño demuestra final para el estudio fue de n = 518 viviendas.
CUADRO DE VARIABLES PARA EL ARCHIVO TURBO 2

Nombre Etiqueta Valores Medida
variable
idencuesta Identificación de la encuesta
Sexo Sexo del (la) jefe(a) de hogar 1: Hombre; 2: Mujer Nominal
Edad Edad del (la) jefe(a) de hogar Escala
Estrato Estrato socioeconómico de la Ordinal
vivienda
SUMINISTRO DE AGUA
Provieneagua De dónde proviene el suministro de 1: Acueducto; 2:Lluvia; 3: Nominal
agua NR; 4: No llega; 5: Río;
6: Aguas de Urabá
Potable El agua que consume es potable 1: Sí; 2: No; 3: NR Nominal
Aguadias ¿Cuenta con servicio de agua todos 1: Sí; 2: No; 3: NR Nominal
los días?
Horas24 ¿Cuenta con servicio de agua las 24 1: Sí; 2: No; 3: NR Nominal
horas del día?
Gastro En el último año usted, ¿ha sufrido 1: Sí; 2: No; 3: NR Nominal
enfermedades gastrointestinales o de
la piel?
Gestionbuena ¿Es la gestión de la empresa de 1: Sí; 2: No; 3: NR Nominal
servicios públicos domiciliarios,
buena?
MANEJO DE AGUAS RESIDUALES
Sistema ¿Cuenta el municipio con sistema de 1: Sí; 2: No; 3: NR Nominal
tratamiento de aguas residuales?
Conectada ¿Su casa está conectada al sistema de 1: Sí; 2: No; 3: NR Nominal
tratamiento de aguas residuales?
Dispone ¿Cómo dispone sus aguas residuales? 1: Ninguno; 2: Quebrada; Nominal
3: Caño; 4:Suelo
Recogeagua ¿Recoge agua lluvia? 1: Sí; 2: No; 3: NR Nominal
Dausoagua ¿Da algún uso al agua lluvia? 1: Sí; 2: No; 3: NR Nominal
Cualuso ¿Cuál uso da al agua lluvia? 1: Ninguno; 2:Aseo de baños; Nominal
3: Lavado de trapeadora; 4:
Sacudir; 5: labores de la casa
Molestias ¿Cuáles son las peores molestias de 1: Ninguna; 2: Olor; 3: Nominal
las aguas residuales? Roedores; 4: Enfermedades;
5: Todas las problemáticas
de 2023
47
MANEJO DE RESIDUOS SÓLIDOS

Separa ¿Separa las basuras en su casa? 1: Sí; 2: No; 3: NR Nominal
Recolección ¿Accede al servicio de recolección de 1: Sí; 2: No; 3: NR Nominal
basuras?
Frecuencia ¿Cuál es la frecuencia de recolección 1: Cada dos días; 2: Cada Ordinal
de los residuos? semana; 3: Diario; 4: No
responde
Bota ¿Si no le recogen las basuras, en qué 1: No responde; 2: Patio; 3: Nominal
lugar las bota? Solar de la casa; 4; Terreno
baldío; 5: Bahía; 6: Caño; 7:
Otro
Manejo ¿Percibe problemas en el manejo de 1: Sí; 2: No; 3: NR Nominal
las basuras?
ÁMBITO DE TRABAJO
Actividad ¿En qué actividad ocupó la mayor 1: Oficios del hogar; Nominal
parte del tiempo la semana pasada? 2: Trabajando; 3: Estudiando;
4: Buscando trabajo; 5: Otros
Actual ¿En su actual trabajo es? 1: NR; 2: Trabajador; Nominal
3: Obrero; 4: Empleado;
5: Profesional; 6: Patrón
Realizó ¿Realizó la semana pasada alguna 1: Sí; 2: No; 3: NR Nominal
actividad remunerada por una hora o
más?
Trabajó ¿Trabajó la semana pasada en un 1: Sí; 2: No; 3: NR Nominal
negocio por una hora o más sin que le
pagaran?
Contrato ¿Para realizar su trabajo actual tiene 1: Sí; 2: No; 3: NR Nominal
algún tipo de contrato?
Término ¿Su actual contrato de trabajo es a 1: No aplica; 2: A término Nominal
término fijo o indefinido? indefinido; 3: A término fijo
Afiliado ¿Está afiliado, es cotizante o 1: Sí; 2: No; 3: NR Nominal
beneficiario de alguna entidad de
seguridad social en salud?
Regímenes ¿A cuál de los siguientes regímenes 1: Subsidiado; Nominal
de seguridad social en salud está 2: Contributivo; 3: Ninguno;
afiliado? 4: No sabe
Salud Considera que su estado de salud es 1: Bueno; 2: Muy bueno; 3: Ordinal
Regular; 4: Malo; 5: No aplica
Enfermedad ¿En los últimos 30 días, tuvo alguna 1: Sí; 2: No; 3: NR Nominal
enfermedad, accidente u otro
problema de salud?
Hizo Para tratar este problema, ¿qué hizo 1: Nada; 2: Acudió al médico; Nominal
principalmente? 3: Acudió a una IPS; 4:
Acudió a un boticario; 5: Se
auto recetó; 6: usó remedios
caseros
Las encuestas fueron tabuladas en el área tecnológica por parte de estudiantes y egresados de la Facultad
Nacional de Salud Pública y la entregaron el formato del software estadístico SPSS.
INFORME FINAL SOBRE EL ANÁLISIS DE UNA ENCUESTA
de 2023
48
En el informe final deben aparecer las tablas de cada una de las variables construidas teniendo en cuenta su
medida que indica si es una tabla de frecuencia (nominal y ordinal) o una tabla con estadísticos de resumen
(escala). Cada tabla tiene un título y una interpretación. Observe que en el cuadro de variables parecen unos
temas que agrupan a unas variables. Se deben interpretar cada una de las tablas y luego sacar una conclusión
de lo evidenciado en cada tema. Luego se saca una conclusión general de todo el estudio en un párrafo de por
lo menos 200 palabras.
10. SELECCIÓN DE UNA MUESTRA ALEATORIA DEESTUDIANTES EN UN COLEGIO
EJERCICIO. SELECCIÓN ALEATORIA DE ESTUDIANTES DE UN COLEGIO

Profesores responsables: Ramón Eugenio Paniagua Suárez. Cel: 3122278165. Oficina:
2196827.
Carlos Mauricio González Posada. Cel: 3122388879
MUESTRA ALEATORIA DE ESTUDIANTES

INSTITUCIÓN:
CÓDIGO NOMBRE DEL (LA) ESTUDIANTE JORNADA GRADO CÓDIGO
Matrícula DEL
COLEGIO.
SUPLENTES
de 2023
49
Ejercicio 10
11. VALORACIÓN DE UNA ESCALA. INVENTORY SUICIDE ORIENTATION-ISO-30

Mide Riesgo de orientación suicida en adolescentes. Tiene cinco ítems críticos en sus preguntas para
adolescentes que seleccionan los valores dos ó tres en las respuestas. Si un estudiante tiene tres o más ítems
críticos, se considera que tiene un nivel alto de orientación al riesgo suicida.
Ítem en el cuestionario Respuesta posible Respuesta posible Respuesta
seleccionada
36 1 2 3ó4
41 1 2 3ó4
46 1 2 3ó4
51 1 2 3ó4
56 1 2 3ó4
61 1 2 3ó4
Valores reales para establecer la puntuación total en riesgo de suicidio

1 2 3 4
Ítem en el Valor asignado a Valor asignado a Valor asignado a Valor asignado a
cuestionario la respuesta la respuesta la respuesta la respuesta
32 0 1 2 3
33 3 2 1 0
34 3 2 1 0
35 3 2 1 0
36 0 1 2 3
37 0 1 2 3
38 3 2 1 0
39 0 1 2 3
40 0 1 2 3
41 0 1 2 3
42 3 2 1 0
43 0 1 2 3
Ítem en el Valor asignado a Valor asignado a Valor asignado a Valor asignado a
cuestionario la respuesta la respuesta la respuesta la respuesta
44 3 2 1 0
45 3 2 1 0
46 0 1 2 3
47 0 1 2 3
48 3 2 1 0
49 0 1 2 3
50 0 1 2 3
51 0 1 2 3
52 0 1 2 3
53 3 2 1 0
54 0 1 2 3
55 0 1 2 3
56 0 1 2 3
57 0 1 2 3
58 3 2 1 0
59 3 2 1 0
60 0 1 2 3
61 0 1 2 3
de 2023
50
Nivel de riesgo de orientación Puntuación total Para los dominios de riesgo de

suicida suicidio
Alto Mayor que 45 Mayor que 50 %
Moderado Entre 30 y 44 Entre 33,3 %-48,8 %
Bajo Menor que 30 Menor que 33,3 %
11.1 DISTRIBUCIÓN NORMAL
Es una distribución de probabilidad continua que recibe el nombre de normal porque una parte de los médicos
y de los biólogos creyeron que todas las variables naturales de interés seguían este modelo.
1  ( x   )  2
1   
f ( x)  e2
Su función de densidad es: 2  donde   x  
Se dice que X ~ N (, ) que se lee “equis se distribuye normal con media  y desviación estándar  .
Distribución normal X Distribución normal Z

(x  )
Z

Propiedades de la distribución normal

1. La esperanza o valor esperado de X es
 ; es decir, E(X) =  .
2. Su varianza es  y su desviación estándar es  .

2
3. Es simétrica respecto a su media; en la gráfica se puede observar; estadísticamente la media

 es igual a la mediana, Me y el coeficiente de simetría es igual a cero.
4. La media, la moda y la mediana coinciden en .

5. Cualquier transformación lineal de una variable con distribución normal, también seguirá el
modelo normal. Si X ~ N (, ) y definimos Y  aX  b con a  0 entonces
Y ~ N (a  b, a  ) a  b
. Es decir, la esperanza de Y ó valor promedio de Y será y
a
su desviación típica, .
6. Cualquier combinación lineal de variables normales independientes seguirá también el
modelo normal. Es decir, dadas n variables aleatorias independientes con distribución
de 2023
51
X i ~ N ( i ,  i )
para i=1,2,3, …, n la combinación lineal
Y  an X n  an1 X n1  ...  a1 X 1 a0
sigue también el modelo normal:
n n
Y  N (a0   ai i , a  2
i
2
)
i 1 i 1
Hay muchas variables asociadas a fenómenos naturales que siguen el modelo normal:
 Caracteres morfológicos de individuos (personas, animales, plantas) de una especie; por ejemplo, tallas,
pesos, envergaduras, diámetros.
 Caracteres fisiológicos; por ejemplo, efecto de una misma dosis de un fármaco, o de una misma cantidad
de abono.
 Caracteres sociológicos; por ejemplo, cociente intelectual, grado de adaptación a un medio.
 El número de errores cometidos al medir ciertas magnitudes.
 Valores estadísticos muestrales como la media, y la proporción para muestras con n >30.
 Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.
Porcentaje
Peso en Z
12. ANÁLISIS DE VARIABLES CUANTITATIVAS*
Con las variables cuantitativas se puede hacer un análisis más rico5 mediante diferentes técnicas que reciben
el nombre de Análisis Exploratorios de Datos (Exploratory Data Analysis).
Las variables aleatorias toman valores que pueden ser continuos o discretos y los valores que asume la
variable no son igualmente probables.
Toda variable aleatoria X genera una serie de valores en su medición que reciben el nombre de distribución
de la variable o de la población que se encuentra asociada a esa variable y es la probabilidad de que la
variable tome cada valor dentro de la población.
Por ejemplo, en la Universidad de Antioquia, la variable sexo genera una población formada por todos los
valores de hombre o mujer; la aparición de cada valor de la variable sexo tiene asociada una probabilidad o
posibilidad.
La probabilidad es una medida de aparición de uno o más números como valores de X. La probabilidad,
aplicada a los valores que toma la variable aleatoria, mide la frecuencia con que un valor es asumido por una
variable.
Cuando se trabaja con variables continuas se puede realizar un análisis un poco más amplio que el realizado
con variables cualitativas.
*
Algunos conceptos fueron tomados del libro, MILTON, S. Estadística para Biología y Ciencias Sociales. 3° edición. Edic.
Mc GraW – Hill.
5
Clavijo, Jairo. Curso Básico de Estadística. Universidad del Tolima. Ibagué. 2000.
de 2023
52
El objeto de realizar este análisis es el de comparar la distribución de estas variables con la distribución
normal que es el referente por ser una distribución simétrica. Cuando no se cumple la simetría se utilizan
como estadísticos de la distribución, la mediana y el rango intercuartil.
El análisis de una variable cuantitativa se logra conociendo todas sus estadísticas de resumen que son: la
media, moda, mediana, desviación estándar, primer cuartil, tercer cuartil y coeficiente de variación,
coeficiente de simetría y coeficiente de curtosis. Estas estadísticas tienen fórmulas un poco distintas cuando
los datos están sin agrupar (menos de 15) y cuando están agrupados en distribuciones de frecuencia.
Conceptualmente significan lo mismo para ambos casos.
Es difícil, de un vistazo, tener una visión clara sobre la estructura de la distribución de una variable porque a
veces sus datos son muy diferentes o el número de ellos es muy grande; en tal caso, se recomienda empezar a
organizarlos en cualquiera de las dos formas: tabla de frecuencia y diagrama de tallos y hojas.
A continuación, se ilustrarán los dos por medio de un ejemplo.
Tomado del libro: Vargas Viviana. Estadística descriptiva para ingeniería ambiental con SPSS. Universidad
Nacional de Colombia. Facultad de Ingeniería y Administración sede Palmira. Cali; 2007. Pag. 71.
Ejemplo: Muestras del nivel de presión sonora de ruido medida en decibeles (dB) en diferentes estaciones de
la ciudad de Cali. (LPD, en el día. LPN, en la noche)
N° de estación LPD (dB) LPN(dB) N° de estación LPD (dB) LPN(dB)
1 63,7 56,6 26 65,1 57,6
2 66,9 60,2 27 55,3 47,1
3 66,8 56,0 28 71,3 61,7
4 75,3 72,3 29 72,3 72,8
5 70,8 67,2 30 64,6 54,6
6 75,0 68,3 31 59,6 55,8
7 76,3 67,3 32 70,6 70,7
8 75,0 69,4 33 65,3 60,0
9 71,4 72,3 34 74,0 68,3
10 77,4 70,7 35 74,9 69,9
11 71,6 65,7 36 64,1 59,8
12 70,5 65,1 37 53,3 44,2
13 73,7 65,9 38 62,5 52,7
14 71,0 64,7 39 62,3 56,6
15 56,1 54,1 40 75,4 70,0
16 69,0 63,1 41 61,1 49,6
17 72,1 68,5 42 65,9 57,7
18 74,1 71,0 43 62,6 63,0
19 76,5 71,0 44 50,2 42,0
20 57,3 55,4 45 50,9 44,6
21 71,6 67,4 46 62,0 52,7
22 67,2 63,5 47 64,0 54,4
23 62,3 55,5 48 58,7 50,6
24 69,4 64,5 49 68,2 62,7
25 60,5 60,7 50 61,6 49,1
de 2023
53
12.1 Tabla de frecuencia

La tabla de frecuencia es una representación de la forma: dato, frecuencia absoluta, frecuencia absoluta
acumulada, frecuencia relativa y frecuencia relativa acumulada. Donde, x i es el dato ordenado de
menor a mayor de la variable X y f i es la frecuencia absoluta o sea el número de veces que aparece el dato
fi
i en la distribución; hi  es la frecuencia relativa y H es la frecuencia relativa acumulada; H = hi
n
Tabla 10. Tabla de frecuencia de las mediciones de presión sonora en el día LPD (dB) y LPN (dB) en la
noche en Cali, 2007.
LPN (dB) fi
LPD (dB)
fi
50,2 1 50,2 1
50,9 1 50,9 1
53,3 1 53,3 1
55,3 1 54,1 1
56,1 1 55,3 1
57,3 1 55,4 1
58,7 1 55,5 1
59,6 1 56 1
60,5 1 56,6 1
61,1 1 58,7 1
61,6 1 59,6 1
62 1 60,2 1
62,3 2 60,7 1
62,5 1 61,1 1
62,6 1 61,6 1
63,7 1 62 1
64 1 62,3 1
64,1 1 62,5 1
64,6 1 62,6 1
65,1 1 63,1 1
65,3 1 63,5 1
65,9 1 64 1
66,8 1 64,1 1
66,9 1 64,5 1
67,2 1 64,6 1
68,2 1 64,7 1
69 1 65,1 2
69,4 1 65,3 1
70,5 1 65,7 1
de 2023
54
70,6 1 65,9 2
70,8 1 67,2 1
71 1 67,3 1
71,3 1 67,4 1
71,4 1 68,2 1
71,6 1 68,3 1
71,6 1 68,5 1
72,1 1 69,4 1
72,3 1 70,6 1
73,7 1 70,7 1
74 1 71 2
74,1 1 71,3 1
74,9 1 72,3 3
75 1 74 1
75 1 74,9 1
75,3 1 75,4 1
75,4 1
76,3 1
76,5 1
77,4 1
Ejercicio 16: contestar las siguientes preguntas:
 ¿Cuál es el porcentaje de mediciones inferiores a 69,0?

 ¿Cuál es el porcentaje de mediciones superiores a 71,0?
 ¿Cuál es el porcentaje de mediciones entre 58,0 y 65?
12.2 Diagrama de Tallos y hojas. Representación gráfica de los datos de una variable cuantitativa
Una primera aproximación a la forma de la distribución de una variable cuantitativa la puede dar
El diagrama de tallo y hojas simple que es otra forma de organizar los datos para observar hacia qué valores
se agrupan los datos de la distribución. Los tallos están formados por al menos 5 dígitos iniciales de los
números y pueden representar: millones, cientos de miles, miles, cientos, etc. Dependiendo de la magnitud de
los datos se escogen los tallos; las hojas las representan los demás dígitos de cada dato observado. En
algunas ocasiones pueden tomarse como tallos los dos primeros dígitos; si el número de tallos es menor que 5
se duplica cada uno para obtener el número apropiado de tallos. En cada uno de estos tallos duplicados se
agrupan las hojas entre cero y 4 inclusive y en el otro las hojas entre 5 y 9.
En el ejemplo de las mediciones de perímetro craneal se tomarán como tallos los dos primeros dígitos, es
decir, las decenas; se consideran los tallos 33, 34, 35 y 36; son 4 tallos entonces se deben duplicar de la
siguiente forma:
2 33. 14
5 33. 67789
9 34. 012222233
9 34. 556667789
de 2023
55
5 35. 11223
2 35. 68
2 36. 01
1 36 5
Se observa que la distribución se recoge alrededor entre 33.9 y 35.1 donde se ubican la mayoría de las
observaciones, 28 de las 35.
x = 34.59 = 34.6.
Sn-1 = 0.789
El coeficiente de Variación C.V. = 2.2%.
Ejercicio 17. Obtener el diagrama de tallos y hojas adosado para las mediciones de presión sonora en el día
al lado izquierdo y en la noche, al lado derecho.
TALLER DE EJERCICIOS SOBRE DIAGRAMAS DE TALLOS Y HOJAS EN VARIABLES

CUANTITATIVAS
Los siguientes ejercicios son extraídos textualmente del libro Estadística para Biología y ciencias de la salud.
J. Susan Milton. Editorial Mc Graw – Hill. 3°edición.
1. Se considera como derrumbamiento aquél en el que los escombros han recorrido una distancia sobre el
suelo plano, o ligeramente inclinado, varias veces mayor que su altura caída. Se realizó un estudio del
alcance (distancia recorrida por los escombros) de estos derrumbamientos y se obtuvieron los siguientes
datos. (Basado en los datos publicados por Charles Campbell, journal of geology, noviembre de 1989,
pags, 653 – 665)
Alcance, Km
1.4 9.8 3.2 7.1 7.9 8.6
6.1 10.3 4.0 8.6 6.7 6.6
6.2 6.8 7.2 11.5 3.4 5.8
2.7 5.6 8.3 9.3 5.8 6.8
a) Construir un diagrama de tallo y hojas para estos datos. Utilícese la parte entera de cada número como
tallo y el primer dígito tras el decimal como hoja.
b) ¿Piensa que en el futuro sería raro encontrar un derrumbamiento con un alcance de 10 ó más
kilómetros? ¡Argumente!
c) Mediante una simple inspección, dé una aproximación del alcance medio de estos derrumbamientos.
2. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a los niños. El nivel de protección
estándar obtenido por las antiguas vacunas era de 1 g/mL, un mes después de la inmunización.
Transcurrido un mes, se han obtenido estos datos del nivel de protección de la nueva vacuna:
12.5 13.8 13.0 13.5 13.2
12.2 13.4 14.0 13.6 13.3

de 2023
56
13.3 14.1 14.6 13.1 12.1
13.7 13.4 12.8 12.6 12.7
a) Construir un diagrama de tallo y hojas doble para estos datos.
b) ¿Se sorprendería si le dijeran que X, nivel de protección transcurrido un mes de la nueva vacuna, tiene
una distribución en forma de campana?
c) Mediante la inspección del diagrama de tallos y hojas, haga un cálculo aproximado del nivel de
protección medio utilizando la nueva vacuna. ¿Se sorprendería si le dijeran que la nueva vacuna tiende a
proporcionar un mayor nivel de protección que la estándar?
3. En un estudio realizado a pacientes clínicos cardíacos varones, el objeto del mismo fue detectar las
variables que contribuyen al estrés de estos pacientes. El estrés se midió mediante la puntuación de
ansiedad de Hamilton. Estas marcas se encuentran en una escala de comparar los dos grupos de pacientes.
Se obtuvieron los siguientes datos:
Viven solos Viven con otras personas
8.6 9.0 9.3 9.6 13.2 15.4 17.5 18.5
9.3 13.5 9.5 8.3 14.7 16.9 14.0 13.3
10.1 11.0 10.3 8.1 14.2 16.0 13.6 14.6
9.4 8.7 10.7 9.4 15.6 17.3 18.1 15.2
14.2 8.2 12.9 11.6 18.0 16.1 17.4 17.2
a) Construir diagramas de tallo y hojas para cada grupo.
b) ¿Alguna de estas distribuciones tiene forma de campana?
c) ¿Alguna de estas distribuciones parece sesgada?
d) Construir un diagrama de tallo y hojas adosado para estos datos.
e) ¿Qué grupo tiende a tener una menor puntuación media de estrés?
f) Basándonos en estos datos. ¿Podemos concluir que la puntuación media de estrés para todos los
pacientes cardíacos varones que viven solos está por debajo de la puntuación de todos los pacientes
cardíacos varones que viven con otras personas? Explique.
4. En un experimento se utilizaron saltamontes para estudiar la dirección de vuelo. El interés se centraba en la

reacción del saltamontes a un estímulo acústico y visual. En cada caso, la variable de interés era la latencia, el
tiempo que pasa entre la recepción del estímulo y el movimiento de la cabeza realizada por el saltamontes,
que da como resultado la alteración de la marcha. Se obtuvieron estos datos:
Acústico Visual
86 106 117 72 95 73
de 2023
57
102 109 120 99 71 90
103 113 101 102 97 71
99 114 126 75 80 70
108 107 109 100 104 81
100 107 106 103 101 103
115 77 78 89
a) Construir un diagrama de tallo y hojas doble para cada conjunto de datos. Utilizar los dos primeros
dígitos de cada número como tallo. El tallo para un número como 86 es 08.
b) ¿Se sorprendería si le dijeran que la latencia está simétricamente distribuida en ambos casos?
c) ¿Se sorprendería si le dijeran que la latencia sigue una distribución en forma de campana en ambos
casos?
d) ¿Bajo qué estímulo es más dispersa la latencia?
4. Se realiza un estudio para ayudar a comprender el efecto que tiene el hábito de fumar en los patrones de
sueño. La variable aleatoria considerada X, tiempo en minutos que se tarda en quedar dormido. Las
muestras de fumadores y no fumadores producen estas observaciones sobre X.
No fumadores Fumadores
17.2 19.7 18.1 15.1 18.3 17.6 15.1 20.5 17.7 21.3 16.0 24.8
16.2 19.9 19.8 23.6 24.9 20.1 16.8 21.2 18.1 22.1 15.9 25.2
19.8 22.6 20.0 24.1 25.0 21.4 22.8 22.4 19.4 25.2 18.3 25.0
21.2 18.9 22.1 20.6 23.3 20.2 25.8 24.1 15.0 24.1 21.6 16.3
21.1 16.9 23.0 20.1 17.5 21.3 24.3 25.7 15.2 18.0 23.8 17.9
21.8 22.1 21.1 20.5 20.4 20.7 23.2 25.1 16.1 17.2 24.9 19.9
19.5 18.8 19.2 22.4 19.3 17.4 15.7 15.3 19.9 23.1 23.0 25.0
a) Construir un diagrama de tallo y hojas adosado a estos con juntos de datos. Utilizar los enteros 15 al
25 inclusive como tallos.
b) ¿Se sorprendería si alguien le dijera que no existe diferencia en cuanto a la distribución de X en los dos
grupos? Explique.
5. Los incendios de vegetación en pradera, matorral y bosque son un fenómeno común. Algunos son
accidentales, pero otros son provocados con el fin de crear hábitats post – fuego que beneficien a plantas
y animales. No obstante, el suelo que ha sido expuesto a un alto calentamiento puede esterilizarse. Se
realizó un estudio para determinar el efecto de esta esterilización en el crecimiento de plantas, en
concreto rábanos. La variable medida fue el peso seco de la planta al cabo de 4 semanas.
Suelo estéril Suelo no estéril

de 2023
58
(Peso seco en gramos) (Peso seco en gramos)
9 28 26 16 19 13
10 18 17 15 14 2
10 28 10 7 11 6
30 30 11 9 6 3
25 35 34 18 14 11
9 15 20
a) Construir un diagrama de tallo y hojas doble para cada uno de los conjuntos de datos. ¿Parece tener
cada diagrama forma aproximada de campana?, ¿Cuál parece más disperso?, ¿Cuál parece tener la menor
tendencia central?
b) Construir un diagrama de tallo y hojas adosado doble para estos datos. Comentar qué reflejan estos
datos acerca de la capacidad de crecimiento de los rábanos en suelo estéril.
12.3 Estadísticos de resumen de una variable cuantitativa
12.3.1 medidas de tendencia central
Son medidas que se ubican en el centro de la distribución de los datos, si éstos se observan en un diagrama de
tallos y hojas.
La media de una distribución es un valor central que es el promedio de todos los datos; es decir, se suman
n
x f i i
todos los datos y esa suma se divide por el número de datos. x i 1
.
n
La mediana es un valor central que divide la distribución de los datos en dos partes iguales del 50% cada uno;
equivale al percentil 50, P50; para obtenerla, los datos deben estar ordenados de menor a mayor. La mediana
se denota por Me. Si el número de datos es par, el valor central es el promedio de los dos valores centrales;
si el número de datos es impar, es el valor que está en la posición central.
Me= 34.5
La moda es el valor o valores con más alta frecuencia de aparición; no es única; se denota por Mo.
Mo= 34.2
12.3.2 medidas de variabilidad
Son medidas que nos muestran cuánto varían los datos entre sí. Si la diferencia entre el dato mayor y el
menor es grande, todas las medidas de variabilidad serán grandes.
El Rango es una medida de variabilidad que se calcula en unos datos para formarse una idea de la
variabilidad de esa variable; de acuerdo al criterio del investigador y al conocimiento sobre esa variable,
determinará qué es un rango alto o bajo.
La desviación estándar es la raíz cuadrada de la varianza; en una muestra se denota por la letra ese, s y en la
población por la letra sigma  . Se acostumbra a trabajar con la desviación estándar corregida,
de 2023
59
Sn-1 = √ (∑f ( xi – x)2 / ( n – 1); Sn-1 = 0.789

Que en la calculadora está en la tecla σn-1 y con ella se indica el número de unidades, en promedio que se
desvían los datos de su media.
El coeficiente de variación, CV mide el grado de homogeneidad de los valores de una distribución; se calcula
mediante la fórmula,
s N 1
C.V. = 
100
X
Si C.V. < 10% se dice que los datos son homogéneos y la media es una buena representante de los datos de
la distribución. Si C.V. > 10% se dice que los datos son heterogéneos.
Observación: El coeficiente de variación permite comparar variables numéricas de diferente tipo o que estén
en escalas de medida diferente o con unidades de medida, diferentes; por ejemplo, considere una muestra con
las estaturas de los estudiantes y otra con el tiempo de llegada a clase; se determina cuál de las muestras es
más homogénea seleccionando el que tenga el coeficiente de variación más pequeño.
Observaciones:
1. La mediana y la moda son menos sensibles a los cambios por que destacan valores individuales que
dependen de su posición o frecuencia de aparición, en tanto que la media promedia las magnitudes
de esos valores.
2. Si la media es mayor que la mediana, la distribución a asimétrica positiva o con cola hacia el lado
derecho.
3. Si la media es menor que la mediana, la distribución es asimétrica negativa o con cola hacia el lado
izquierdo.
4. la media es igual a la mediana, la distribución es simétrica; un buen ejemplo, es la distribución

Normal que tiene forma de campana.
5. Con los estadísticos descriptivos para variables cuantitativas o numéricas se busca la simetría de
estas distribuciones para llegar a compararlas con la distribución Normal. Si la simetría es difícil de
alcanzar la media y la desviación estándar no tiene sentido.
6. Las medidas de tendencia central son la media, la moda y la mediana.
7. Las medidas de variabilidad son el rango, la desviación estándar y el coeficiente de variación.
x =34.6 Me=34.5 s=0.789

La distribución es simétrica porque la media y la mediana son iguales.
El C.V. = 2.2% que es menor que el 20% significa que los datos son homogéneos.
12.3.3 medidas de posición relativa
Estas medidas se encuentran a lo largo de la distribución de los datos, entre los valores menores y mayores y
la recorren al 100%.
de 2023
60
Los percentiles dividen la distribución de los datos en 100 partes iguales del 1% cada una; el percentil i que
se escribe Pi denota el valor debajo del cual están el i% de los datos.
Para los datos sin agrupar en intervalos, se utiliza la fórmula:
q = i x n/100 en donde
n: # de datos ordenados de menor a mayor.
i: porcentaje percentil que se quiere buscar
q: Es la posición del percentil i
Si q es un entero, el percentil que se busca está en el promedio de los valores de las posiciones q y q+1
Si q no es un entero, se redondea al inmediato superior y en esa posición está el percentil que se busca.
En el ejemplo de las medidas del perímetro craneal el P10 estará en la posición q= (10 x 35) /100 = 3.5; se
redondea a 4 y queda que q = 4. Con los datos ordenados de menor a mayor P10=33.7.
El P25 estará en q= (25x35) /100 = 8.75 = 9
P25 = Cuartil1 = Q1 = 34.1

P50 = Cuartil2 = Q2 = Me = 34.5
P75 = Cuartil3 = Q3 = 35.1
P90 = 35.8
Nota: H en una tabla de frecuencias o en una distribución de frecuencias, representa a los percentiles.
Coeficiente de sesgo se usa para medir la simetría de las colas de la distribución mediante la fórmula:
H = [(P10 + P90 – 2 P50) / (2 P50)]
Si H >0 es asimétrica positiva

Si H =0 es simétrica
S H< 0 es asimétrica negativa. En el ejemplo, H = 0.007. Es un poco asimétrica positiva.
El rango intercuartil, iqr = Q3 – Q1 = P75 – P25. El coeficiente percentil de Curtosis mide el apuntamiento
(puntiaguda) de una distribución, se utiliza el índice,
K = [½(Q3 – Q1)/ (P90 – P10)]

Si K > 0.264 se dice que es leptocúrtica o puntiaguda
Si K = 0.264 es mesocúrtica o Normal
Si K < 0.264 es platicúrtica o achatada
K=? Luego es mesocúrtica
Conclusión: Las mediciones del perímetro craneal en los bebés se ajustan a una distribución normal.
Observación: En general las mediciones en los seres vivos se ajustan a una distribución normal.
Manejo de la calculadora
Ingreso de los datos en la calculadora de las mediciones de presión sonora
Se ingresan los datos en la calculadora en el modo SD oprimiendo DATA o DT el número de veces que
indique cada f en la siguiente forma:
1. Se coloca la calculadora en el modo SD

2. Se borra la información que contenga en ese modo oprimiendo las teclas Shift AC y luego IGUAL si
tiene esta última tecla.
3. Ingrese los datos 33.1 DT, 33.4 DT, 33.7 DT DT, 33.8 DT, etc.
de 2023
61
4. Verifique que n = 35 y también puede hallar los siguientes valores:

x =.
s = ( x n 1 x en la calculadora) =
s
El coeficiente de Variación C.V. = x100 =
x
Ejercicio 18: Considere los siguientes tres conjuntos de datos y llene el cuadro al final; analice los resultados
1. 24 24 37 37 38 40
2. 0 24 24 37 37 38 40
3. 24 24 37 37 38 40 70
Ejercicio x Me Mo P10 P25 P50 P75 P90

1
2
3
ESTADÍSTICOS DE LAS MEDICIONES DEL PERÍMETRO CRANEAL OBTENIDAS EN EL

SPSS.
Se importa al SPSS 15.0 un archivo de EXCEL 97 ó 2003 con la variable perímetro craneal y luego se graba
con extensión “.sav” del SPSS y en el editor de datos se pasa al campo de variables y se verifica que el “nivel
de medida” de la variable sea escala y el “tipo” de numérico.
Para obtener los estadísticos se sigue la secuencia:

Analizar- estadísticos descriptivos-explorar-dependientes –aceptar y arroja los siguientes resultados:
Resumen del procesamiento de los casos en el SPSS
Casos
Válidos Perdidos Total
N % N % N %
Perímetro 35 100,0% 0 ,0% 35 100,0%
Tabla 11. Estadísticos descriptivos que arroja el SPSS cuando se le da explorar una variable cuantitativa
Error
Estadístico típico
Perímetro Media 34,591 ,1334
Intervalo de confianza Límite inferior 34,320
para la media al 95% Límite superior
34,862
Media recortada al 5% 34,571
Mediana 34,500
Varianza ,623
Desv. típ. ,7890
de 2023
62
Mínimo 33,1
Máximo 36,5
Rango 3,4
Amplitud intercuartil 1,0
Asimetría ,519 ,398
Curtosis ,007 ,778
Significado de los estadísticos que muestra el SPSS en la tabla 11:
La media es un valor central al cual se recogen, en promedio, los datos de una variable cuantitativa; en el
diagrama de tallos y hojas, se observa que el centro de la distribución está entre los dos tallos definido por el
valor 34, allí se recogen la mayoría de los datos y se supone que, si la distribución es simétrica, en ese
espacio están la media, la moda y la mediana.
Intervalo de confianza para la media al 95%: es una manera de hacer inferencia o generalización para la
media de la población. Tiene dos valores, el límite inferior y el límite superior. Se interpreta diciendo que se
tiene una confianza de que en el 95% de las veces en las que se tome una muestra de ese tamaño, la media de
la población de las mediciones de perímetro craneal en los bebés, está entre 34,320 y 34,862.
Media recortada al 5 %: se recortan el 5% de las observaciones y se calcula la media para observar si su
valor es parecido al calculado con todos los datos.
Mediana: es el valor central que se ubica en la mitad de la distribución; está en la posición (n+1)/2.
Varianza: Es una medida de variabilidad de los datos de de una variable con respecto a la media de esos
datos; la medida es la suma promedio de las desviaciones al cuadrado. Se denota por S 2 ó por 2. La
n
 (x i  x)2
fórmula para calcularla es S2  i 1
. También se puede calcular la varianza corregida mediante
n
n
 (x i  x)2
la fórmula: S2  i 1
.Es un estadístico difícil de interpretar porque tiene las unidades elevadas al
n 1
cuadrado.
Desviación típica o estándar (Desv.est): Es la desviación estándar promedio de de los datos de una variable
con respecto a su media; Se denota por S ó por  y es la raíz cuadrada positiva de la varianza. Es muy útil
porque se expresa en las mismas unidades de los datos originales; por ejemplo, si la variable es la edad en
años, la desviación estándar es el número de años que en promedio se desvían los datos por encima o por
debajo de su media.
Error estándar de la media (Error est.): se expresa como la desviación cuasi promedia de los datos de una
S
variable; es una medida más exacta del error de la media; se calcula con la fórmula EE ( x )  . Sirve
n
para construir los intervalos de confianza para la media que es una forma de hacer inferencia o generalización
de la media de una muestra aleatoria hacia la media de la población.
Mínimo: es el valor mínimo de los datos de una distribución.
Cuartil inferior (Percentil 25, (P25)): Es una medida de posición o un valor debajo del cual están el 25% de
los datos; también corresponde al cuartel 1.
de 2023
63
Mediana (percentil50 ó cuartil 2): es un valor central que divide la distribución de los datos en dos partes
iguales. En algunas ocasiones es preferible analizar la mediana y no la medida porque no cambia con la
magnitud que asuman los datos.
Cuartil superior (Percentil 75, (P75)): Es el valor debajo del cual están el 75% de los datos de la distribución
de la variable.
Máximo: Valor máximo de la distribución de los datos de la variable.
Moda: Valor que más aparece en la distribución de los datos de la variable; pueden existir varias modas.
Rango intercuartílico: es el iqr = Q3 – Q1 = P75 – P25.

Asimetría o sesgo: es la comparación entre los valores de la media y la mediana; si el sesgo o asimetría tiene
un valor positivo, la media es mayor que la mediana y se llama distribución asimétrica positiva; si el valor del
sesgo o asimetría es negativo, la media es menor que la mediana y la distribución se llama asimétrica
negativa.
3(media  mediana)
Sesgo  .
desviación.estándar
Curtosis: Mide cuán puntiaguda es la gráfica de la distribución. En general se toma como referencia la
curtosis de la normal cuyo valor es 0.264.
1
( P75  P25 )
K 2 .
P90  P10
Perímetro Stem-and-Leaf Plot (Diagrama de tallos y hojas del perímetro craneal en el SPSS)
Frecuencia Tallo (Stem) & Hoja (Leaf)
2 33. 14
5 33. 67789
9 34. 012222233
9 34. 556667789
5 35. 11223
2 35. 68
2 36. 01
1 36. 5
Stem width: 1,0

Each leaf: 1 case(s)
de 2023
64
Diagrama de caja reportado por el SPSS para las mediciones del perímetro craneal
37.0
36.0
35.0
34.0
33.0
Perímetro
Coeficiente de Variación: Es la comparación de la desviación típica o estándar con respecto a su media; mide
la homogeneidad de los datos; cuando los datos son homogéneos, la media es una buena representante de
ellos; algunos profesionales de la estadística consideran que la homogeneidad se da cuando el coeficiente de
variación es menor o igual al 10%; sin embargo, la experiencia enseña que es valor depende de la magnitud
de los datos en consideración y en algunos casos la homogeneidad se da para valores menores o iguales al
20%.
Desviación.típica
C.V .  *100
Media
Desviación Típica1.3723
E.E. de la Media (*) 0.0360
-------------------------------------
(*) Usar con propósito de estimación para el I.C. de la media
12.4 ELABORACIÓN DE UN DIAGRAMA DE CAJA
1. Se elabora una escala de referencia vertical u horizontal.

2. Se calculan la mediana muestral q1, q2 y el rango intercuartil (iqr).
3. Se determinan los límites internos f1 y f2 dados por:
f1 = q1 - 1.5 (iqr).
f2 = q3 + 1.5 (iqr).
4. Se calculan los puntos a1 y a3 llamados valores adyacentes. El punto a1 es el de datos más cercanos a
f1. El punto a3 es el de datos más cercanos a f3 que no tiene valor mayor que f3.
5. Se determinan los puntos F1 y F3, llamados límites externos dados por:
F1 = q1 – 2(1.5) (iqr).
F3 = q3 + 2(1.5) (iqr).
Estos puntos se usan para identificar los valores atípicos. No son parte de la gráfica.
6. Se localizan los puntos determinados hasta este momento en la escala vertical u horizontal.
7. Se construye una caja cuyos lados son q1 y q3, con una línea interior trazada en la mediana.
de 2023
65
8. Se indican los valores adyacentes con x y se conectan con la caja mediante líneas punteadas. Se
localizan los puntos de datos situados entre los límites internos y externos, puntos que se denotan
con círculos y que se consideran valores atípicos leves. Los puntos de datos situados por fuera de los
límites de los límites externos se marcan con asteriscos y se los conceptúa valores atípicos extremos.
Resultados estadísticos obtenidos sobre la variable número de hombres en santa rosa de osos en el 2004
Diagrama de Caja
Estadísticos para la variable Hombres

-------------------------------------
Estadístico Hombres
-------------------------------------
N 1452
Media 2.1515
Mediana 2.0000
Moda 2.0000
Mínimo 0.0000
Máximo 14.0000
Rango 14.0000
Cuartil Inferior 1.
Cuartil Superior 3.
Rango Intercuartílico 2.
Asimetría 1.2125
Curtosis 4.5511
Coeficiente de Variación 63.7845
Varianza 1.8833
Ejercicio 19. Con las medidas de presión sonora, calcular la media, la desviación estándar y el coeficiente de
variación en el dìa con LPD y en la noche con LPN
Tabla 15. Estadísticos de resumen de las mediciones de LPD (dB) en el día en Cali, 2007.
Estadístico Valor para LPD Valor para LPN

(dB) (dB)
Media 66,36
Coeficiente de variación %
Mediana 66,5
Máximo 77
Mínimo 50
de 2023
66
EJERCICIOS SOBRE MEDIDAS DE RESUMEN
6. En un estudio sobre parásitos, se consideró la distribución de la garrapata Ixodes trianguliceps en el

cuerpo de los ratones. Se obtuvieron las siguientes observaciones del número de garrapatas encontradas
sobre 43 ratones.
0 2 0 0 2 2 0 0 1
1 3 0 0 1 0 0 1 0
1 4 0 1 4 2 0 0
1 0 0 2 2 1 1 0 6
0 5 1 3 1 0 1
a) Diseñar un gráfico de barras de frecuencias para estos datos y estimar la media muestral mediante su
observación.
b) Calcular la media muestral y comparar este valor con su estimación del apartado a).
a) Determinar la mediana muestral.
7. Con referencia al ejercicio 8:
a) Determinar la media y la mediana para cada uno de los conjuntos.

b) Dar un ejemplo de una lectura de ICS adicional que cambiase notoriamente el rango de los datos
correspondientes a los lugares no incendiados. ¿Cambiará el valor de la mediana en gran medida?
c) Dar un ejemplo de una lectura de ICS adicional que tuviese un pequeño efecto en la media muestral,
desviación típica y varianza para los datos correspondientes a los lugares incendiados.
8. Para los datos del ejercicio 1:
a) Determinar la media, la mediana, s2, s, el rango, el rango intercuartil, iqr.

b) Suponer que se obtiene una observación adicional de 1.0. ¿Se verá afectado alguno de los estadísticos
calculados en el apartado a) por la adición de este punto? Explique.
c) Añadir ahora la observación 16.5 al conjunto de datos original. ¿Tendrá este punto un gran impacto en
el valor de alguno de los estadísticos del apartado a)? Si así fuera, ¿Cuáles se verán afectados?
Compruebe su respuesta calculando los estadísticos de resumen: la media, la mediana, s 2, s, el rango y el
iqr para este conjunto ampliado de datos.
El error estándar muestral de la media (SE) que se define por SE(x)= s / n permite que se calcule un intervalo
para la media de la forma x ± SE(x).
Los siguientes ejercicios son tomados del libro Manual práctico de Estadística aplicada a las ciencias sociales.
Rubén Mullor, María Dolores Fajardo.
11’. Hallar la media, la mediana y la moda de los siguientes datos:

de 2023
67
a) 18, 8, 6, 0, 8, 3, 2, 5, 8, 0
b)1, 5, 5, 7, 9, 1, 5, 7.
c) 119, 5, 4, 4, 4, 3, 1, 0.
9. Calcular, s, desviación estándar, en los siguientes conjuntos de datos e interpretar los resultados:
a) 10, 8, 6, 0, 8, 3, 2, 5, 8, 0.
b) 1, 3, 3, 5, 5, 5, 7, 7, 0.
c) 20, 1, 2, 5, 4, 4, 4, 0.
d) 5, 5, 5, 5, 5, 5, 5, 5, 5.
12.5 DISTRIBUCIONES DE FRECUENCIA
Una distribución de frecuencia es la agrupación de los datos de una variable en intervalos de clase los cuales
tienen un límite superior y uno inferior de tal forma que, entre los dos, hay un conjunto de datos o valores de
la variable que son los que definen el valor de la frecuencia absoluta f i. Cada intervalo tiene una frontera
inferior y una superior las cuales se obtienen restando y sumando, 0.5 ó 0.005 según los límites tengan o no
un dígito decimal. Cada intervalo de clase tiene una marca de clase que es su punto medio y se representa por
xi que es el valor con el cual se obtendrán la media y la desviación estándar. Los percentiles, cuartiles, la
media, la mediana y la moda se obtendrán con fórmulas diferentes a la de los datos sin agrupar en intervalos.
Cuando en una muestra de una población asociada con una variable, se tienen más de 16 datos, se agrupan en
intervalos de clase para conocer mejor su estructura y se calcula la frecuencia de aparición de esos datos en
esos intervalos de clase.
Un intervalo de clase tiene la forma (a, b) ó a – b donde a y b son números.

El límite inferior del intervalo es a y el límite superior es b. Por ejemplo, (4 , 9) es un intervalo de clase cuyo
límite inferior es 4 y el límite superior es 9; su marca de clase que es el punto medio es (4+9)/2 = 6.5; el
intervalo siguiente es (10 , 15) y su punto medio es 12.5; se observa que entre el límite inferior de este
intervalo que es 10 y el límite superior del anterior que es 9 hay un hueco de una unidad; si se quiere unir esos
dos intervalos para que sean continuos, se habla de los límites verdaderos o fronteras de clase que están en los
puntos medios de esos dos límites; la frontera es 9.5; en el intervalo (4 , 9) la frontera superior es 9.5 y en el
intervalo ( 10 , 15) la frontera inferior es 9.5.
Si los límites de un intervalo, son números enteros, la frontera superior se obtiene sumándole 0.5 al límite
superior y la frontera inferior se obtiene restándole 0.5 al límite inferior; en (4, 9). La frontera superior es 9.5
y la inferior es 3.5.
Si los límites tienen un decimal, entonces la frontera se obtiene sumando y restando 0.05; si tiene dos
decimales las fronteras se obtienen sumando y restando 0.005. Así sucesivamente.
Pasos para construir una distribución de frecuencias
1. Se calcula el Rango= Dato mayor – Dato menor.

2. Se selecciona el número k de intervalos a construir mediante la fórmula de Sturges, k= 1 + 3.32 Log(n).
Se calcula la amplitud o tamaño del intervalo a = Rango/k.

Si a no es un número entero, se redondea al entero superior inmediato (si los datos tienen un decimal se
redondea al primer decimal consecutivo, si tienen dos decimales se redondea al segundo decimal consecutivo
y así sucesivamente) y se calcula el nuevo Rango; el excedente entre el nuevo rango y el anterior se le suma al
dato mayor o se le resta al dato menor.
Nuevo Rango = k x a
3. Se forman los intervalos de clase, sumando a – 1 (a menos 1) al dato menor que haya quedado (Si los
datos tienen un número decimal se suma a – 0.1; si tienen dos decimales, se suma a – 0.01 y así
de 2023
68
sucesivamente); el límite inferior del siguiente intervalo, es el valor consecutivo al límite superior de la
clase anterior y así se continúa hasta completar todos los intervalos que cubran los datos observados.
4. Determine la marca de clase de cada intervalo.
5. Determine las frecuencias de clase contando el número de observaciones que cae dentro de cada intervalo
de clase.
Intervalo Marca de Clase X f F h H
Se pueden construir las siguientes gráficas:
F H f
X X X
Se llama histograma Ojiva (sirve para ver Salen histograma y polígono
Los Percentiles)
Para el cálculo de los Percentiles de los datos agrupados en intervalos de clase y que se llaman
distribuciones de frecuencias, se utiliza la siguiente fórmula:
ixn
( – Fi-1) a
100
Pi = L1 +
Fi-Fi-1
i: percentil que se busca.
n: número de datos.
L1: Límite inferior del intervalo donde estará el percentil i.
a : tamaño o amplitud del intervalo donde estará el percentil i.
Fi-1: frecuencia acumulada anterior al intervalo donde estará percentil i.
Fi: frecuencia acumulada hasta el intervalo del percentil i.
ixn
es la posición del percentil i.
100
Cálculo de la Moda para distribuciones de frecuencia:
 1 
M o  L1   a
 1   2 
L1: frontera inferior del intervalo donde está la moda.
1 : Exceso de la frecuencia modal sobre la clase inferior inmediata.
 2 : Exceso de la frecuencia modal sobre la clase superior inmediata.
a: tamaño del intervalo
de 2023
69
Ejercicio 20: Considere los datos en la tabla 15.
a) Complete los datos de la tabla 15.
Tabla 15. Distribución de frecuencia de las edades de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Intervalo Marca de fi Fi hi(%) Hi(%)

clase, xi
11-12,6 154
12,6-14,2 278
14,2-15,8 130
15,8-17 180
17-18,6 27
18,6-19,8 10
Total 779
b) Grafique el histograma, el polígono y la Ojiva de frecuencia.

c) Calcule, la media, moda, mediana, el coeficiente de variación, los percentiles, 25 y 75.
Estadísticos de resumen de la edad de los adolescentes escolarizados de la zona nororiental de Medellín,

2006.
Estadístico Valor
Media
Mediana
Coeficiente de variación
Máximo
Mínimo
Ejercicios 21. Considere los datos de la tabla 16.

a) Complete los datos de la tabla 16.
b) Grafique el histograma, el polígono y la Ojiva de frecuencia
c) Calcule, la media, moda, mediana, el coeficiente de variación, los percentiles, 25 y 75.
Tabla 16. Distribución de frecuencia del puntaje de suicidio en los adolescentes escolarizados de la zona
nororiental de Medellín, 2006.
Intervalo Marca de fi Fi hi Hi
clase, xi
3-12 45
12-21 155
21-30 200
30-39 189
39-48 126
48-57 45
57-65 14
65-73 2
73-80 2
Total 779
de 2023
70
Ejercicio 22: Construir una distribución de frecuencia de siete intervalos de clase para las mediciones de
presión sonora en el día y en la noche. SUGERENCIA: utilice la tabla de frecuencia de la página 54.
TALLER DE EJERCICIOS SOBRE DISTRIBUCIONES DE FRECUENCIA
Los siguientes ejercicios son extraídos textualmente del libro Estadística para Biología y ciencias de la salud.
J. Susan Milton. Editorial Mc Graw – Hill. 3°edición.
10. En el estudio de pautas de crecimiento de los niños, una variable importante es la edad del niño cuando
comienza el crecimiento rápido de la adolescencia. Las siguientes observaciones se obtuvieron en un
estudio de 35 chicos y 40 chicas (edad en años).
Chicos
16.0 14.9 14.1 14.8 14.4 14.0 14.6
15.2 14.7 13.6 14.6 16.1 13.2 13.2
14.9 14.1 15.4 15.3 14.4 14.8 14.8
13.5 15.1 13.5 15.0 14.6 15.4 15.9
13.7 15.9 14.7 14.5 14.4 13.8 15.3
Chicas
de 2023
71
12.2 13.7 13.3 12.3 12.5 12.9 11.9 11.6
13.4 12.4 12.6 13.5 12.5 13.4 11.7 13.5
13.7 12.1 14.1 11.8 12.8 12.9 11.6 14.3
13.1 13.3 13.5 14.7 12.3 11.6 13.1 12.6
12.7 12.7 12.0 11.4 13.5 12.4 12.1 12.1
a) Dividir cada conjunto de datos en el número de clases y construir la distribución de frecuencias con
la frecuencia relativa, frecuencia relativa acumulada, frecuencia y frecuencia acumulada.
b) Construir un histograma de frecuencias relativas para cada conjunto de datos. Comentar las
semejanzas o diferencias llamativas entre los histogramas.
c) Construir un polígono de frecuencias relativas acumuladas para cada conjunto de personas. Utilizar
la ojiva para calcular aproximadamente la edad en la que el 50% de los chicos ha iniciado el
crecimiento rápido de la adolescencia; hacer lo mismo para las chicas. ¿Existe una diferencia notable
entre los dos valores?
d) A la edad de 12 años, ¿qué porcentaje aproximado de chicas ha experimentado el inicio del
crecimiento rápido de la adolescencia? A la edad de 14 años, ¿qué porcentaje aproximado de chicos
ha experimentado el comienzo del crecimiento rápido de la adolescencia?
11. Se lleva a cabo un estudio para comparar la diversidad de plantas hallada en una porción incendiada y
otra no incendiada de un bosque nacional. Para cada zona, la variable medida fue el Índice de
Comparación Secuencial (ICS). Un alto valor de ICS indica que se encontraron especies muy diferentes
en ese sitio; un valor bajo de ICS indica la presencia de sólo unas pocas especies. Los siguientes datos se
obtuvieron en muestras de 35 sitios incendiados y 35 no incendiados.
Incendiados
0.155 1.317 0.196 1.753 0.503
0.303 1.564 1.795 2.017 0.901
1.686 0.591 2.527 0.733 1.555
1.055 0.109 1.000 2.377 0.729
1.214 1.523 0.459 1.192 1.377
0.713 1.269 1.418 1.368 1.469
2.067 2.479 1.423 2.179 0.141
No incendiados
1.856 0.892 1.662 0.804 0.998
1.518 1.507 2.122 0.380 1.234
0.382 1.187 2.203 0.648 0.517

de 2023
72
0.498 0.029 0.383 0.489 0.010
1.044 0.935 0.374 0.423 1.483
1.624 0.559 0.939 0.171 0.805
1.282 0.544 1.505 0.635 0.777
b) Construir una distribución de frecuencia del ICS en cada porción incendiada y no incendiada.
c) Compare a partir de los resultados del punto anterior y concluya.
12. Al visitar 84 hogares de un barrio, un encuestador obtuvo los siguientes datos correspondientes al número
de miembros de cada hogar:
3 5 4 6 3 1 5 2 4 1 3 2
4 5 3 3 4 6 8 4 5 7 4 3
4 5 1 4 3 2 2 6 7 4 3 4
6 7 7 4 4 5 3 3 4 5 6 3
7 2 1 9 3 10 2 3 2 3 4 4
6 7 7 1 3 2 4 3 4 6 1 3
3 4 3 3 6 2 2 3 9 2 4 5
Construir una distribución de frecuencias y verificar si se ajusta a una distribución normal tomando en
cuenta sus estadísticas de resumen.
13. Los siguientes datos representan los ingresos mensuales en miles de pesos de un colectivo de
trabajadores:
68 54 78 150 75 84 175 70 71 53 91 66
76 45 61 87 103 95 108 100 85 89 87 72
65 96 88 200 100 120 105 66 97 136 119 93
82 100 140 78 99 138 87 100 88 143 106 106
112 120 92 205 95 68 90 93 118 75 87 140
90 86 110 66 80 135 75 115 90 78 93 185
Construir una distribución de frecuencia y verificar, desde los estadísticos descriptivos, si se ajusta a una
distribución normal.
de 2023
73
Ejercicio 22: Considere los datos de la siguiente tabla y realice las siguientes actividades:
a) Construir una distribución de frecuencia de seis intervalos para la basura por vivienda y llene la tabla:
b) Construya el histograma, el polígono y la ojiva de frecuencia
c) Obtenga las medidas de tendencia central, de variabilidad y de posición para la basura por vivienda
Vivienda N° de Basura Basura Vivienda N° de Basura Basura

N° habitantes por por N° habitantes por por
vivienda habitante vivienda habitante
(Kg/día) (kg/día) (Kg/día) (kg/día)
1 3 1,70 0,57 20 6 3,93 0,65
2 5 4,51 0,90 21 8 4,06 0,51
3 5 5,14 1,03 22 5 4,29 0,86
4 4 0,95 0,24 23 10 4,71 0,47
5 6 1,73 0,29 24 6 2,59 0,43
6 5 1,08 0,22 25 3 3,87 1,29
7 10 8,55 0,86 26 5 6,75 1,35
8 8 3,73 0,47 27 8 5,83 0,73
9 8 8,87 1,11 28 11 10,65 0,97
10 2 2,72 1,36 29 6 3,72 0,62
11 7 1,01 0,14 30 4 2,18 0,54
12 5 1,80 0,36 31 4 1,97 0,49
13 2 2,26 1,13 32 2 2,09 1,04
14 5 6,39 1,28 33 10 5,00 0,50
15 7 5,43 0,78 34 5 6,44 1,29
16 7 3,71 0,53 35 2 1,14 0,57
17 7 7,86 1,12 36 9 3,39 0,38
18 6 6,67 1,11 37 6 4,12 0,69
19 6 4,44 0,74
F. RELACIÓN DE DOS VARIABLES

13.1 RELACIÓN DE DOS VARIABLES CUALITATIVAS
1. Tabla de contingencia
La tabla cruzada relaciona dos variables cualitativas, una que se ubica en las filas y otra que se ubica en las
columnas; el número de celdas de tabla está definido por el número de categorías de la variable de la fila por
el número de categoría de las columnas. En cada celda se pueden colocar los valores absolutos y los valores
relativos expresados en porcentaje que se pueden calcular por fila, o por columna o sobre el gran total.
Ejemplo 11
Pregunta: ¿Cómo es la distribución del nivel de riesgo de suicidio según el sexo en los adolescentes
escolarizados de la zona nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del nivel riesgo de suicidio según el sexo en la muestra de adolescentes
de la zona nororiental de Medellín en el 2006.
de 2023
74
Hipótesis: Es posible que haya un porcentaje más alto adolescentes mujeres con riesgo de suicidio y por esta
razón el riesgo de suicidio depende del sexo del estudiante en esta zona de la ciudad.
Variables: nivel de riesgo de suicidio y sexo.
Del total de hombres, el 24% está en alto riesgo de suicidio y del total de mujeres, el 22% está en alto riesgo
de suicidio (Tabla 6).
Tabla 6. Nivel de riesgo de suicidio según el sexo de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Hombre, Mujer,
n=374 n=405
Alto 23,80% 22,20%
Moderado 23,50% 21,50%
Bajo 52,70% 56,30%
Total 100,00% 100,00%
En la tabla 6, los porcentajes están calculados con base en el total de cada comuna.
Cómo obtener una tabla de contingencia en el SPSS
Se elabora un archivo codificado con las respuestas a la encuesta en Excel en la siguiente forma:
Primero, se coloca en la primera fila del mismo, la identificación del individuo y a continuación el nombre de
cada una de las variables. A continuación, se van colocando las respuestas de cada una de las encuestas en el
orden de las variables con los códigos previamente establecidos. Una vez digitada todas las respuestas se
guardan el archivo con formato de Excel 1997 ó 2003.
Se entra al SPSS 15 para Windows y se “abre el archivo”. Se selecciona en “tipo de archivo” el de Excel y en
la carpeta o ruta definida se selecciona el archivo y se le indica “abrir”. Pregunta que si en la primera fila
están los nombres de las variables y se da “aceptar”. El archivo queda abierto y ubicado en el editor de datos.
Se debe grabar en un archivo con extensión “. sav” para que quede en el formato de SPSS. Se verifica en cada
variable el nivel de medida correspondiente (nominal, ordinal o escala). Luego se entra al módulo “Analizar”
se escoge “estadísticos descriptivos” luego “tablas de contingencia” y allí se selecciona una variable para las
filas (la que tenga más categorías) y una variable cualitativa para las columnas (la de menos categorías). En
el módulo interior “casillas” se define los porcentajes por columnas; en “estadísticos” se escoge, chi cuadrado.
Luego se le da aceptar y en el “visor de resultados “aparece la tabla; se la da un clic y luego con el botón
derecho del mouse se le da copiar y se pega en una hoja de EXCEL para maquillar los títulos y los nombres y
valores de las celdas. Desde el Excel se puede copiar y luego pegar en WORD.
Ejemplo 12
Pregunta: ¿Cómo es la distribución del nivel de depresión según el sexo en los adolescentes escolarizados de
la zona nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del nivel de depresión según el sexo en la muestra de adolescentes de la
zona nororiental de Medellín en el 2006.
Hipótesis: Es posible que haya un porcentaje más alto de adolescentes mujeres con depresión y por esta razón
el riesgo de suicidio depende del sexo del estudiante en esta zona de la ciudad.
Variables: nivel de depresión y sexo.
de 2023
75
Tabla 7. Nivel de depresión según el sexo de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Hombre, Mujer,
n=374 n=405
Alto 9,10% 12,10%
Leve 13,60% 20,50%
Ninguna 77,30% 67,40%
Total 100,00% 100,00%
Para determinar la asociación entre dos variables cualitativas se parte de:
13.2 RELACIÓN DE DOS VARIABLES CUANTITATIVAS
REGRESIÓN LINEAL
Es un modelo (2) estadístico para estimar el efecto de una variable independiente (X) sobre otra variable
dependiente (Y) que es la que tiene interés para el investigador. El efecto está asociado con el coeficiente de
correlación lineal r de Pearson cuando ambas variables son cuantitativas y se ajustan a una normal. Si no hay
normalidad, el coeficiente de correlación apropiado es el de Spearman.
La correlación lineal brinda la posibilidad de predecir puntuaciones de una variable tomando las puntuaciones
de la otra variable. Entre mayor es la correlación entre las variables (covariación) mayor es la capacidad de
predicción.
En el modelo se utilizan dos tipos de hipótesis estadísticas, unas referidas a la correlación de las variables y
otras a la relación causal entre ellas. Para relacionar dos variables en este modelo se debe tener un buen
sustento teórico acerca de esa relación.
La regresión lineal se determina con base en el diagrama de dispersión el cual es una gráfica de las
puntuaciones conjuntas de las dos variables. En el eje horizontal se coloca la variable X e Y en el eje vertical.
En el diagrama de dispersión se visualiza la correlación de las variables.
El diagrama de dispersión como el de la figura 8 relaciona dos variables continuas y ubica los puntos formado
por las dos variables en un plano cartesiano para observar si la relación entre ambas variables define alguna
tendencia, generalmente lineal, porque de ser así da indicios de una correlación positiva o negativa
dependiendo de la forma de la tendencia lineal.
de 2023
76
Figura 8. Diagrama de dispersión entre la talla y el peso de una muestra de individuos.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar
en el proceso de análisis de datos. La mayoría de los textos estadísticos hacen hincapié en los distintos tipos
de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que
una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los
mismos datos.
de 2023
77
La correlación y la causalidad: los coeficientes de correlación son sólo medidas de covariación de las
variables; la variación misma de las variables puede deberse a causas que afectan a cada variable de una
misma manera o de maneras opuestas, o bien una de ellas es causa de la variación de la otra, o puede suceder
que la relación causal sea recíproca; todo esto, es ajeno a la comprobación de la existencia de la correlación y
del valor del coeficiente de correlación.
El análisis de regresión lineal (3), se adapta a una amplia variedad de situaciones. En la investigación social,
puede utilizarse para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes
aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para
determinar cuál de diferentes medios de comunicación puede resultar más eficaz para invertir. En áreas como
la física puede utilizarse para caracterizar la relación entre las variables o para calibrar algunas medidas.
Tanto en el caso de dos variables (3) (regresión lineal simple) como en el más de dos variables (regresión
múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una
variable llamada dependiente o criterio (Y) y una o más variables independientes o predictoras (X1, X2,… Xp),
así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de regresión lleva
asociada una serie de estrategias de diagnóstico (análisis de los residuos, puntos de influencia) que informan
sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo.
de 2023
78
En una situación ideal (e irreal) en la que todos los puntos de un diagrama de dispersión se encontraran en una
línea recta, no habría que preocuparse por encontrar la recta que mejor resume los puntos del diagrama;
simplemente uniendo los puntos entre sí se obtendría la recta con el mejor ajuste posible. Pero en una nube de
puntos más realista, es posible trazar muchas rectas diferentes. De lo que se trata es de encontrar la recta
capaz de convertirse en el mejor representante del conjunto total de puntos. Existen diferentes procedimientos
para ajustar una función simple, cada uno de los cuales intenta minimizar una medida diferente del grado de
ajuste. La elección tradicionalmente preferida ha sido la recta que hace mínima la suma de cuadrados de las
distancias verticales entre cada punto y la recta. De todas las rectas posibles, existe una y sólo una que
consigue que las distancias verticales entre cada punto y la recta sean mínimas (las distancias se elevan al
cuadrado porque, de lo contrario, al ser unas positivas y otras negativas, se anularían unas con otras al
sumarlas).
En un modelo de regresión lineal simple (4), los datos pueden representarse por pares de observaciones {(xi,
Yi  Y xi
yi); i=1, 2,…n}. El modelo es una variable aleatoria que se define por medio de un modelo
estadístico.
Y x
Si se postula que todas las medias i
, caen sobre una línea recta, cada Yi puede describirse por le modelo
de regresión lineal simple:
Yi  Y xi  Ei    xi  Ei
donde el error aleatorio Ei, el error del modelo, debe necesariamente
tener una media cero. Cada observación (xi, yi) en la muestra satisface la ecuación:
y i     xi   i
Donde
 i es el valor que asume E cuando Y toma el valor y i . La ecuación anterior puede considerarse
i i
yi
como el modelo para una sola observación . De manera similar, al utilizar la línea de regresión estimada o
ajustada, yˆ  a  bx cada par de observaciones satisface la relación: y i  a  bxi  ei

ei  y i  yˆ i
Donde, se llama residuo y describe el error en el ajuste del modelo en el punto i de los datos.
La diferencia entre
ei
y
 i se muestra en la figura siguiente:
En la muestra el modelo de regresión lineal simple es, y  a  bx  e relaciona a las variables x e y

donde, los valores de  y  son desconocidos y se estiman a partir a y b respectivamente.
y
La nube de puntos o diagrama de dispersión recoge la relación entre x e . La recta de regresión estimada
pasa por el punto ( x , y ) pero no necesariamente por todos los puntos de la nube de puntos.
de 2023
79
Ejercicios 23 sobre correlación y de regresión lineal. En un estudio acerca de la cantidad de precipitación

pluvial (X) y la cantidad de contaminación del aire eliminada (Y), se obtuvieron los siguientes datos:
Lluvia diaria, x (0.01 cm) Partículas elimina eliminadas, y
Miligramos por centímetro cúbico
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
a) Dibuje el diagrama de dispersión.

a) Determine la ecuación de la línea de regresión para pronosticar las partículas removidas, a partir
de la cantidad diaria de precipitación pluvial diaria.
b) Estime la cantidad de partículas removidas cuando la precipitación pluvial diaria es x= 4.8
unidades.
Ejercicios 24. La siguiente tabla muestra los valores del consumo de metilmercurio y la concentración total
de mercurio en la sangre de 12 individuos expuestos al metilmercurio por consumir peces contaminados.
X Y
Consumo de mercurio de metil Mercurio en toda la sangre
180 90
200 120
230 125
410 290
600 310
550 290
275 170
580 375
105 70
250 105
460 205
650 480
a) Dibuje el diagrama de dispersión.
b) Encuentre la ecuación de la línea de regresión que describa la relación lineal entre las dos variables.
c) Calcule r2.
de 2023
80
Regresión lineal en el aplicativo ISTAT
El aplicativo ISTAT es de uso libre y en él en el módulo de regresión lineal simple, se pueden ingresar los
datos dándole un valor a n de tantos datos como se tenga en la muestra. Se deja por defecto,   0,05 y se
procede a ingresar los datos entrando al ícono de la cuadrícula; se ingresa cada pareja de datos, X, Y hasta
obtener el total de parejas definidas por el valor n. Luego, se ingresa al ícono de la calculadora y él realiza los
cálculos. Para salir se oprime el ícono de las celdas en blanco y sale del modo de cálculo.
El aplicativo arroja valores para  0 y 1 y realiza los contrastes de hipótesis para saber si son pertinentes para
el modelo o no.
En el aplicativo se obtiene el modelo estimado, yˆ  ˆ 0  ˆ1 X . Esta recta con los valores que arroja el
aplicativo es la recta promedio a la nube de puntos y en ese sentido es la mejor recta. A este modelo se le
hacen pruebas estadísticas para determinar si X está relacionada linealmente con Y; para que esta relación
exista, 1 debe de ser estadísticamente diferente de cero.
a) Hipótesis de significancia para 1 pendiente de la recta

H 0 : 1  0 (No es importante para el modelo)
H 1 : 1  0 (Es importante para el modelo)
Decisión: acepto H 1 : 1  0 si el valor p es menor que   0,05 porque se rechaza
H 0 : 1  0 . En este caso, se concluye que Xe Y están relacionadas linealmente.
b) Hipótesis de significancia para  0 intercepto con el eje Y
c) H 0 :  0  0 (No es importante para el modelo)
d) H 1 :  0  0 (Es importante para el modelo)
e) Decisión: acepto H 1 :  0  0 si el valor p es menor que   0,05 porque se rechaza
H 0 :  0  0 . En este caso, se concluye que el intercepto es importante para el modelo.
Ejercicio 26.
Datos de turbiedad y sólidos suspendidos en una estación del río Cauca para ser analizados en un modelo de
regresión lineal.
Número de observación Fecha Turbiedad (UNT) Sólidos suspendidos
(mg/l)
i x i
yi
1 04-Mar-91 42 71
2 07-Mar-91 72 146
3 11-Mar-91 360 505

de 2023
81
4 14-Mar-91 35 61
5 08-Abr-91 65 136
6 11-Abr-91 120 169
7 15-Abr-91 100 190
8 14-May-91 190 269
9 16-May-91 650 978
10 20-May-91 230 394
11 23-May-91 105 176
12 27-May-91 75 120
13 30-May-91 69 99
14 04-Jun-91 125 133
15 06-Jun-91 85 140
16 11-Jun-91 32 53
17 13-Jun-91 34 54
18 17-Jun-91 85 123
19 24-Jun-91 450 568
20 02-Jul-91 51 84
21 04-Jul-91 37 73
22 11-Jul-91 62 84
a) Dibujar el diagrama de dispersión

b) Obtener la recta estimada. Verificar la pertinencia de los parámetros.
c) Trazar la recta promedio en la nube de puntos.
de 2023
82
13.3 TRES EJEMPLOS DE APLICACIÓN DE LA REGRESIÓN LINEAL SIMPLE

1. En el artículo:
Aplicación de la regresión lineal en un problema de pobreza. Application of linear regression on the
problem of poverty
Diego Fernando Cardona Madariaga*
Javier Leonardo González Rodríguez**
Miller Rivera Lozano***
Edwin Hernán Cárdenas Vallejo****
Universidad del Rosario
Recibido: 25-07-13 /Aceptado: 01-11-13
Resumen: Este artículo pretende mostrar al profesional de cualquier área, las bondades de la
estadística inferencial en lo referente al análisis de regresión lineal simple. Para ello se recurre a la
observación de algunas situaciones de la administración y la ingeniería y en particular, al desarrollo
de un caso aplicado a la economía colombiana.
Palabras clave: Regresión lineal, estadística inferencial.
Tabla 1. Datos de pobreza en Colombia en 2010 y 2011.
Pobreza Pobreza Extrema Gini

2010 2011 2010 2011 2010 2011
Pasto 43,2 40,6 11,7 8,8 52,3 52,2
Montería 39,7 37,5 6,7 6,5 52,5 53,0
Barranquilla 39,5 34,7 7,4 5,3 49,7 47,2
Cúcuta 39,3 33,9 8,4 5,7 47,9 47,1
Cartagena 34,2 33,4 6,2 4,7 48,9 48,8
Cali 26,1 25,1 6,4 5,2 52,9 50,4
Villavicencio 25,4 23,0 4,8 4,0 46,7 46,7
Ibagué 26,6 22,0 4,3 2,7 49,5 44,9
Pereira 26,8 21,6 3,8 2,2 45,6 45,1
Manizales 23,8 19,2 4,7 2,3 49,5 47,1
Medellín 22,0 19,2 5,6 4,0 53,8 50,7
Bogotá 15,5 13,1 2,6 2,0 52,6 52,2
Bucaramanga 10,9 10,7 1,2 1,1 45,0 44,9
de 2023
83
La gráfica de dispersión nos sugiere que existe una relación lineal entre la variable independiente
porcentaje de pobreza en 2010 y la variable dependiente porcentaje de pobreza en 2011 (Figura 2)
El modelo de regresión lineal simple es:
y   0  1 x  
Conclusiones
El análisis de regresión lineal simple, como parte de la inferencia estadística, es fundamental para
determinar relaciones de dependencia lineal entre variables y establecer su validez con el fin de
hacer estimaciones y predicciones dentro de un intervalo de confianza deseado.
Obtener una ecuación de regresión que describe el comportamiento lineal entre dos variables
permite pronosticar valores futuros de la variable bajo análisis con cierto grado de certeza, lo cual
constituye una herramienta poderosa pues le da al profesional la posibilidad de hacer ajustes en los
procesos, tomar decisiones o establecer políticas. Por ejemplo, si un profesional en ciencias
políticas o administración pública utiliza el estudio sobre índices de pobreza realizado con los datos
de las trece principales ciudades del país y concluye que los valores observados y estimados están
por debajo de la media en América Latina o que están por debajo de la meta nacional; podría
establecer un programa que disminuya en forma eficaz esos índices de pobreza. Así mismo, si un
administrador o economista realiza el análisis sobre la relación de dependencia entre el gasto en
publicidad y el volumen de ventas de un producto podría determinar la inversión óptima en
publicidad para ese producto y obtener el máximo de ventas o predecir la cantidad de unidades
vendidas de acuerdo con un valor invertido en publicidad. A pesar de lo importante que resulta ser
para cualquier profesional el conocimiento y uso del análisis de regresión, es una herramienta muy
poco aprovechada como lo demuestran un gran número de trabajos de grado a nivel de posgrado y
trabajos de investigación en los cuales el desarrollo estadístico solo se limita a la parte descriptiva y
no a la inferencial.
2. En un estudio de ingeniería del agua relacionado con las educciones de los sólidos suspendidos,
en función de la demanda química de oxígeno (DQO) se sacó una muestra aleatoria, cuyos
datos aparecen en la tabla de abajo
Sólidos suspendidos-y DQO-x
30 29 33 37 25 32 30 30 33 35 31 29 29 27 31 36 25 31 29 28 32 29 30 30
30 34 30 36 30 34 31 36 29 31 36 29 28 29 34 29 34 29 33 30 35 28 30 28
26 30 34 28 30 31 27 32 34 26 29 31
31 30 28 31 36 28 33 32 27 32 36 27
Ajuste un modelo de regresión lineal simple.

X Y
29 30
27 29
de 2023
84
3. Los datos de abajo muestran las emisiones de óxidos de nitrógeno (NOx) provenientes de
calderas de plantas eléctricas.
MBtu/hr- 100 125 125 150 150 200 200 250 250 300 300 350 400 400
ft2(X)
NOx(Y) 150 140 180 210 190 320 280 400 430 440 390 600 610 570
G. PROBABILIDAD
Tomado del libro de Milton, Susan (1)

Interpretación de las probabilidades
1. Las probabilidades son números entre 0 y 1, ambos inclusive, que reflejan las expectativas con
respecto a que un suceso físico determinado ocurra.
2. Probabilidades próximas a 1 indican que el evento o suceso generalmente se produce.
3. Probabilidades próximas a 0 indican que la ocurrencia del evento o suceso es rara.
4. Probabilidades próximas a ½ indican que es posible que el evento o suceso ocurra a no.
Probabilidad personal o subjetiva
Ejemplo: Un paciente sufre de cálculos renales y no se ha conseguido mejora alguna a partir de los métodos
ordinarios. Su médico está planteándose la posibilidad de llevar a cabo una intervención quirúrgica y debe
responder a la pregunta, ¿Cuál es la probabilidad de que la operación sea un éxito?, varios factores como la
edad, el estado de salud y la actitud frente a este proceso intervienen en este caso. El acierto del médico
depende de lo correcta que sea la información de que dispone y la capacidad para evaluarla adecuadamente.
Probabilidad frecuentista o de frecuencia relativa

Ejemplo: Un investigador trabaja en un nuevo fármaco para insensibilizar a los pacientes frente a picaduras de
abejas. De 200 sujetos sometidos a prueba, 180 presentaron una disminución en la gravedad de los síntomas
tras sufrir una picadura, después de ser sometidos a tratamiento. La probabilidad de que ocurra lo mismo a
cada uno de los pacientes es 180/200 =0.90; quiere decir que el fármaco es eficaz en el 90% de los casos para
disminuir la reacción de pacientes sensibles a las picaduras de las abejas.
La probabilidad de que ocurra un evento o suceso determinado A se denota por P(A) y viene dada por
número.de.veces.que.ocurre. A
P( A) 
número.de.veces.que.se.realiza.el. exp erimento
Probabilidad por el método clásico

Ejemplo: ¿Cuál es la probabilidad de que un niño nacido de una pareja, cada uno de cuyos miembros posee
genes para ojos castaños y para ojos azules, tenga los ojos castaños? Para resolver esta pregunta se observa
que dado que el niño recibe un gen de cada uno de sus padres, las posibilidades para él son (castaño, azul),
(azul, castaño), (azul, azul) y (castaño, castaño) donde el gen que aparece representado en primer lugar en
cada uno de los pares es el gen que corresponde que procede del padre. Puesto que cada uno de los padres
tiene exactamente la misma probabilidad de aportar un gen para ojos azules que uno para ojos castaños, las
cuatro alternativas son equiprobables. Al ser dominante el gen para ojos castaños, tres de los cuatro pares dan
como resultado un niño de ojos castaños. En consecuencia, la probabilidad de que tenga ojos castaños es
¾=0.75. Esta probabilidad se basa en la repetición de un experimento y se utiliza cuando los resultados
posibles son equiprobables. En este caso, la probabilidad de que ocurra el evento A es
n( A) número.de.veces.que.ocurre. A
P( A)  
n(S ) número.de.resultados.que. puede.dar.el. exp erimento
Práctica 1
de 2023
85
En cada ejercicio se pide calcular probabilidades, ¿Qué método (personal, frecuencia relativa o clásico)
considera el más apropiado para resolver el problema?
1. Una mujer contrae la rubéola durante el embarazo; ¿Cuál es la probabilidad de que su hijo nazca con
algún defecto congénito?
2. Un etólogo estudia un numeroso grupo de babuinos en libertad. Observa que de los 150 animales del
grupo, 5 tienen el pelo extremadamente claro. ¿Cuál es la probabilidad de que de que la siguiente
cría de babuino que nazca en el grupo porte esta coloración clara?
3. Un químico sabe por experiencia, que aproximadamente, 8 de cada 100 de las muestras que recibe
para localizar fosfatos contienen demasiado poco para que éstos puedan ser detectados en un análisis
rutinario, ¿Cuál es la probabilidad de que tenga que usar un método alternativo, más sensible, en la
siguiente muestra que reciba para su análisis?
4. Un hombre es zurdo y su mujer diestra. La pareja tiene dos niños. Cada uno de ellos tiene la misma
probabilidad de ser zurdo a diestro. ¿Cuál es la probabilidad de que los dos sean zurdos?
Diagrama de árbol y genética elemental

El diagrama de árbol permite obtener todos los resultados posibles de un experimento. Cada paso del
experimento se representa como una ramificación. El árbol se forma determinando primero cuántas etapas
están implicadas.
Ejemplo: Una mujer es portadora de hemofilia clásica; esto significa que, aunque la mujer no tenga hemofilia,
puede transmitir la enfermedad a sus hijos. Da a luz tres hijos. ¿Cuáles son las posibilidades de este
experimento?
Primer hijo Segundo hijo Tercer hijo Trayectoria
Sí SSS
Sí No SSN
Sí Sí SNS
No No SNN
Sí NSS
Sí No NSN
No Sí NNS
No No NNN
Ejemplo: ¿Cuál es la probabilidad de que una mujer con tres hijos y que es portadora de hemofilia clásica no
transmita su enfermedad a ninguno de sus hijos?
Observación: con respecto a las tres formas de calcular la probabilidad, es conveniente recordar que:
i) El enfoque personal o probabilidad subjetiva siempre resulta aplicable; todo el mundo puede tener una
opinión personal acerca de cualquier cosa. Su principal desventaja, por supuesto, radica en que la precisión
depende de la exactitud de la información disponible y la capacidad del científico para evaluar de manera
correcta esa información.
ii) El enfoque de frecuencia relativa puede usarse siempre que sea posible repetir muchas veces el
experimento y observar sus resultados. La desventaja es que el experimento no puede ser una situación que
ocurra una sola vez, se requiere un número grande de ensayos para que la aproximación sea buena.
iii) El método clásico para calcular las probabilidades puede usarse solamente cuando es razonable suponer
que los posibles resultados del experimento son igualmente probables. La ventaja de este método es que no
requiere la experimentación; la probabilidad asignada al evento A no es una aproximación; es una descripción
precisa de la frecuencia con la que ocurrirá el evento A.
de 2023
86
Los datos experimentales pueden ser conteos o mediciones o tal vez datos categóricos que puedan clasificarse
con algún criterio.
Un experimento estadístico es cualquier proceso que genere un conjunto de datos los cuales pueden ser
cuantitativos (conteos o mediciones) y cualitativos (datos categóricos).
En Estadística interesan las observaciones que se obtienen en la repetición de un experimento; en la mayor
parte de los casos, los resultados dependerán del azar y no pueden pronosticarse con certeza; es posible
conocer los posibles resultados del experimento mas no cuál será el resultado del mismo en un momento
dado.
Tomado del libro del libro de Milton, Susan (1)
14.1 ESPACIOS MUESTRALES Y EVENTOS
Definición de espacio muestral y punto muestral: Un espacio muestral de un experimento es un conjunto S

con la propiedad de que cada resultado físico del experimento corresponde a un elemento de S; cada uno de
estos elementos se llama punto muestral.
Definición de espacio muestral discreto: Se dice que un espacio muestral es discreto si su resultado puede
ponerse en una correspondencia uno a uno con el conjunto de los enteros positivos.
Definición de espacio muestral continuo: Se dice que un espacio muestral es continuo si sus resultados
consisten de un intervalo de números reales.
Tomado del libro de Canavos (3)

Definición de evento: Todo subconjunto A de un espacio muestral se llama evento. El conjunto vacío, ф se
llama evento imposible, y el subconjunto S, evento cierto.
Definición de la unión de eventos: El evento formado por todos los posibles resultados de E 1 o E2 o ambos,
recibe el nombre de unión de E1 y E2 y se denota por E1  E2 .
Definición de intersección: El evento formado por todos los resultados posibles comunes tanto E 1 como a E2
recibe el nombre de intersección de E1 y E2 y se denota por E1  E2 .
Definición de eventos mutuamente excluyentes: Se dice que dos eventos E1 y E2 son mutuamente excluyentes
o disjuntos si no tienen resultados en común; en otras palabras,
E1  E2   .
Definición de evento subconjunto: Si cualquier resultado de E 2 también es un resultado de E1, se dice que el
evento E2 está contenido en E1 y se denota por E2  E1 .
Definición de complemento: El complemento de un evento E con respecto al espacio muestral S, es aquel que
contiene todos los resultados de S que no se encuentran en E y se denota por E , Ec ó E’.
Tomado del libro de Walpole /Myers (2)
Propiedades de los eventos
1. A = 
2. A = A
3. AAc = 
4. AAc =S
5. Sc = 
6. c = S
7. (Ac) c = A
8. (AB) C = Ac  Bc
9. (AB) C = Ac  Bc
EJEMPLOS DE PROBABILIDAD POR EL MÉTODO CLÁSICO

1. Ejemplo: El lanzamiento de una moneda al aire, una vez.
Espacio muestral S = {cara, sello}

Un evento: A: la moneda cae en cara. Por lo tanto, A= {cara}
de 2023
87
1
P( A) 
2
Variable aleatoria, X: el número de caras que muestra la moneda en el lanzamiento al aire una vez
Valores, x = 0, 1.
Distribución de probabilidad
x 0 1
P (X = x) ½ 1/2
2. Ejemplo: el lanzamiento de un dado, una vez.
Espacio muestral S = {1, 2, 3, 4, 5, 6}
3
A: el dado cae un número impar. A= {1, 3, 5}. P( A) 
6
3
B: el dado cae en un número par. B= {2, 4, 6}. P( B) 
6
A y B no tienen elementos en común. A y B son mutuamente excluyentes o disjuntos porque
A B  
3. Ejemplo: El lanzamiento de dos monedas legales al aire una vez
El espacio muestral, S, se obtiene desde un diagrama de árbol de la forma:
C
C S A: las monedas caen en diferente valor. A= {cs, sc}.
P(A)=2/4
C
S S B: ambas monedas caen sello. B = {ss}. P (B) = ¼.
S = {cc, cs, sc, ss}
4. Ejemplo: El lanzamiento de dos dados legales una vez.

1
2
1 3
4
5
6
2
3
4
5
6
S = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2),…}. El espacio muestral S tiene 36 puntos
muestrales.
de 2023
88
Ejercicio 26: Para el ejemplo 4, definir los puntos muestrales y calcular la probabilidad de cada uno de
los siguientes eventos:
A: ambos dados caen en un número igual.
B: el segundo dado cae en un número mayor a tres.
C: ambos dados caen en un número cuadrado perfecto.
D: la suma de ambos dados es 9.
BD 
P (Ac) =
14.2 Taller N° 1 de ejercicios sobre probabilidad

Tomado del libro de Milton, S/Arnold, J. Página 23 (4)
1. Un tablero de control eléctrico tiene tres interruptores de conmutación, llamados I, II, III, cada uno
de los cuales puede estar en las posiciones de encendido (E) o apagado (A).
a) Construya un árbol que represente las configuraciones posibles de los tres interruptores.
b) Enumere los elementos del espacio muestral generado por el árbol.
c) Liste los puntos muestrales que constituyen los eventos siguientes:
A: por lo menos un interruptor está encendido.

B: el interruptor I está encendido.
C: ningún interruptor está encendido.
D: están encendidos los tres interruptores.
d) ¿Son mutuamente excluyentes los eventos Ay B?, ¿Lo son los eventos Ay C?, ¿Lo son los
eventos A y D?
e) ¿Cuál es el nombre que se da a un evento como el D?
f) Si en un momento dado cada interruptor tiene igual probabilidad de estar encendido o apagado,
¿Cuál es la probabilidad de que ningún interruptor esté encendido?
2. Dos artículos se seleccionan al azar simultáneamente de una línea de montaje y se clasifican como de
calidad superior (+), promedio (0) o inferior (-)
a) Construya un árbol para este experimento en dos etapas.
b) Enumere los elementos del espacio muestral generado con el árbol.
c) Liste los puntos muestrales que constituyen los eventos siguientes:
A: el primer artículo seleccionado es de calidad superior.

B: la calidad de ambos artículos es la misma.
C: la calidad del primer artículo es mayor que la del segundo.
d) ¿Son mutuamente excluyentes los eventos A y B?
e) Dé una descripción verbal de los eventos siguientes:
A´ B A´ B´ A  B´ A  C´B

f) Se sabe que 90% de los artículos producidos es de calidad promedio, 1% es de calidad
superior y el resto es de calidad inferior. Se argumenta que, puesto que el experimento
de clasificación puede proceder de nueve maneras y sólo en una de ellas se obtendrían
de 2023
89
dos artículos de calidad promedio, la probabilidad de obtenerlos es 1/9. Critique la

argumentación.
3. Un experimento consiste en seleccionar un objeto de 0 a 9 de manera tal que cada dígito tenga la
misma probabilidad que los demás de ser seleccionado. El dígito seleccionado se denota con A, se
ejecutan las líneas de código siguiente:
IF A<2 THEN B=12; ELSE B=17;

IF B=12 THEN C=A-1; ELSE C=0.
a) Elabore un árbol para ilustrar las formas en que pueden asignarse valores a las variables A, B y
C.
b) Encuentre el espacio muestral generado por el árbol.
c) ¿Son igualmente probables los 10 posibles resultados de este experimento?
d) Calcule la probabilidad de que A sea un número par.
e) Halle la probabilidad de que C sea negativo.
f) Calcule la probabilidad de que C=0.
g) Halle la probabilidad de que C<=1.
IF A<2 THEN B=12; ELSE B=17;
IF B=12 THEN C=A-1; ELSE C=0.
A B C
0 12 -1
1 12 0
2 17 0
9 17 0
de 2023
90
Tomado del libro de Walpole /Myers (2)

4. Un experimento consiste en lanzar una moneda al aire, una vez y dos en el caso que ocurra una cara.
Si la primera ocasión se obtiene un sello entonces se arroja un dado. El diagrama de árbol es de la
siguiente forma:
5. Supóngase que se seleccionan en forma aleatoria tres artículos de un proceso de manufactura. Se
examina cada uno de ellos y se clasifican como Defectuoso, D ó No defectuoso, N. Enlistar los
elementos del espacio muestral utilizando el diagrama de árbol.
6. Calcule la probabilidad de que al lanzar una moneda al aire se obtenga:
a) una cara.
b) Un sello.
7. Calcule la probabilidad de que al lanzar un dado una vez se obtenga:
a) Un 2.
b) Un 3
c) Un número par.
d) Un número impar.
e) Un número mayor que 5.
f) Un número menor o igual a 3.
8. Un experimento consiste en lanzar primeramente un dado y después lanzar una moneda, siempre y
cuando el número en el dado sea par. Si el resultado del dado es non, la moneda se lanza dos veces;
al utilizar la notación 4c, por ejemplo, se indica el evento donde el número resultante en el dado es
un 4 y la moneda cae cara; y 3cs para señalar el evento de que el dado muestra un 3 y en la moneda
se dan una cara y un sello.
a) Dibuje un diagrama de árbol para mostrar los 18 elementos del espacio muestral.
b) Enumere los elementos del evento A, en que el dado cae en un número menor a 3.
c) B, en que se obtienen dos sellos.
d) Ac
e) Ac  B
f) AB
9. ¿Cuáles de los siguientes pares de eventos son mutuamente excluyentes?
a) Una madre que da a luz a una niña y tiene un par de gemelas el mismo día.
b) Un jugador de ajedrez que pierde el último juego y que el mismo jugador gane el torneo.
CONTEO DE PUNTOS MUESTRALES

Existen experimentos complejos donde enumerar los puntos muestrales o elaborar un diagrama de
probabilidad es difícil; aplicar el método clásico de probabilidad a estos experimentos requiere que los
eventos sean equiprobables además de conocer el número de casos favorables a un evento y el número de
casos posibles a ese experimento para que la siguiente fórmula tenga sentido,
n( A) número.de.veces.que.ocurre. A
P( A)   . Por medio de esta
n(S ) número.de.resultados.que. puede.dar.el. exp erimento
aproximación clásica se resuelven problemas en los cuales los puntos muestrales del espacio muestral son de
dos tipos: permutaciones o combinaciones.
Definición de permutación: Una permutación es una distribución de objetos en un orden determinado.
Ejemplos:
1. El número de la cédula de ciudadanía es una permutación.
2. El número del teléfono es una permutación.
3. La cadena de letras que conforma el nombre de una persona es una permutación.

de 2023
91
Definición de combinación: Una combinación es una sucesión de objetos con independencia de su

ordenamiento.
Ejemplo: Un biólogo dispone de 10 plantas para un experimento. Sólo ocho son necesarias para realizarlo.
Las ocho plantas necesarias son seleccionadas aleatoriamente y constituyen una combinación dado que el
punto de interés radica solamente en las ocho plantas seleccionadas y no en el orden en que han sido
escogidas.
La diferencia entre una combinación y una permutación es el orden de los elementos.
Conteo de permutaciones
Una vez que se ha identificado un problema en el cual el orden es importante se puede estar interesado en el
número de permutaciones que tiene el espacio muestral o un evento en particular.
14.3 Principio de la multiplicación para el conteo de puntos muestrales

Considere un experimento que ocurre en k-etapas; sea ni con i= 1, 2,3,…k el número de formas en que puede

k
ocurrir en la etapa i. En total el experimento puede ocurrir en i 1
ni  n1 .n2 .n3 ...nk formas.
Práctica 2
EJERCICIOS SOBRE CONTEOS DE PUNTOS MUESTRALES
Tomado del libro de Walpole/Myers (2)
1. Cuántas placas de carros pueden hacerse en Colombia si cada placa consta de tres letras y tres dígitos
______
a) ¿Sin restricción?
b) ¿Si no se pueden repetir letras?
c) ¿Si no se pueden repetir dígitos?
d) ¿Si no se pueden repetir letras y dígitos?
e) ¿Si sólo pueden empezar por la letra M y no se pueden repetir letras y dígitos?
2. El número de formas en que puede elaborarse un chance de cuatro cifras es - - - -. La probabilidad de

ganarse un chance de cuatro cifras es ________.
3. El número de billetes de lotería de 4 dígitos y la serie de hasta 200 es - - - -200. La probabilidad de
ganarse la lotería es ____.
Tomado del libro de Milton, Susan (1)
4. ¿En cuántas formas pueden arreglarse los cinco aminoácidos alanina, valina, glicina, cisteína y triptófano
para formar un pentapéptido? No se repiten. - - - - -.
5. el código ADN-ARN es un código de tipo molecular en el que la secuencia de moléculas contiene
información genética significativa. Cada segmento del ARN se compone de “palabras”. A su vez, cada
palabra especifica un aminoácido dado y consiste en una cadena de tres ribonucleótidos. Cada uno de los
ribonucleótidos de la cadena es Adanina (A), Uracilo (U), Guanina (G) o Cistosina (C).
a) ¿Cuántas palabras pueden formarse?
b) ¿Cuántas palabras no incluyen repetición?
c) ¿Cuántas de las 64 palabras terminan con los nucleótidos uracilo o cistosina y no contienen repeticiones?
6. Cuántos puntos muestrales hay en el espacio muestral cuando:
a) ¿Se lanza una moneda una vez y a continuación un dado una vez?
b) ¿Se lanzan dos monedas una vez?
de 2023
92

Definición de la función factorial: Sea n un entero positivo. Se llama n factorial al producto n(n-1) (n-
2)…3.2.1 y se denota por n !; cero factorial que se denota por 0! Por definición es 1.
5!=5.4.3.2.1=120.
Supóngase que se tienen n objetos distintos y sólo se usan r objetos del conjunto en cada ordenamiento;
¿Cuántas permutaciones son posibles en este caso? Denote dicho número por nPr donde n indica el número de
objetos distintos, P denota el hecho de que se cuentan permutaciones y r el número de objetos en cada
ordenamiento. Puesto que cada permutación es un ordenamiento de r objetos distintos se necesitan r
posiciones
n, n-1, n-2,. . . n-(r-1)=n-r+1
Teorema: El número de permutaciones de n objetos distintos, de los cuales se toman r objetos a la vez, es
n!
n Pr  .
(n  r )!
Ejemplos
1. 9P4.
2. 7P7
Esta fórmula requiere que los objetos sean distintos, no permite repeticiones en ninguna posición del
ordenamiento; la fórmula no resuelve todos los problemas de las permutaciones y por tal razón se debe
considerar en primer lugar en un problema el principio de la multiplicación.
Conteo de combinaciones
En situaciones donde el orden es irrelevante se trabaja con combinaciones.
Teorema: el número de combinaciones de n objetos distintos, de los cuales se seleccionan r a la vez,
n
denotados por nCr ó  , está dado por:
r 
n n!
nCr =    .
 r  r!(n  r )!
Ejemplos
1. 5C3
2. 5C0
3. 7C7
4. En una fundidora se identifica un lote de 20 bloques de motor, de los cuales cinco contienen defectos
internos; el computador selecciona tres bloques al azar y prueba su dureza. Se aceptará el lote si no
se identifican defectos. ¿Cuál es la probabilidad de que se acepte este lote?
15C 3
P (se acepta el lote)= .
20C 3
5. Encuéntrese el número de comités que pueden formarse con 4 químicos y 3 físicos y que
comprendan 2 químicos y 1 físico.
Las permutaciones de objetos que no se diferencian entre sí se calculan mediante,

n!
Donde n=n1+n2+n3+…+nk
n1!n2 !n3!...nk !
Ejemplos
1. El número de permutaciones con las letras de la palabra CONSTANTINOPLA es ____
de 2023
93
2. El número de permutaciones con las letras de la palabra PARANGARICUTIRIMICUARO es ____
14.4 ALGUNAS LEYES DE PROBABILIDAD
Axiomas de probabilidad
1. Sea S el espacio muestral de un experimento P(S)=1. La probabilidad de un evento siempre es menor
o igual a 1 porque el evento más grande es el espacio muestral S.
2. P(A)>=0. La probabilidad de un evento siempre es mayor o igual a cero.
3. Sean A1, A2, A3,… una colección finita o infinita de eventos mutuamente excluyentes. Entonces
P (A1UA2UA3…) = P (A1) + P (A2) + P (A3) +… Cuando los eventos no tienen nada en común entre
sí, la probabilidad de la unión de ellos es la suma de las probabilidades de cada uno; esta situación
cambia cuando la intersección entre los eventos es diferente del vacío.
Teorema sobre la probabilidad del evento vacío

P (ф)=0
Teorema sobre el complemento de un evento

P (Ac) = 1 – P(A)
14.5 REGLA GENERAL DE LA ADICIÓN
Esta regla se utiliza para obtener la probabilidad de la unión de dos eventos y requiere que a la suma de la
probabilidad de los eventos se le reste la probabilidad de la intersección de ambos eventos.
P (AUB) = P (A) + P (B) – P (A  B)
Ejemplo de aplicación de la regla de la adición: Un sistema contiene dos componentes A y B, y se conecta

de manera que éste funciona si cualquiera de las componentes funciona. Se sabe que la probabilidad de que A
funcione es P(A) = 0.9 y la de B es P (B) = 0.8 y la probabilidad de ambos es P (A  B) = 0.72. Determinar la
probabilidad de que el sistema funcione.

Cuando se necesita calcular la probabilidad de la unión de varios eventos que no tienen puntos en común
entre sí, se cuenta con la siguiente propiedad:
Corolario 2. Si A1, A2, A3,..., An son mutuamente excluyentes, entonces
P( A1  A2  ...  An )  P( A1 )  P( A2 )  ...  P( An )
Corolario 3. Si A1, A2, A3,..., An es una partición del espacio muestral S, entonces
P( A1  A2  ...  An )  P( A1 )  P( A2 )  ...  P( An )  P( S )  1
Teorema probabilidad de la unión de tres eventos cualesquiera
Para tres eventos A, B y C
P( A  B  C)  P( A)  P(B)  P(C)  P( A  B)  P( A  C)  P(B  C)  P( A  B  C)
EJEMPLOS:
1. La probabilidad de que Paula apruebe matemáticas es de 2/3 y la de que apruebe inglés es de 4/9. Si
la probabilidad de que aprueba ambos cursos es de ¼, ¿cuál es la probabilidad de que Paula apruebe
al menos uno de ellos?
de 2023
94
Solución
Si M es el evento de “aprobar matemáticas” y E es el de “aprobar inglés”, entonces, por la regla de
adición, se tiene que
2 4 1 31
P( M  E )  P( M )  P( E )  P( M  E )    
3 9 4 36
2. ¿cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par de dados?
Solución
Sea A el evento de que ocurra 7 y B el de que se dé el 11. El 7 resulta en 6 de los 36 puntos
muestrales y el 11, en sólo 2 de ellos. Dado que todos los puntos muestrales son igualmente
posibles, se tiene que P(A)=1/6 y P (B)=1/18. Los eventos son mutuamente excluyentes, dado que 7
y 11 no pueden presentarse en el mismo lanzamiento. Por lo tanto,
1 1 2
P( A  B)  P( A)  P( B)    . Este resultado también pudo obtenerse contando el
6 18 9
n 8 2
número total de puntos para el evento A  B , o sea 8, y escribir P( A  B)   
N 36 9
3. Si las probabilidades de que una persona, al comprar un nuevo automóvil, seleccione el color verde,
blanco, rojo o azul, son, respectivamente, 0.09, 0.15, 0.21 y 0.23 ¿cuál es la probabilidad de que un
comprador dado adquiera un automóvil en uno de esos colores?
Solución
Sean G, W, R y B los eventos de que un comprador seleccione, respectivamente, un automóvil verde,
blanco, rojo o azul. Dado que estos cuatro son mutuamente excluyentes, la probabilidad es:
P(G W  R  B)  P(G)  P(W )  P(R)  P(B)  0.09  0.15  0.21  0.23  0.68
ALGUNOS EJERCICIOS DE PROBABILIDAD

Pág. 26 del libro de Walpole (2)
7. Si se selecciona aleatoriamente una letra del alfabeto castellano, encuentre la probabilidad de que ésta
a) sea una vocal.
b) se encuentre en algún lugar de la lista antes de la letra j.
c) se encuentre en algún lugar después de la letra g.
10. Si se lanza un par de dados, encuentre la probabilidad de obtener

a) un total de 8
b) cuando mucho un total de 5.
12. Si se seleccionan al azar 3 libros de un estante que contiene 5 novelas, 3 libros de poemas y un
diccionario, ¿cuál es la probabilidad de que
a) se tome el diccionario?
b) Se escojan 2 novelas y un libro de poemas?
Teorema: Si A y Ac son eventos complementarios, entonces P(A)+P (Ac)=1.
Ejemplo: Si las probabilidades de que un mecánico automotriz repare 3, 4, 5, 6, 7, 8 ó más vehículos en un día
hábil cualesquiera de la semana son, respectivamente, 0.12, 0.19, 0.28, 0.24, 0.10 y 0.07, ¿cuál es la
probabilidad de que le dé servicio al menos a 5 carros el siguiente día de trabajo?
Solución
Sea E el evento de que se arreglen al menos 5 carros. P (E) = 0.28+0.24+0.10+0.07=0.69. Otra forma es
considerar que P (E)= 1- P (E’), donde E’ es el evento de que se reparen menos de 5 autos. Dado que P (E ’’)
=0.12+0.19=0,31 se sigue que P (E)= 1-0.31=0.69.
de 2023
95
14.6 PROBABILIDAD CONDICIONAL

Definición de probabilidad condicional:
Sean A y B eventos que se encuentran en un espacio muestral S de manera tal que P (B)>0. La
probabilidad condicional de A al ocurrir el evento B, es el cociente de la probabilidad de Ay B con respecto a
P( A  B)
la probabilidad marginal de B; de esta manera se tiene que P( A | B)  , P( B)  0 . Se deduce
P( B)
que P( A  B)  P(B) P( A | B) y por simetría,
P( A  B)
P( B | A)  , P( A)  0 y además, P( A  B)  P( A) P( B | A) que es otra versión de la
P( A)
regla de la multiplicación.
P( A  B  C )
Puede demostrarse que P( A | B  C )  , P( B  C )  0 y
P( B  C )
P( A  B  C )
P( A  B | C )  , P(C )  0 .
P(C )
Tomado del libro de U. Málaga (7)
Tabla 12. Considere la información de 1000 mujeres clasificadas de acuerdo a parámetros de la Organización
Mundial de Salud, según la presencia de menopausia.
Menopausia
Sí, S No, S´ Total
Clasificación de la OMS Normal, N 189 280 469
Osteopenia, O 108 359 467
Osteoporosis, T 6 58 64
Total 303 697 1000
Se pueden obtener las siguientes probabilidades:

a. La probabilidad de tener osteopenia u osteoporosis. Observe que es la probabilidad de una unión de
dos eventos que son disjuntos o mutuamente excluyentes.
b. Probabilidad de tener osteoporosis o menopausia. Observe que los eventos no son disjuntos porque
en la intersección de ellos hay 6 mujeres.
c. Probabilidad de que sea una mujer normal.
d. Si es menopáusica… ¿probabilidad de osteoporosis? Observe que es una probabilidad condicional y

el denominador está formado por las mujeres menopáusicas.
e. ¿Probabilidad de menopausia y osteoporosis?
f. ¿son independientes menopausia y osteoporosis?
Observaciones:
a) Cualquier probabilidad que se tome con base en algunos de los totales de fila o de columna, se llama
probabilidad marginal.
b) Cualquier información de las celdas que son intersecciones, se llaman probabilidad condicional
donde el evento dado es el que indique la columna de la tabla. La intersección de las dos celdas
también implica la intersección de los eventos.
de 2023
96

Ejemplo: La probabilidad de que un vuelo de programación regular despegue a tiempo es P (D)=0.83; la de
que llegue a tiempo es P (A)=0.82 y la de que despegue y llegue a tiempo P (D  A)  0.78 . Encuentre la
probabilidad de que un avión: a) llegue a tiempo dado que despegó a tiempo, y b) despegue a tiempo dado
que llegó a tiempo.
Solución
a) La probabilidad de que el avión llegue a la hora prevista dado que partió a tiempo es:
P( D  A) 0.78
P( A | D)    0.94
P( D) 0.83
b) La probabilidad de que salga a la hora prevista dado que llegó a tiempo es:
P( D  A) 0.78
P( D | A)    0.95
P( A) 0.82
Definición de eventos independientes: Dos eventos A y B son independientes, si y sólo si P( B A)  P( B)
y
P( A B)  P( A) De otra forma A y B son dependientes.
Tomado del libro de Canavos, páginas 39-40 (3)
Ejemplo 2.2. A los habitantes de una gran ciudad se les hizo una encuesta con el fin de determinar el número
de lectores del time y Newsweek. Los resultados de la encuesta fueron los siguientes: 20% de los habitantes
leen el Times, el 16% lee el Newsweek y un 1% lee ambos semanarios. Si se selecciona al azar a un lector
del Time, ¿cuál es la probabilidad de que también lea el Newsweek?
Solución
A: lee el Time. B: lee el Newsweek. P (B|A)=?
Ejemplo 2.3. Muchas instituciones bancarias emplean modelos computarizados de crédito con el propósito de
dar un determinado puntaje a todas las solicitudes de préstamo; este puntaje se emplea como una ayuda para
decidir cuándo se otorga el préstamo. Supóngase que el 3% de todos los préstamos que se otorgan presentan
problemas por incumplimiento de pago y que los modelos de crédito son precisos en un 80% al predecir
menos créditos. Si el 85% de todas las solicitudes reciben puntuaciones favorables por los modelos
computarizados y se les otorga el préstamo, determinar la probabilidad de que una solicitud que recibe una
puntuación favorable y a la que se le otorga el préstamo, no presente ningún problema para el pago de éste?
Solución
Sean A: incumplimiento en el pago, B: la puntuación es favorable y se otorga el préstamo.
Del enunciado se tiene que P(A) = 0.03, P (B) = 0.85 y P (B| A ) = 0.8, en donde A es el evento de que
hay cumplimiento en el pago. Lo que se busca es la probabilidad condicional de que no exista problema en
el pago del préstamo, dado que la solicitud obtuvo una puntuación favorable y se le otorga el préstamo o en
forma simbólica, P ( A |B).
Por definición,
P( A  B)
P( A | B)  , pero, P ( A  B )  P ( A ) P ( B | A ) se sigue que
P( B)
P( A ) P( B | A )
P( A | B)  y se reemplazan sus respectivos valores, para obtener que
P( B)
P ( A |B) =0.9129
de 2023
97
14.7 TALLER Nº 2 DE EJERCICIOS DE PROBABILIDAD CONDICIONAL

Ejercicios de Walpole – Myers de las páginas 17, 18 y 19 (2)
2. En un estudio médico, los pacientes se clasifican en 8 formas diferentes de acuerdo a su tipo de sangre
AB+, AB-, A+, A-, B+, B-, O+, O-; a su presión sanguínea Alta, Baja, Normal.
Encuentre el número de formas posibles para clasificar a un paciente.
8. Puede comprarse un medicamento para el cura del asma, ya sea líquido, en tabletas o en cápsulas, a 5
diferentes fabricantes y todas las presentaciones en concentración regular o alta. ¿Cuántas formas
diferentes puede un médico recetar la medicina a un paciente que sufre de este padecimiento?
13. Un testigo de un accidente de tránsito en el que el causante huyó. Le índica a la policía que el número de
matrícula del automóvil tenía las letras RLH seguidas por los tres dígitos, el primero de los cuales era 5.
Si el testigo no puede recordar los otros dos dígitos, pero está seguro de que los tres eran diferentes
encuentre el número máximo de registros de automóvil que debe verificar la policía.
15. ¿Cuántos números de tres dígitos pueden formarse con los dígitos 0, 1, 2, 3, 4, 5, 6, si cada uno solo
puede usarse solo una vez?
28. Nueve personas salen de viaje para esquiar en 3 vehículos cuyas capacidades son de 2, 4 y 5 pasajeros,
respectivamente. ¿En cuántas formas es posible transportar a las 9 personas hasta el albergue con todos
los vehículos?
 2  4  5   2  4  5 
          ...
1  3  5  1  4  4 
Probabilidad-Walpole/Myers. Ejercicios de la página 36 (2)

6. En un experimento para estudiar la relación entre la hipertensión y el hábito de fumar, se reunieron
los siguientes datos en 180 individuos:
No fumadores-NF Fumadores Fumadores Total

Moderados-FM Empedernidos-
FE
Hipertenso-H 21 36 30 87
No Hipertenso-NH 48 26 19 93
Total 69 62 49 180
Si se selecciona aleatoriamente a uno de estos individuos, encuentre la probabilidad de que la persona:

a) Experimente hipertensión, dado que es un fumador empedernido.
b) Sea un no fumador, dado que no ha presentado problemas de hipertensión.
c) No sea fumador dado que es hipertenso.
d) No sea fumador dado que no es hipertenso.
e) Sea fumador dado que no es hipertenso.
1. En un estudio sobre la salud mental de adolescentes (6) escolarizados se encuentra que el 48% son
hombres. Del total de hombres, el 23% presentan síntomas de depresión. Del total de las mujeres, el 33%
presenta síntomas de depresión.
E E Total
H 25
M 19 52
Total 56 44 100
a) ¿Qué porcentaje de personas con síntoma de depresión hay?

de 2023
98
b) Si se elige una persona al azar y presenta síntomas de depresión, ¿Cuál es la probabilidad

de que sea hombre?
2. En el estudio sobre la salud mental de los adolescentes (6), el 56% tienen entre 11 y 14 años de edad.
Del total del grupo de edad de 11ª 14 años, el 28% presenta síntomas de depresión. Del total del
grupo de 15 a 19 años, el 28% presenta síntomas de depresión.
a) ¿Qué porcentaje de personas con síntoma de depresión hay?
b) Si se elige una persona al azar y presenta síntomas de depresión, ¿Cuál es la probabilidad
de que sea del grupo de 15 a 19 años?
3. En el estudio sobre salud mental de los adolescentes, el 48% son hombres. Del total de hombres, el
47% presenta algún riesgo de suicidio. Del total de las mujeres, el 44% presenta algún riesgo de
suicidio.
a) ¿Qué porcentaje de personas con riesgo de suicidio hay?
b) Si se elige una persona al azar y presenta riesgo de suicidio, ¿Cuál es la probabilidad de
que sea mujer?
4. En el estudio sobre la salud mental de los adolescentes, el 56% tienen entre 11 y 14 años de edad.
Del total del grupo de 11ª 14 años, el 50% presenta algún riesgo de suicidio. De los del grupo de
edad, 15 a 19 años, el 40% presenta algún riesgo de suicidio.
a) ¿Qué porcentaje de personas con riesgo de suicido hay?
b) Si se elige una persona al azar y presenta riesgo de suicidio, ¿Cuál es la probabilidad de
que sea del grupo de 15 a 19 años?
4a edición. Limusa Wiley; Méjico: 2004. Páginas 78-80.
5. A un centenar de mujeres casadas se les preguntó qué método de control natal preferían. La siguiente tabla
muestra las 100 respuestas clasificadas en referencia cruzada por nivel educativo y método de control.
Método de control natal Nivel escolar
Preparatoria Universidad Posgrado Total
(A) (B) (C)
S 15 8 7 30
T 3 7 20 30
V 5 5 15 25
W 10 3 2 15
Total 33 23 44 100
Encuentre las siguientes probabilidades:

a) P(S) b) P(VUC) c) P(A) d) P( W ) e) P ( A W )
f) P (B ) g) P(T  B) h) P (T  C )
10. En una población, la probabilidad de que un individuo, elegido aleatoriamente, se exponga a determinado
alérgeno y tenga una reacción frente al mismo es de 0.60. La probabilidad de que un individuo expuesto al
alérgeno experimente una reacción alérgica es de 0.80. Si un individuo es elegido aleatoriamente de esta
población, ¿cuál es la probabilidad de que se exponga al alérgeno?
11. Suponga que 3 por ciento de una población de adultos ha intentado suicidarse. También se sabe que 20
por ciento de esa población vive en condiciones extremas de pobreza. Si estos dos eventos son
independientes, ¿cuál es la probabilidad de que un individuo elegido aleatoriamente haya intentado suicidarse
y además viva en condiciones extremas de pobreza?
13. La probabilidad de que una persona elegida al azar de entre una población presente el síntoma
característico de una enfermedad es de 0.20 y la probabilidad de que una persona elegida aleatoriamente
presente esa enfermedad es de 0.23. La probabilidad de elegir a una persona que tenga el síntoma y también la
enfermedad es de 0.18. Si una persona elegida al azar de entre esa población no presenta el síntoma, ¿cuál es
la probabilidad de que tenga la enfermedad?
de 2023
99
Probabilidad-Walpole/Myers. Página 35 (2)

1. Si R es el evento de que un convicto haya cometido un asalto a mano armada y D, el que promoviera
el uso de las drogas, exprese en sus propias palabras qué probabilidades se indican como
a) P( R D)
b) P( D ' R)
' '
c) P( R D )
2. Una clase de física avanzada se compone de 10 alumnos de primer año, 30 del último año y 10
graduados, las calificaciones finales mostraron que 3 de los de primer año, 10 de los del último año y
5 de los graduados, recibieron una A de calificación por el curso. Si se selecciona un estudiante
aleatoriamente y se encuentra que es uno de los que obtuvo una A, ¿Cuál es la probabilidad de que él
o ella sea alumno del último año? Respuesta 5/9.
3. Un espacio muestral de 200 adultos se clasifica de acuerdo con su sexo y nivel de educación:
Educación Hombre Mujer
Primaria 38 45
Secundaria 28 50
Bachillerato 22 17
Si se selecciona aleatoriamente una persona de este grupo, encuentre la probabilidad de que
a) sea hombre dado que tiene educación de nivel secundaria. R//. 14/39
b) No tenga grado de bachillerato dado que es mujer. R//. 95/112
Probabilidad-Walpole/Myers. Página 43 (2)

4. Las probabilidades de que una gasolinera les llene los tanques a 0, 1, 2, 3, 4 ó 5 ó más carros durante
un cierto período de 30 minutos son, respectivamente, 0.03, 0.18, 0.24, 0.28, 0.10 y 0.17. Encuentre
la probabilidad de que en ese período de 30 minutos
a) más de 2 carros reciban gasolina;
b) a lo sumo 4 carros carguen gasolina;
c) 4 ó más carros lo hagan
Probabilidad-Walpole/Myers. Páginas 9, 10 y 11. (2)

5. Un experimento consiste en lanzar primeramente un dado y después una moneda siempre y cuando el
número en el dado sea par. Si el resultado del dado es non, la moneda se lanza dos veces.
Al utilizar la rotación 4H, por ejemplo, se indica el evento donde el número resultante en el dado es el 4
y la moneda cae en cara; y 3HT para señalar el evento de que el dado muestra un 3 y en la moneda se dan
una cara y una cruz.
Dibuje un diagrama de árbol para mostrar los 18 elementos del espacio muestral S.
8. Un experimento consiste en lanzar un par de dados, 1 verde y 1 rojo y registrar los números que resultan;
si X es el dado verde e Y es el dado rojo; liste los elementos (x, y) del espacio muestral y enumere los
elementos que corresponden al evento:
a) A, en que la suma sea mayor que 8.
b) B, de que ocurra un dos en cualquiera de los dados.
c) C, en que se obtiene un número mayor de 4 en el dado verde.
d) A  C
e) A  B
f) B  C
g) Dibuje un diagrama de Venn para mostrar las intersecciones y uniones de los eventos A, B y C.
9. Para el espacio muestral del ejercicio 5, enumere los elementos del evento:
a) A, el dado cae en un número menor que tres.
b) B, se obtienen dos sellos
c) Ac
d) Ac  B
e) A B
de 2023
100
13. Dibuje un diagrama de Venn para mostrar las intersecciones y uniones posibles de los siguientes eventos
relativos al espacio muestral S, el cual consta de todos los estudiantes del Reanoke Collage:
J: Un estudiante cursa el penúltimo año.
M: Un estudiante se especializa en Matemáticas.
W: Un estudiante es una mujer.
S: todos los estudiantes de Reanoke Collage.
16. Considere el espacio muestral,
S= cobre, sodio, nitrógeno, potasio, uranio, oxígeno, zinc 
Y los eventos:
A= cobre, sodio, zinc 
B =  sodio, nitrógeno, potasio 
C= oxígeno
Enumere los elementos de los conjuntos correspondientes a:
a) Ac
b) A  C
c) A  B   C
c c
d) Bc  C c
e) A B C
f) Ac  Bc   ( Ac  C )
4.5 Se eligen al azar tres deportistas de un equipo de 10 integrantes para realizar un control antidopaje; se
sabe que dos de los jugadores del equipo han tomado sustancias prohibidas. ¿Cuál es la probabilidad de elegir
para el análisis a alguno de los infractores?
14.8 REGLA MULTIPLICATIVA DE LA PROBABILIDAD DE DOS EVENTOS
 Para eventos A y B que dependen unos de otros

Teorema sobre la probabilidad de la intersección de dos eventos
Si en un experimento pueden ocurrir los eventos A y B, entonces P( A  B)  P( A) P( B A) ó
P( A  B)  P( B) P( A B)
Ejemplo1.32: Supóngase que se tiene una caja de fusibles que contiene 20 piezas, de las cuales 5 están
defectuosas. Si se seleccionan 2 al azar y se sacan de la caja en sucesión sin reemplazo del primero, ¿cuál es
la probabilidad de que ambos fusibles resulten defectuosos?
Solución
Sea A el evento de que el primer fusible esté defectuoso y B el de que el segundo fusible también; entonces
se interpreta A  B como el evento de que A ocurre, y a continuación lo hace B. La probabilidad de sacar
primero un fusible defectuoso es ¼; entonces la de extraer un segundo fusible defectuoso de los restantes 4 es
4/19. Por lo tanto,
1 4 1 4 1
Dado que P( A)  y P( B | A)  entonces, P( A  B)  P( A) P( B A)  ( )( ) 
4 19 4 19 19
Ejemplo 1.33 En una bolsa se han colocado 4 pelotas blancas y 3 negras, y en una segunda bolsa, 3 blancas y
5 negras. Se saca una pelota de la primera bolsa y, sin verla, se mete en la segunda. ¿Cuál es la probabilidad
de que la pelota que se saque de esta última sea negra?
Solución
de 2023
101
B1, B2 y W1 representan, respectivamente, los retiros de una pelota negra de la bolsa 1, una negra de la bolsa
2 y una blanca de la bolsa 1. El interés se centra en la unión de los eventos mutuamente excluyentes
B1  B2 y W1  B2 . Las distintas posibilidades y sus probabilidades se muestran a continuación,
PB1  B2 o(W1  B2 )  P( B1  B2 )  P(W1  B2 )  P( B1 ) P( B2 B1 )  P(W1 ) P( B2 W1 )

3 6 4 5 38
= ( )( )  ( )( ) 
7 9 7 9 63
Ejemplo 1.36: Se sacan tres cartas de juego en sucesión, sin reemplazo, de un paquete ordinario. Encuentre la
probabilidad de que se presente el evento A1  A2  A3 donde A1 es el evento de que la primera carta sea un
as rojo, A2 el de que la segunda sea un 10 o un jota y A3 el de que la tercera sea mayor que 3 pero menor que
7.
Solución
Primero se definen los eventos
A1: la primera carta es un as rojo.
A2: la segunda un 10 o una jota.
A3: la tercera mayor que 3 pero menor que 7.
Entonces
P (A1) = 2/52
8
P( A2 A1 ) 
51
12
P( A3 | A1  A2 ) 
50
Por el teorema se tiene que
P A1  A2  A3   P( A1 ) P( A2 | A1 ) P( A3 | A1  A2 )  (
2 8 12 8
)( )( )  .
52 51 50 5525
Ejemplo 2.3.5. Investigaciones recientes muestran que casi 49% de las infecciones se debe a bacterias
anaerobias; además, 70% de todas las infecciones anaerobias son polimicrobianas, es decir, resultan de dos o
más anaerobias. ¿Cuál es la probabilidad de que una infección dada se deba a bacterias anaerobias y también
sean polimicrobianas?
Solución
Sean, A1: el evento de que la infección es anaerobia.

A2: el evento de que la infección es polimicrobiana.
Se sabe que P (A1) = 0.49 y P (A2|A1) = 0.7, por lo tanto, P (A1  A2) = P (A1) P (A2|A1) = 0.49x0.7 = 0.343.
REGLA DE LA MULTIPLICACIÓN PARA EVENTOS INDEPENDIENTES

 Para eventos independientes entre sí
P( A  B)  P( A) P( B)
Teorema: Dos eventos son independientes si y sólo si P( A  B)  P( A) P( B)
Ejemplo 1.34: En un pequeño pueblo se dispone de un carro de bomberos y una ambulancia para casos de
emergencia. La probabilidad de que el primero esté disponible cuando se le necesite es de 0.98 y la de que la
de 2023
102
ambulancia lo esté cuando se le llame, es de 0.92. En el caso de que resulte un herido al quemarse un
edificio, encuentre la probabilidad de que tanto el carro de bomberos como la ambulancia estén disponibles.
Solución
Sean A y B los respectivos eventos de que ambos vehículos estén disponibles; se tiene que,
P( A  B)  P( A) P( B)  (0.98)(0.92)  0.9016
Ejemplo 1.35: Un par de dados se lanza dos veces. ¿Cuál es la probabilidad de obtener totales de 7 y 11?
Solución
Sean A1, A2, B1 y B2 respectivos eventos independientes de que ocurra un 7 en el primer lanzamiento, un 7 en
el segundo, un 11 en el primero y un 11 en el segundo. Lo que interesa es la probabilidad de la unión de los
eventos mutuamente excluyentes A1  B2 y B1  A2 . Por lo tanto,
P A1  B2   ( B1  A2 )  P( A1  B2 )  P( B1  A2 )  P( A1 ) P( B2 )  P( B1 ) P( A2 )
 1  1   1  1   1 
=          
 6  18   18  6   54 
Ejemplo 2.3.1. Considere el experimento de extraer dos cartas con reemplazo de un monte de 52 barajas bien
revueltas. ¿Cuál es la probabilidad de extraer una carta de picas y una carta alta?
Solución
Sean, A1: Se saca una carta de picas.

A2: se saca una carta alta (10, J, Q, K, A).
Se usa el método clásico para estimar P (A1) = 13/52 y P (A2) = 20/52. De otra parte, P (A1  A2) = 5/52.
Note que P (A1) P (A2) = (13/52) (20/52) = 5/52. Luego, P (A1  A2) = P (A1) P (A2) y se concluye que
A1 y A2 son independientes.
Teorema: Si, en un experimento, los eventos A1, A2, A3, ... Ak pueden ocurrir, entonces
P( A1  A2  A3  ...  Ak )  P( A1 ) P( A2 A1 ) P( A3 A1  A2 )...P( Ak A1  A2  ...  Ak 1 ).
Si los eventos A1, A2, A3, ... Ak son independientes, entonces
P( A1  A2  A3  ...  Ak )  P( A1 ) P( A2 ) P( A3 )...P( Ak )
Ejemplo 2.3.4. Durante un lanzamiento espacial, el sistema de cómputo primario está respaldado por dos
sistemas secundarios. Funcionan uno con independencia de los otros y cada uno es 90% confiable. ¿Cuál es
la probabilidad de que los tres sistemas sean funcionales en el momento del lanzamiento?
Solución
Sean, A1: el sistema principal funciona.
A2: el primer sistema de respaldo funciona.
A3: el segundo sistema de respaldo funciona.
De acuerdo a la información, P (A1) = P (A2) = P (A3) = 0.9. Se necesita calcular P ( A1  A2  A3 ) .
Puesto que se supone que estos sistemas son independientes, se tiene que:
P( A1  A2  A3 )  P( A1 ) P( A2 ) P( A3 )  (0.9)(0.9)(0.9)  0.729
de 2023
103
Independencia
Dos eventos son independientes si uno puede ocurrir sin importar qué pase con el otro. Por ejemplo,
considere el lanzamiento de un dado una vez y a continuación una moneda; S = {1c, 1s, 2c. 2s, 3c, 3s, 4c, 4s,
5c, 5s, 6c, 6s}. Sean,
A: El número que muestra el dado es uno o dos.
B: La moneda muestra cara.
P(A) = 4/12; P (B) = 6/12; P (A  B) = 2/12 = 1/6. Se puede observar que P (A  B) = P(A) P (B) =
(4/12) (6/12) = 24/144 = 1/6.
11. Dos cartas se sacan, una después de la otra sin reemplazo, de un paquete completo, ¿Cuál es la
probabilidad de que ambas sean mayores que 2 y menores que 8?
Definición de eventos independientes: Los eventos A1 y A2 son independientes si y sólo si P (A1  A2) = P
(A1) P (A2).
Ejemplo: considere el lanzamiento de tres monedas en forma consecutiva, ¿cuál es la probabilidad de obtener
cara en las tres monedas?
14.8 Probabilidad total
El espacio muestral se encuentra divido en k eventos disjuntos B i los cuales tienen una probabilidad conocida
a priori de tal forma que la suma de todas las probabilidades de los B i es igual a 1. Es decir,
k
ik1 Bi  S y además,  P( B )  1 . En este espacio con estas condiciones ocurre un nuevo evento A
i 1
i
que cambia las condiciones y se requiere encontrar la probabilidad de ese evento A que tiene algo en común
con todos los Bi. A la probabilidad de A se le llama la probabilidad total.
Tomado del libro Walpole/Myers (2)
Teorema 1.16 (probabilidad total) Si los eventos B1, B2, B3, ... Bk constituyen una división del espacio
muestral S, de tal forma que P ( Bi )  0 para i =1, 2, ... k entonces para cualquier evento A de S
k k
P( A)   P( Bi  A)   P( Bi ) P( A Bi )
i 1 i 1
Ejemplo 1.38: Se ha nominado a tres miembros de un club privado nacional para ocupar la presidencia del
mismo. La probabilidad de que se elija al señor Adams es 0.3; la de que se haga lo propio con el señor
Brown, de 0.5 y la de que gane la señora Cooper, de 0.2. En caso de que se elija al señor Adams, la
probabilidad de que la cuota de ingreso se incremente es de 0.8; si se elige al señor Brown o a la señora
Cooper, las correspondientes probabilidades de que se incremente la cuota son de 0.1 y 0.4. ¿Cuál es la
probabilidad de que haya un incremento en la cuota de membresía?
Solución
Considérense los siguientes eventos:
de 2023
104
A: se incrementan las cuotas de ingreso.

B1: se elige al señor Adams.
B2: se elige al señor Brown.
B3: se elige a la señora Cooper.
La probabilidad total ocurre cuando se calcula la probabilidad de que se aumenten las cuotas de membresía.
P( A)  P( B1  A)  P( B2  A)  P( B3  A)  0.37
Ejemplo 2.4. Una planta recibe reguladores de voltaje de dos diferentes proveedores B 1 y B2; el 75% de los
reguladores se compra a B1 y el resto a B2. El porcentaje de reguladores defectuosos que recibe de B 1 es 8% y
el de B2 es 10%. Determinar la probabilidad de que funcione un regulador de voltaje de acuerdo con las
especificaciones (no está defectuoso).
Solución
Sea, A: el regulador no está defectuoso. Ningún regulador de voltaje puede ser vendido tanto por B 1 como
por B2, por lo tanto, son disjuntos.
P(A) = P (A  B1) + P (A  B2) pero, P (A  B1) = P (B1) P (A|B1) y P (A  B2) = P (B2) P (A|B2) en donde
P (B1) = 0.75, P (B2) = 0.25, P (A|B1) = 0.92 y P (A|B2) = 0.9; sustituyendo,
P (A) = P (B1) P (A|B1) + P (B2) P (A|B2) = (0.75) (0.92) + (0.25) (0.9.) = 0.915.
Nótese que en este ejemplo sólo se tenían dos proveedores disjuntos B 1 y B2 pero pueden existir alternativas
disjuntas B1, B2, B3, … Bn; la probabilidad total de un resultado final, por ejemplo A, está dada por,
n
P( A)   P( Bi ) P( A | Bi )
i 1

14.9 Teorema de Bayes
El teorema de Bayes se usa para calcular la probabilidad P (A|B) cuando la información disponible no tiene
compatibilidad inmediata con lo necesario para aplicar directamente la definición de la probabilidad
condicional.
El siguiente ejemplo es un problema típico que requiere usar la regla de Bayes.
Ejemplo 2.4.1. Suponga que en 40% de los accidentes en autopistas interestatales participa la velocidad
excesiva de por lo menos uno de los conductores (evento A), y en 30%, el consumo de bebidas alcohólicas,
también al menos de uno de los conductores (evento B). En el caso de dicho consumo, existe probabilidad de
60% de que también haya velocidad excesiva, mientras que en caso contrario esta probabilidad es de apenas
10%. Ocurre un accidente con participación de exceso de velocidad, ¿cuál es la probabilidad de que participe
el consumo de bebidas alcohólicas?
Solución
A
B1 Ac
A
B2 Ac
A: Un conductor utiliza exceso de velocidad

de 2023
105
B1: Un conductor consume bebidas alcohólicas.

B2: El conductor no consume bebidas alcohólicas
El espacio muestral está dividido en dos eventos, el conductor consume bebidas alcohólicas (B 1) y no
consume bebidas alcohólicas (B2). En este espacio ocurre un nuevo evento A que es que el conductor utiliza
exceso de velocidad en cuyo caso la probabilidad de los eventos existentes B y B´ cambia por la ocurrencia
de A. Se trata entonces de calcular la probabilidad de B dado A y eso configura un problema de Bayes, lo
mismo que si se calcula la probabilidad de B´ dado A.
P (A) = 0.4 P (B) = 0.3 P (A|B1) = 0.6 y P (A|B2) = 0.1. Se pide calcular P (B1|A).
P( B1  A)
P( B1 A)  , pero, A  ( A  B1 )  ( A  B2 ) por lo tanto,
P( A)
Probabilidad total
P( A)  P( A  B1 )  P( A  B2)
P( A  B1 )  P( B1 ) P( A B1 )
P ( A  B2 )  P ( B2 ) P ( A B2 )
Regla de Bayes
La regla de Bayes actualiza la probabilidad a priori de los eventos disjuntos Bi de un espacio muestral
mediante una probabilidad a posteriori a raíz de la ocurrencia de un nuevo evento A en ese espacio muestral.
Teorema 1.17 (Regla de Bayes) Si los eventos B1, B2, B3,... Bk constituyen una división del espacio muestra
S, de tal forma que P ( Bi )  0 para i =1, 2,... k entonces para cualquier evento A en S es tal que P(A)  0
P( Br  A) P( Br ) P( A Br )
P( Br A)  k
 k
 P( B  A)  P( B ) P( A B )
i 1
i
i 1
i i
Para i= 1, 2,... k.
La regla de Bayes en el Ejemplo 1.38 ocurre cuando se responde la siguiente pregunta, Dado que se aumentan
las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido a la señora Cooper como presidenta
del club?, ¿es decir, P (B3|A) =?
Se procede de diferentes formas:
a) Una forma es identificar que los eventos disjuntos que conforman el espacio muestral son,
B1: se elige al señor Adams.

B2: se elige al señor Brown.
B3: se elige a la señora Cooper. Los cuales conforman el espacio muestral; cada uno de estos eventos
tiene su propia probabilidad de ocurrencia que se llama la probabilidad a priori (antes).
En ese espacio muestral de la elección de cualquiera de los socios a la presidencia ocurre un nuevo evento A
que consiste en que se aumentan las cuotas de membresía. Se trata entonces de actualizar la probabilidad de
ocurrencia de cualquiera d e los tres eventos a la ocurrencia de A; en este caso se pregunta por P (B 3|A).
Desde la definición de probabilidad condicional se tiene que,
de 2023
106
P( A  B3 )
P( B3 | A)  ; Para encontrar este resultado se observa que la probabilidad P ( A  B3 ) se
P( A)
tiene que hallar utilizando la regla de la multiplicación porque los eventos A y B 3 no son independientes.
Luego,
P( A  B3 )  P( B3 ) P( A | B3 ) . De la misma manera se observa que el evento A resulta de unir las
intersecciones del evento A con cada uno de los Bi que se expresa en la forma,
A  ( A  B1 )  ( A  B2 )  ( A  B3 ) y significa que con cualquiera de las personas elegidas puede
haber un aumento en las cuotas de membresía. P ( A)  P ( B1  A)  P ( B2  A)  P ( B3  A)  0.37 .
Luego,
8
P( B3 | A)  .
37
b) Otra en la cual el esquema de árbol, se inicia con los tres eventos disjuntos B i y de ellos se desprende el
evento que ocurrió, A, con su respectivo complemento. La primera trayectoria se compone de dos ramas
de izquierda a derecha, primero, P (B 1) y en la segunda rama aparece P (A|B1) para llegar a P( B1  A)
a la cual se le aplica la regla de la multiplicación porque los eventos son dependientes y se llega a
P( B1  A)  P( B1 ) P( A | B1 ) . Se procede en la misma forma con las otras dos trayectorias hasta
obtener todas las probabilidades que se muestran en el esquema. Se tiene en cuenta que la suma vertical
de las ramas complementarias suma 1; por ejemplo, P (B 1) + P (B2) + P (B3) = 1. De igual manera, P
(A|B1) + P (A´|B1) =1.
Como se dijo antes, la regla de Bayes la configura cualquier probabilidad de la forma P (B i|A).
Por ejemplo,
8
P( B3 | A)  .
37
c) Similarmente, aplicar la regla de Bayes en los siguientes dos casos:
1) Dado que se aumentan las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido
al señor Adams como presidente del club?
2) Dado que se aumentan las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido
al señor Brown como presidente del club?
Probabilidad total
P( A)  P( B1  A)  P( B2  A)  P( B3  A)  0.303
Regla de Bayes
La regla de Bayes es la probabilidad condicional de cada evento de la fila dado que ha ocurrido A. Observe que se
hace una actualización de la probabilidad del evento de la fila a la ocurrencia del evento A. Un ejemplo de regla de
P( B1  A) 0.469x0.403
Bayes es P( B1 A)    0.624
P( A) 0.303
de 2023
107
EJERCICIOS SOBRE LA REGLA DE BAYES
Probabilidad-Walpole/Myers. Ejercicios de la página 42 (2)
5. En una cierta región del país se sabe por la experiencia pasada que la probabilidad de seleccionar a
un adulto mayor de 40 años de edad con cáncer es de 0.02. Si la probabilidad de que un médico le
diagnostique correctamente a una persona con cáncer que tiene la enfermedad es de 0.78 y la de que
se equivoque, de 0.06, ¿cuál es la probabilidad de que a una persona se el diagnostique cáncer?
Sugerencia:
A: diagnóstico de cáncer. A : Diagnóstico incorrecto de cáncer.
B1: Adulto mayor de 40 años con cáncer.
B2: Adulto mayor de 40 años sin cáncer
Hallar también P( B1 A) que es la regla de Bayes.
6. La policía planea reforzar el respeto a los límites de velocidad mediante la utilización de sistema de
radar en 4 diferentes sitios dentro de la ciudad. Los sistemas de radar en cada sitio L 1, L2, L3 y L4 se
ponen a funcionar, respectivamente, el 40%, 30%, 20% y 30% del tiempo, y si una persona que
conduce a gran velocidad rumbo a su trabajo tiene, respectivamente, las probabilidades de 0.2, 0.1,
0.5 y 0.2 de pasar por alguno de estos sitios, ¿cuál es la probabilidad de que le levanten una multa?
Sugerencia:
A: le levantan una multa.

B1: pasa por L1.
B2: pasa por L2.
B3: pasa por L3
B4: pasa por L4
Hallar también P( B1 A) que es la regla de Bayes.
Ejercicios tomados de: Rius F, Barón F. Bioestadística. Thomson. España; 2005. Páginas 92 y 93
4.3 La proporción de alcohólicos en la población de Málaga es, aproximadamente, un 10 %; no obstante, en

las bajas que dan los médicos de Seguridad Social difícilmente se encuentra el diagnóstico de alcoholismo.
Aparecen, sin embargo, diagnosticados de hepatopatías, lumbalgias, etc., que pueden hacer sospechar
alcoholismo subyacente. Se realizó un estudio que puso de manifiesto que el 85 % de los individuos
alcohólicos y el 7 % de los no alcohólicos, sufrían tales patologías. Se desea saber cuál es la probabilidad de
que un individuo con esas patologías sea realmente alcohólico.
4.10 Sabemos que tiene estudios superiores el 15 % de la población española, estudios medios, el 40 %,
estudios primarios el 35 % y no tiene estudios el 10 %. Los desempleados no se distribuyen
proporcionalmente entre esas categorías, dado que entre los de estudios superiores están sin trabajo el 10%,
entre los de estudios medios el 35 %, entre los de estudios primarios el 18 %, y entre los que no tienen
estudios el 37 %. Obtenga las probabilidades de que extraído uno al azar, éste sea:
a) Titulado superior, sabiendo que está desempleado.
b) Un sujeto sin estudios que está en paro.
c) Un sujeto con estudios primarios o que está trabajando.
4.11 Una enfermedad puede estar producida por tres virus A, B y C. En el laboratorio hay tres tubos de
ensayo con el virus A, dos con el virus B y cinco tubos con el virus C. La probabilidad de que el virus A
produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el virus C es de 1/7. Se
inocula un virus a un animal y contrae la enfermedad. ¿Cuál es la probabilidad de que el virus que se inocule
sea el C?
de 2023
108
4.12 El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba otra asignatura B. Sabemos,
además, que un 35 % del total aprueba ambas. Elegido un estudiante al azar, calcular las probabilidades de las
siguientes situaciones:
a) Haya aprobado la asignatura B, sabiendo que ha aprobado A.
b) Haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
d) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
Ejercicios tomados de: Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud.
H. PROYECTOS DE AULA
GUÍA DIDÁCTICA POR COMPETENCIAS N°2-SOBRE LA FACTURA DE EPM
Programa Administración en Servicios de Salud

Curso Estadística y probabilidad
Código
Créditos
Contenido Temático
Competencia Manejar los métodos y procedimientos usados por quienes trabajan con la estadística
aplicada en la determinación de políticas de salud pública, epidemiología, toma de
decisiones, negocios, mercadeo, psicología y sociología.
Horas presenciales 64
Horas de trabajo
independiente
IDENTIFICACIÓN DE RESPONSABLES
Profesor Ramón Eugenio Paniagua Suárez

Responsable:
Oficina 206
E-mail ramon.paniagua@udea.edu.co
Horario de clase Viernes-sábado
Horario de atención
a estudiantes
Profesores que
acompañan el
proceso
1. CONTEXTUALIZACIÓN
El programa de Administración de Servicios de promueve la formación investigativa, con fundamentos
estratégicos que permiten la toma de decisiones oportunas y anticipadas, garantizando el posicionamiento
estratégico de una empresa.
El egresado puede desempeñarse en dirigir y gerenciar productivamente empresas dentro del sistema de
protección social. Concebir, formular, ejecutar y evaluar estrategias de empresas en las instituciones del sector
salud. Trabajar en entidades que velen por la responsabilidad social empresarial.
2. PREGUNTA (TÓPICO GENERATIVO)

Una gran ciudad como Medellín tiene coberturas en los servicios públicos domiciliarios que superan el 90% en
conexión. Para la economía de una familia, el pago de la factura de servicios públicos domiciliarios se convierte
de 2023
109
en una prioridad que tiene un gran peso en su canasta familiar. Los servicios públicos domiciliarios tienen un
sistema de información muy eficiente que ha sido construido y administrado por las Empresas Públicas de
Medellín, EPM, las cuales ofrecen y facturan el servicio de energía, alcantarillado, acueducto y gas; dentro de este
sistema existen las viviendas ubicadas en zonas de alto riesgo las cuales no están conectadas al servicio y otras
viviendas que son desconectadas por falta de pago de las facturas, EPM; esta dinámica ha hecho que se ofrezca a
los usuarios un servicio bancario de refinanciación del pago de las facturas o la venta unidades de sus servicios en
una modalidad de cobro anticipado. Se paga antes de consumir a diferencia del servicio regular en el cual se paga
en forma mensual las facturas de los servicios una vez consumidos.
La mayoría de los usuarios no sabe cómo se calculan o cómo se leen las facturas de EPM, a pesar de que la
empresa ha mejorado sustancialmente la información que se consigan en su factura. Existe publicidad de la
empresa para que se aprenda a realizar un uso adecuado de los servicios para que el costo de la factura no sea alto.
Se enseña a los usuarios a utilizar la conexión de los electrodomésticos y se sanciona el uso desmedido del agua.
Las viviendas en las ciudades de Colombia están organizadas en manzanas, las cuales según el Departamento
Nacional de Estadística, tienen 40 viviendas y para sus estudios poblacionales consideran al segmento como una
medida de tamaño formada por 10 viviendas. Se excluyen los locales comerciales y los institucionales de
cualquier tipo. Las manzanas no tienen necesariamente la forma rectangular al igual que el segmento. Se toma
como manzana al conjunto de 40 viviendas y al segmento al conjunto de 10 viviendas.
En el marco propuesta por la FNSP de trabajar los cursos para desarrollar competencias en los estudiantes, esta
guía didáctica permite que los estudiantes desarrollen capacidades para analizar y proponer y sustentar decisiones
con base en la información presentada en un problema que debe resolverse en una comunidad o contexto
particular.
¿Qué decisión puede usted tomar con la situación de su manzana, presentada en la facturación de EPM?
Sustente su decisión.
3. COMPETENCIAS A DESARROLLAR- (METAS DE COMPRENSIÓN)
 Comprender la naturaleza de las variables y su análisis estadístico.

 Manejar información estadística e interpretarla.
 Presentar informes detallados con sustento en la estadística.
 Proponer decisiones con base en la información estadística.
4. CONTENIDOS
1. Población.
2. Variable
3. Naturaleza y niveles de medición.
4. Variable dependiente y variable independiente
5. Estadísticos descriptivos para las variables cualitativas
6. Estadísticos descriptivos para las variables cuantitativas
7. Gráficos según la naturaleza de las variables-
5. TAREAS ( DESEMPEÑOS DE COMPRENSIÓN)
-Producir un informe descriptivo de acuerdo a la naturaleza de las variables en consideración y diseñar las
conclusiones acerca de la propuesta.
- Proponer la ruta de mejoramiento para el segmento analizado.
-Sustentar las decisiones administrativas y políticas propuestas.
-Realizar una presentación en Power Point y sustentarla ante sus compañeros.
6. PROCESO EVALUATIVO Y RESULTADOS DE APRENDIZAJE (EVALUACIÓN

DIAGNÓSTICA CONTINUA)
-Comprendió la naturaleza de las variables y su análisis estadístico.

de 2023
110
-Manejó información estadística e interpretó los datos.

-Presentó informe detallado con sustento en la estadística.
-Sustentó las decisiones propuestas con base en la información estadística.
-Propuso una ruta de mejoramiento sobre la situación del segmento analizado.
-Presentó en PowerPoint de manera coherente y sustentó las decisiones propuestas.
-Realizó el informe descriptivo de acuerdo a la naturaleza de las variables en consideración y diseñó las
conclusiones en consonancia con la propuesta.
7. BIBLIOGRAFÍA Y CIBERGRAFÍA
 Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación estadística.
Méjico: McGraw-Hill; 2002.
 Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición. Limusa
Wiley. México; 2004.
 Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España: McGraw-Hill;
2001.
 Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
 Castillo M, Isabel. Guijarro G., Marta. Estadística descriptiva y cálculo de probabilidades.
1ªedición.Pearson, Prentice hall; 2006.
 Grisales Romero Hugo. Estadística Aplicada en Salud Pública: Estadística Descriptiva y
Probabilidad. Editorial L-Vieco e Hijas. 2002.
ACTIVIDADES QUE DEBE DESARROLLAR EN EL TRABAJO
• Debe ubicar una manzana en la ciudad de Medellín, de la cual elaborará un mapa a mano alzada para
definir en ella el segmento con 10 viviendas.
• Se ubica en la esquina nororiental y empieza, en el sentido de las manecillas del reloj a ubicar 10
viviendas.
• En cada vivienda recogerá la siguiente información:
Número del contrato; valor de los cuatro servicios básicos: acueducto (anterior y actual); alcantarillado
(anterior y actual); energía (anterior y actual); gas (anterior y actual); ¿Hay personas con discapacidad en la
vivienda? 1. Sí, 2. No; ¿Hay estudiantes en la vivienda? 1. Sí, 2. No. ¿Hay adultos mayores en la vivienda? 1.
Sí, 2. No.
La anterior información la consigna en la siguiente tabla:
#contrato Acueducto Alcantarillado Energía Gas Discapa Estu Adultos
Anterior Actual Anterior Actual Anterior Actual Anterior Actual
• Analiza la información recogida y responde a la pregunta que se formuló en este Proyecto para la
manzana.
• Elabora un informe escrito y prepara una exposición frente a sus compañeros.
de 2023
111
GUÍA DIDÁCTICA POR COMPETENCIAS N°1- UNA SUBZONA GEOGRÁFICA
Programa Administración Sanitaria y Ambiental
Curso ESTADÍSTICA Y PROBABILIDAD

Código
Créditos
Contenido Temático
Competencias ●Administración de salud ambiental.
●Gestión y generación de conocimiento en salud
ambiental y sanitaria.
Horas presenciales 64
Horas de trabajo independiente
IDENTIFICACIÓN DE RESPONSABLES
Profesor Responsable: Ramón Eugenio Paniagua Suárez
Oficina 206
E-mail ramon.paniagua@udea.edu.co
Horario de clase M-J 14-16
Horario de atención a estudiantes M-J de 8 a 10 am
Profesores que acompañan el proceso
7. CONTEXTUALIZACIÓN
El Administrador Ambiental y Sanitario es un profesional que, de manera integral y estratégica, responde a las
demandas de transformación y mejoramiento de la sociedad mediante intervenciones y aportes significativos en
sus procesos y trayectorias de desarrollo, con una orientación eminente hacia el desarrollo humano, la
sostenibilidad ambiental y la presencia de lo público, en el marco de la salud ambiental.
La Administración aplicada al desarrollo humano social sostenible a partir de la solución de problemas
ambientales, de salud ambiental y por ende de la salud pública, así como al aprovechamiento de las oportunidades
inherentes al capital ambiental y despliegue de las potencialidades humanas y del territorio.
La administración científica está basada en modelos matemáticos y se apoya en sistemas de información
gerenciales construidos desde la matemática aplicada en un campo del conocimiento que se llama la investigación
de operaciones. La estadística forma parte de este campo del conocimiento que le permite a un administrador
ambiental y sanitario, obtener diferentes fotografías de la realidad para luego tomar decisiones adecuadas para
mejorar la calidad de vida de las poblaciones mediante la intervención de los fenómenos que tienen que ver con la
salud pública.
8. PREGUNTA (TÓPICO GENERATIVO)
“Una cuenca hidrográfica es una zona geográfica drenada por una corriente de agua. Este concepto se aplica a
varias escalas, que van desde una superficie agrícola atravesada por un arroyo (microcuenca) hasta las grandes
cuencas fluviales (o cuencas lacustres). Una cuenca fluvial suele comprender un complejo sistema de cuencas y
microcuencas hidrográficas atravesadas por un río principal y sus afluentes, en su curso desde su origen (su
“fuente”) hasta su desembocadura (y una cuenca lacustre se puede definir como una zona geográfica atravesada
por una corriente de agua que desemboca en un lago). Dado que los suelos y la vegetación están estrechamente
vinculados al ciclo del agua, las cuencas hidrográficas constituyen la unidad de planificación más útil para llevar a
cabo una gestión integrada del agua y de la tierra.
de 2023
112
Las cuencas hidrográficas cumplen importantes funciones y servicios como, entre otros, los siguientes: el
suministro de agua dulce (especialmente las cuencas hidrográficas de las tierras altas);
la regulación del flujo del agua; el mantenimiento de la calidad del agua; el suministro y la protección de de los
recursos naturales para las poblaciones locales; protección frente a peligros naturales (por ejemplo, inundaciones y
desprendimientos de tierra locales); el suministro de energía (como la energía hidroeléctrica); conservación de la
biodiversidad; y recreación.
Las zonas hidrográficas son también conocidas como las cuencas hidrográficas las cuales por su definición son las
áreas de influencia de la red hidrológica de un río. Las Subzonas son la categoría dada a estas mismas áreas de
influencia de la red hidrológica a una escala o jerarquía menor ya que son de los ríos tributarios” (1).
VARIABLES DE REFERENCIA PARA EL ANÁLISIS
Ubicación geográfica
Elementos que la conforman (tierra, fauna, flora, agua)
Temperatura ambiente
Longitud
Altitud,
Hay presencia de viviendas (Sí, No)
Está en el sector urbano
El agua es apta para el consumo humano (Sí, No)
Se utiliza para bienestar de la población (Sí, no)
El estado de salud de la zona geográfica es adecuado (Sí, no)
Tiene intervención estatal (Sí, no)
Es un referente turístico (Sí, No)
El sistema de información sobre ella es adecuado (Sí, No)
¿La subzona geográfica desde las variables observadas favorece la calidad de vida de los habitantes de
la zona circundante? Sustente su decisión.
9. COMPETENCIAS A DESARROLLAR- (METAS DE COMPRENSIÓN)

 Comprender la naturaleza de las variables y su análisis estadístico.
 Manejar información estadística e interpretarla.
 Presentar informes detallados con sustento en la estadística.
 Proponer decisiones con base en la información estadística.
10. CONTENIDOS
1. Población.
2. Variable
3. Naturaleza y niveles de medición.
4. Variable dependiente y variable independiente
5. Estadísticos descriptivos para las variables cualitativas
6. Estadísticos descriptivos para las variables cuantitativas
7. Gráficos según la naturaleza de las variables-
11. TAREAS ( DESEMPEÑOS DE COMPRENSIÓN)
-Producir un informe descriptivo de acuerdo a la naturaleza de las variables en consideración y diseñar las
conclusiones acerca de la propuesta.
- Proponer la ruta de mejoramiento para la subzona analizada.
-Sustentar las decisiones administrativas y políticas propuestas.
-Realizar una presentación en Power Point y sustentarla ante sus compañeros.
12. PROCESO EVALUATIVO Y RESULTADOS DE APRENDIZAJE (EVALUACIÓN

DIAGNÓSTICA CONTINUA)
-Comprendió la naturaleza de las funciones y su análisis.

de 2023
113
-Manejó información e interpretó los datos.

-Presentó informe detallado con sustento en lo sanitario y ambiental.
-Sustentó las decisiones propuestas con base en la información.
-Propuso una ruta de mejoramiento sobre la situación de la subzona analizada.
-Presentó en PowerPoint de manera coherente y sustentó las decisiones propuestas.
7. BIBLIOGRAFÍA Y CIBERGRAFÍA
 (1): Organización Mundial de la Salud. http://www.fao.org/sustainable-forest-
management/toolbox/modules/watershed-management/basic-knowledge/es/. Consultado el 6 de
diciembre de 2019.
 Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación estadística.
Méjico: McGraw-Hill; 2002.
 Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición. Limusa
Wiley. México; 2004.
 Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España: McGraw-Hill;
2001.
 Castillo M, Isabel. Guijarro G., Marta. Estadística descriptiva y cálculo de probabilidades.
1ªedición.Pearson, Prentice hall; 2006.
ACTIVIDADES QUE DEBE DESARROLLAR EN EL TRABAJO

 Debe ubicar una subzona geográfica en la ciudad de Medellín o en su municipio de residencia, de la
cual tendrá una fotografía o un mapa.
 Observa cada una de las siguientes variables: ubicación geográfica; elementos que la conforman
(tierra, fauna, flora, agua), temperatura ambiente, longitud, altitud, hay presencia de viviendas, está
en el sector urbano, el agua es limpia, se utiliza para bienestar de la población, el estado de salud de
la zona geográfica es adecuado, tiene intervención estatal, es un referente turístico, el sistema de
información sobre ella es adecuado
 Analiza la información recogida y responde a la pregunta ¿la situación de su subzona geográfica
desde las variables observadas favorece la calidad de los habitantes de la zona circundante? Sustente
su decision.
 Elabora un informe escrito y prepara una exposición frente a sus compañeros.

de 2023 PROGRAMA OFICIAL DE CURSO
(Pregrado y Posgrado) 114
UNIVERSIDAD DE ANTIOQUIA
1. INFORMACIÓN GENERAL
Unidad Académica: Facultad Nacional de Salud Publica
Programa académico al que pertenece: Administración de Servicios de Salud
Programas académicos a los cuales se ofrece el curso: AAS, AS, GESIS
Vigencia: 2022-1 Código curso: 7017202
Nombre del curso: Estadística Descriptiva y Probabilidad
Área o componente de formación del currículo: Básica
Tipo de curso: Teórico - práctico Créditos académicos6: 03
Características del curso: Validable ☒ Habilitable ☒ Clasificable ☐ Evaluación de suficiencia ☐
Modalidad del curso: Presencial
Pre-requisitos: Matemáticas Operativa 7017102
Co-requisitos: Ninguno
Horas docencia directa: 64 Horas de trabajo independiente: 96
Horas totales del curso: 160

Profesor(a) que elaboró: Correo electrónico:
Ramón Eugenio Paniagua Suárez ramon.paniagua@udea.edu.co
2. INFORMACIÓN ESPECÍFICA
Descripción general y justificación del curso:

Descripción general del curso: en este curso el estudiante debe recibir una formación básica en el análisis
estadístico de las variables cuantitativas y cualitativas presentadas en diferentes contextos: ejercicios de un libro,
en una base de datos o en la elaboración de una encuesta. Debe aprender a producir informes con gráficas, tablas
y textos que expliquen el fenómeno de salud pública en consideración. Aprenderá a utilizar la calculadora, un
aplicativo móvil y el software estadístico SPSS. Sabrá como relacionar dos variables cuantitativas, dos cualitativas.
Conocerá las probabilidades que se generan desde la realización de un experimento estadístico, sus axiomas,
reglas y propiedades para aplicarlas a un fenómeno de salud pública.
6
El número de créditos y la intensidad horaria debe estar acorde con el plan de estudios del programa para el que fue
diseñado el curso.
de 2023
115
Objetivo general:
Promover la formación investigativa, con fundamentos estratégicos que permiten la toma de decisiones oportunas y anticipadas,
garantizando el posicionamiento estratégico de una empresa.
Objetivos específicos:
 Distinguir la naturaleza de las variables y su análisis estadístico.
• Relacionar dos variables cuantitativas o cualitativas.
• Sintetizar la información en tablas o gráficas.
• Producir información estadística e interpretarla.
• Presentar informes detallados con sustento en la estadística.
• Proponer decisiones con base en la información estadística.
• Demostrar experticia en el manejo estadístico de las variables en el software R.
• Calcular probabilidades a eventos que se definan en fenómenos de la realidad
• Operar los ejercicios de probabilidad con las reglas apropiadas.
Contenido:
Unidad No. 1. Fundamentos básicos de la estadística.
Unidad No. 2. Cálculo de proporciones, porcentajes y razones.
Unidad No. 3. Estadística descriptiva.
Unidad No. 4. Introducción a la teoría de probabilidades.
Unidades: Temas: Subtemas:
● Definición de estadística, estadística descriptiva,
probabilidad y estadística inferencial.
● Conceptos básicos: población, muestra, estimador,
Fundamentos básicos parámetro, unidad de medida.
Unidad No. 1 de la estadística. ● Naturaleza y niveles de medición de las variables en
(Fechas: mayo 12) estadística
● Técnicas de recolección de información primarias y
secundarias (encuesta, observación y bases de datos)
Proyecto de aula- guía didáctica: i) explicación del análisis
de las facturas de EPM sobre el consumo de cuatro
servicios básicos domiciliarios en 10 viviendas de una
manzana del municipio; ii) explicación del proyecto de aula
sobre una subzona geográfica.
Unidad No. 2 Cálculo de

proporciones, ● Definición de proporción, porcentaje, razón, tasa.
de 2023
116
porcentajes y razones. ● Reglas de redondeo en las proporciones.

(Fechas: mayo 12) ● Cálculo de proporciones y porcentajes en la
calculadora.
● Desde la población total según grupo de edad y sexo
del censo de población del 2005 se obtienen: porcentaje
de población adolescente, porcentaje de población en
edad de trabajar, porcentaje de población adulta mayor,
razón de dependencia, índice de masculinidad, razón
niños-mujer.
● Porcentaje de incremento.
● Análisis estadístico manual de una encuesta con

variables cualitativas.
● Tablas de contingencia.
Estadística descriptiva
● Cálculo de una razón de prevalencia desde una tabla
Unidad No. 3 (Fechas: mayo 13, 19 2x2
y 20) ● Producción de un informe final.
● Manejo del R
● Análisis de una encuesta en R.
 Presentación del proyecto de aula sobre las

Fechas: mayo 26 y 27 facturas de EPM o de la subzona geográfica.
 Presentación del primer examen parcial.
• Introducción a las probabilidades

• Experimento, espacio muestral, evento, cálculo de
probabilidades.
• Tipos de eventos: excluyentes y no excluyentes;
Introducción a la Teoría
complementarios, dependientes e independientes.
Unidad No. 4 de Probabilidades
• Regla de la adición en el cálculo de probabilidades.
(Fechas: junio 2, 3, 9,
 Probabilidad condicional
10, 16 y 17)
 Regla de la multiplicación.
 Regla de Bayes
 Ejercicio
3. METODOLOGÍA
El curso tiene una modalidad presencial y virtual según las condiciones del contexto y las decisiones de los
administrativos, lo permitan; se programarán sesiones de cuatro y seis horas en las fechas que se agendan en el
cronograma. EL PROFESOR ENTREGARÁ A CADA ESTUDIANTE LAS NOTAS DEL CURSO EN UN DOCUMENTO
IMPRESO. En las sesiones, el profesor realizará ejercicios desde esas notas en compañía de los estudiantes.
También el profesor apoyará estas actividades con asesorías individuales mediante reuniones en Meet o
presencialmente, cuando el estudiante lo requiera. Se enviarán algunos videos elaborados por el profesor en el
tema de probabilidades.
de 2023
117
En cada tema, se explicará teóricamente cada uno de los conceptos del curso y luego se realizarán ejercicios por
parte de los estudiantes quienes deben complementar este trabajo con otro asignado extra clase. El trabajo en
clase puede ser realizado en grupo por los estudiantes, pero las actividades de evaluación requieren que cada
estudiante asuma una responsabilidad individual.
Se desarrollarán evaluaciones formativas o autoevaluaciones, la cuales se solucionarán en clase. Fuera del horario
de clase el estudiante también tendrá la posibilidad de consultar la información del curso que se encuentra
disponible en la Internet, la cual es una alternativa didáctica de las clases presenciales.
La solución de los ejercicios propuestos en los exámenes individuales requiere que las respuestas estén justificadas
con los respectivos procedimientos matemáticos.
El manejo del software estadístico R es oficial para los profesores del grupo de estadística de la Facultad Nacional
de Salud Pública. Los estudiantes deben expresar alguna habilidad en su manejo, a lo largo del curso al igual que el
manejo de la calculadora CalES desde su teléfono celular.
Lineamientos didácticos y escenarios
Unidad No.1. Se desarrolla una conceptualización sobre salud pública, sistemas de información e investigación con
base en la experiencia y las notas recogidas en los congresos de salud pública por parte del profesor que ofrece el
curso. Esto le da el contexto a la salud pública dentro del curso. Se definen algunos conceptos básicos de la
estadística que aportan en el desarrollo de los proyectos de aula del curso.
Unidad No.2. Se inicia el cálculo de las fracciones desde una de las operaciones básicas de la aritmética, para
introducir suavemente al estudiante en el manejo de la calculadora, de las fracciones, de las proporciones,
porcentajes y razones para allanar el camino hacia la realización e interpretación de tablas de frecuencia cuando
se esté analizando manualmente una encuesta.
Unidad No.3. El centro del curso es el capítulo de estadística descriptiva y con él se pretende introducir al
estudiante en el manejo de unos análisis generales para las variables continuas y discretas presentes en los
fenómenos de salud pública. Se trabaja la conceptualización básica común a cualquier curso de estadística
descriptiva, pero se le da un énfasis en salud pública con el análisis de una encuesta recogida en una investigación
realizada por el profesor oferente del curso.
Unidad No.4. Se introduce al estudiante en el manejo de los conceptos básicos introductorios de cualquier curso
de probabilidad, rematando el curso con la regla de Bayes y la probabilidad de total de amplia utilización en el
sector financiero para estimar riesgos en los clientes.
SE ADELANTARÁN DOS PROYECTOS DE AULA en los cuales la responsabilidad de los estudiantes puede ser
compartida en su evaluación con otro compañero.
El primero de los proyectos de aula es sobre una subzona geográfica, con las siguientes actividades:
• Debe ubicar una manzana en el municipio de residencia, de la cual elaborará un mapa a mano alzada para definir
en ella el segmento con 10 viviendas.
• Se ubica en la esquina nororiental y empieza, en el sentido de las manecillas del reloj a ubicar 10 viviendas.
• En cada vivienda recogerá la siguiente información:
Número del contrato; valor de los cuatro servicios básicos: acueducto (anterior y actual); alcantarillado (anterior y
actual); energía (anterior y actual); gas (anterior y actual); ¿Hay personas con discapacidad en la vivienda? 1. Sí, 2.
No; ¿Hay estudiantes en la vivienda? 1. Sí, 2. No. ¿Hay adultos mayores en la vivienda? 1. Sí, 2. No.
La anterior información la consigna en la siguiente tabla:
#contrato Acueducto Alcantarillado Energía Gas Discapa Estu Adultos
Anterior Actual Anterior Actual Anterior Actual Anterior Actual
• Analiza la información recogida y responde a la pregunta que se formuló en este Proyecto para la
manzana.
• Elabora un informe escrito y prepara una exposición frente a sus compañeros. •Elabora un informe escrito
y prepara una exposición frente a sus compañeros.
El segundo proyecto de aula es el análisis de una encuesta aplicada en Turbo sobre salud mental en los hogares y
de 2023
118
las condiciones de vida de los jefes de hogar. Información recogida en el 2015 y que debe ser analizada utilizando
el software estadístico R.
Observaciones
●Se deben realizar las lecturas previas a cada sesión de clase. Son lecturas individuales, por fuera del aula de clase,
que abordan aspectos de interés del tema en cuestión y están contenidas en las notas del curso.
●Los exámenes evaluarán aspectos teóricos y prácticos, a través de preguntas de selección múltiple,
apareamiento, falso o verdadero, completación y problemas a resolver. Cada respuesta debe estar sustentada por
un procedimiento matemático. El examen final será acumulativo de todos los temas del curso.
●Para las prácticas, es necesario el uso de un software, el teléfono celular y una calculadora.
Actividad de evaluación Porcentaje Fecha

Examen teórico practico (Individual) 20 7-jun.-2023
Proyecto de aula, facturas de EPM (en parejas) 20 14-jun.-2023
Examen parcial 2 20 12-jul-2023
Análisis de una encuesta en R (en parejas) 20 21-jul.-2023
Examen final 20 6-sept.-2023
Actividades de asistencia obligatoria7:

Todas las actividades son de asistencia obligatoria.
Bibliografía:
Unidad No. 1 Fundamentos básicos de la estadística
 Vargas Franco Viviana. Estadística descriptiva para ingeniería ambiental con SPSS.
Universidad Nacional de Colombia. Sede Palmira. Cali, Colombia; 2007.
 Aburto Galván César. Elementos de bioestadística: Métodos estadísticos para
investigación. 3 ed. Barcelona, Herder, 1980. 642p
 Triola M. Estadística. 10a edición. Editorial Pearson. México 2009
Unidad No. 2 Cálculo de proporciones, porcentajes y razones.

 Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación
estadística. Méjico: McGraw-Hill; 2002.
 Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición.
Limusa Wiley. México; 2004.
 Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España:
McGraw-Hill; 2001.
Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
Unidad No. 3 Estadística descriptiva
7
De conformidad con el artículo 30 del Acuerdo Superior 432 de 2014, cuando un estudiante supere el 30% de faltas de
asistencia en un curso sin causa justificable legalmente, reprobará por inasistencia y se calificará con una nota de cero,
cero (0.0)
de 2023
119
McGraw-Hill; 2001.
Unidad No. 4 Introducción a la teoría de probabilidades


McGraw-Hill; 2001.
 Triola M. Estadística. 10a edición. Editorial Pearson. México 2009.
Bibliografía básica:
Unidad No. 1 Fundamentos básicos de la estadística

 Vargas Franco Viviana. Estadística descriptiva para ingeniería ambiental con SPSS.
Universidad Nacional de Colombia. Sede Palmira. Cali, Colombia; 2007.
 Aburto Galván César. Elementos de bioestadística: Métodos estadísticos para
investigación. 3 ed. Barcelona, Herder, 1980. 642p
Unidad No. 2 Cálculo de proporciones, porcentajes y razones.

 Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación
estadística. Méjico: McGraw-Hill; 2002.
McGraw-Hill; 2001.
Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
Unidad No. 3 Estadística descriptiva

de 2023
120
McGraw-Hill; 2001.
Unidad No. 4 Introducción a la teoría de probabilidades

McGraw-Hill; 2001.
 Triola M. Estadística. 10a edición. Editorial Pearson. México 2009.
BIBLIOGRAFÍA COMPLEMENTARIA por unidades:
Unidad No. 1 FUNDAMENTOS BÁSICOS DE LA ESTADÍSTICA

● Martínez Miguel. Bioestadística amigable. Díaz de Santos. España 2006-
● Pardo A, Ruiz M. Análisis de datos con SPSS 13 Base. Mc Graw-Hill. Madrid; 2005.
● Elston R, Johnson W. Principios de Bioestadística. El manual moderno. México-Santafé de
Bogotá; 1990.
Marqués de Cantú, Ma José. Probabilidades y Estadística. Para Ciencias Químico-Biológicas.
Editorial McGraw-Hill. 1991.
Unidad No. 2 ESTADÍSTICA DESCRIPTIVA
● Visauta Bienvenido. Análisis estadístico con SPSS: estadística básica. 3ª edición. Mc Graw-Hill.
Madrid.200
● Marqués de Cantú, María José. Probabilidades y Estadística. Para Ciencias Químico-Biológicas.
Editorial McGraw-Hill 1991.
4. Profesores
Formación en Unidad N°
Nombres y Apellidos Dependencia Fechas
pregrado y posgrado N° Horas
Matemático, 64
Ramón Eugenio
Salud Pública Magíster en salud
Paniagua Suárez
pública
5. Aprobación del Consejo de Unidad Académica
Aprobado en Acta número del Haga clic aquí o pulse para escribir una fecha...
Edwin Rolando González

Marulanda Vicedecano
Nombre Completo secretario del
Consejo de la Unidad Académica Firma Cargo
de 2023
121

Notas de Estadística-2023

Cargado por

Copyright:

Formatos disponibles

Notas de Estadística-2023

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Estadística-2023

Cargado por

Copyright:

Formatos disponibles

Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública.

NOTAS DE ESTADÍSTICA Y PROBABILIDAD

EUGENIO PANIAGUA SUÁREZ

FACULTAD NACIONAL DE SALUD PÚBLICA

1.2 El concepto de salud

1.3 Conceptos de salud pública

2. LOS SISTEMAS DE INFORMACIÓN EN LA SOCIEDAD

El resultante de un buen funcionamiento de SI es que mucha información interpretada se difunde dentro de la

Un ciclo para los SI va de la ciencia de la computación en un extremo a la psicología en el otro. La ciencia

3. LOS ENFOQUES CUALTITATIVO Y CUANTITATIVO EN LA INVESTIGACIÓN

Todos los docentes de la Universidad de Antioquia, somos responsables de la formación y acompañamiento

Método cuantitativo Método

En la investigación con método cuantitativo, que es el centro en un curso de estadística, el instrumento

4. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA

4.4 Los experimentos estadísticos

En la investigación con enfoque cuantitativo, el instrumento de recolección de la información es la encuesta;

Numerador Parte Número.de. personas.u.objetos.en.una.categoría

Ejercicio 1. Cálculo de porcentajes

Censo de 1993 Censo de 2005

Clasificación de la población colombiana en el SGSSS

Tabla 1. Porcentaje de población total de Colombia según los censos.

Censo Menores de 15 años Entre 15 y 64 años Mayores de 65 años

Tabla 2. Razón de dependencia en Colombia según los censos.

Censo Razón por 100

Una de cada cinco personas en Colombia, es adolescente (Tabla 3).

Tabla 3. Porcentaje de población adolescente en Colombia según los censos.

¿Cómo graficar la pirámide poblacional en Excel?

K: constante que da validez al cociente (102, 103, …).

Tabla 6. Algunos indicadores demográficos según comuna de Medellín.

AÑO 2005 AÑO 2006

6. PRÁCTICA 1. EJERCICIOS DE PORCENTAJES

a. Con base en el total, las proporcionalidades de cada clase

a) 99.99500 b) 46.40501 c) 2.96500

8. Usando los datos de la tabla siguiente, responder a las siguientes preguntas:

Área Académica Hombres Mujeres

Varones no agresivos Varones agresivos Total

12. La matrícula de una universidad, en el quinquenio 1979 -1983, fue:

a. El porcentaje de cada estamento con base en el total de la nómina.

a. Con base en el año anterior

AÑO CAFE OTROS

7.1 CLASIFICACIÓN DE LAS VARIABLES

7.2 IDENTIFICACIÓN DE VARIABLES3

Nombre de la Variable Descripción Naturaleza Nivel de Medida

7.3 VARIABLE DEPENDIENTE Y VARIABLE INDEPENDIENTE

Ejercicio 2. Encontrar mínimo diez variables independientes para la variable dependiente en

Considere como variable dependiente el rendimiento académico de un estudiante de la Universidad de

Variable dependiente: RENDIMIENTO ACADÉMICO DE UN ESTUDIANTE DE LA UDEA

Cuadro 2-2 Ejemplos de variables dependientes e independientes en estudios cuantitativos de ciencias de la

PREGUNTA DE INVESTIGACIÓN VARIABLE VARIABLES

Ejercicios 3. Sobre variables y conceptos

a) ¿Sería ésta una medición válida para el nivel de salud? Explique.

b) ¿Sería inteligente que alardeara de su pequeño error de muestreo? Explique.

Uno de cada dos adolescentes tiene algún riesgo de suicidio (Figura 2)

Nivel de riesgo de orientación suicida

Figura 4. Histograma del puntaje de depresión en adolescentes escolarizados de la zona nororiental de

Puntaje total bruto Número de ítems críticos marcados Riesgo de suicidio

Sexo del estudiante

Casos ponderados por Inverso del peso del colegio en el estrato

Gráfico P-P Normal de RiesgoS

Prob acum observada

5. ¿Da algún uso a las aguas lluvia? Si_, no____. ¿Cuál?

L.S. = ORe1.96sqrt(1/a + 1/b+1/c +1/d)

OR= (87)/(235) = 0.486956