Notas de Estadística-2023
Notas de Estadística-2023
Notas de Estadística-2023
Mayo
de 2023
1
TABLA DE CONTENIDO
Página
A. CONCEPTUALIZACIÓN
1. La salud pública 4
2. Los sistemas de información en la sociedad 6
3. Los enfoques cualitativo y cuantitativo en la investigación 7
4. Conceptos básicos de estadística 8
B. FRACCIONES 9
5.2 Porcentajes. Ejercicio 1. Indicadores demográficos 12
5.4 Tasas. Tabla 6 12
6. Práctica 1 12
C. VARIABLES 16
7.1 Clasificación de las variables 16
7.2 Identificación de variables 17
7.3 Variable dependiente y variable independiente. Ejercicios 2 y 3. 17
7.4 Gráficas según la medida de las variables 17
D. LA ENCUESTA 19
8.1 Cuadro de variables de una investigación 24
8.2 Diseño de un cuestionario 25
8.3 Un cuestionario para indagar sobre saneamiento básico 26
8.4 Análisis de una variable cualitativa. Ejercicios 7 al 9 27
8.5 Ejemplo de una encuesta sobre un estudio de hipertensión arterial. Ejercicio 4 30
8.6 Componentes del análisis de una encuesta 32
8.7 Informe de la encuesta de hipertensos 33
9.1 Instalación del R 34
9.2 Ejemplo de una encuesta en R 35
9.3 Análisis de la encuesta Turbo 1 41
9.5 Análisis de la encuesta Turbo 2 45
E. MUESTREO
10. Selección de una muestra aleatoria simple de estudiantes. Ejercicio 10 49
11. Valoración de una escala de medida 50
11.1. Distribución normal 51
12. Análisis de variables cuantitativas. 52
12. 1 Tabla de frecuencia 54
12.2 Diagrama de tallos y hojas 55
12.3 Estadísticos de resumen 59
12.4 Diagrama de caja 65
12.5 Distribución de frecuencia 72
12.6 Taller de ejercicios 74
F. RELACIÓN DE DOS VARIABLES 74
13.1 Relación de dos variables cualitativas. Tabla de contingencia 74
13.2 Relación de dos variables cuantitativas. Regresión lineal 76
13.3 Tres ejemplos de regresión lineal simple 83
G. PROBABILIDAD 85
14.1 Espacios muestrales y eventos 87
14.2 Taller No 1 de ejercicios sobre probabilidad 89
14.3 Principio de la multiplicación para el conteo de puntos muestrales 92
14.4 Algunas leyes de probabilidad 94
14.5 Regla de la adición 94
14.6 Probabilidad condicional 96
14.7 Regla multiplicativa de la probabilidad de dos eventos 102
H. PROYECTOS DE AULA
15.1 Proyecto de aula sobre una subzona geográfica 110
15.2 Proyecto de aula sobre la factura de EPM 113
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
3
A. CONCEPTUALIZACIÓN
1. LA SALUD PÚBLICA
1.1 Contexto a la salud pública
Para González (2002)10, en salud y educación, hay bienes muy complejos donde la lógica de los precios no
funciona. La naturaleza del bien salud es compleja; generalmente, se mira de manera restringida, frente a la
vida y la muerte; el sistema de aseguramiento que estipula la Ley 100 de 1993 entra en esa complejidad y se
debe liberar del núcleo que es la lógica de los precios para pensar en las políticas públicas. Lo público
aparece bien definido en la Constitución de 1991 pero hay que liberarlo del núcleo de la lógica de los precios.
Existe una dicotomía entre lo financiero y la política social porque están centrados en el núcleo; hay una
tecnocracia esquizofrénica que sigue pegada al núcleo y por eso la gestión financiera monetaria y cambiaria
condiciona a la política social. Adam Smith y Bertol Smith son conscientes de que hay que liberarse del
núcleo con cualquier ideal ético para construir lo público y entonces la política estatal es secundaria. El
problema es definir bien lo público para regular la intervención del Estado. En Colombia, hay que definir bien
lo público en salud y educación. Cuando se acepta un subsidio a la demanda, la salud, se mete en el núcleo.
Para Keynes, las sociedades sin pobres se logran mediante modelos de desarrollo económico incluyentes. En
los 80`s se empieza a desarrollar una tecnocracia en el mundo que desconoce la teoría económica porque se
trabaja en la modelización matemática sin haber leído la teoría económica. Walraz en 1910 es el encargado de
trasladar las matemáticas a la economía; estuvo en la comuna de París y la defiende; pensaba que la propiedad
de la tierra debe ser para el Estado y construir luego el mercado; Arrow es el que continúa la modelización
matemática siguiendo a Walraz; Arrow se basa también en filósofos como Platón y Kant. Los economistas
contemporáneos, creen que la economía es una ciencia exacta y se quedan aprisionados en el núcleo porque
parece desconocen a los clásicos de la teoría económica y a los filósofos. El comportamiento tecnocrático
impide ver el problema de centrarse en el núcleo y dejar de ver lo complejo de la educación y la salud. Los
condicionantes y determinantes de la salud están por fuera del sector salud, por ello, hay que hablar de
políticas públicas. La relación entre crecimiento, distribución y pobreza es una discusión de vieja data; hoy en
el gobierno y desde hace 20 años, se habla en términos apocalípticos; hay que crecer, para mejorar la calidad
de vida. Hay otra visión de muchos economistas que dicen que hay que empezar a vivir bien desde el minuto
siguiente: Marshall, Keynes, Amartya Senn; si se redistribuye, hay márgenes de acción. Hay que pensar el
reordenamiento de la sociedad en forma distinta; más de 22 millones de colombianos no pueden seguir
haciendo sacrificios; hay que manejar de manera heterodoxa la economía; los mensajes apocalípticos no son
buenos. Es posible romper la dicotomía entre lo financiero y la política social. El Sistema General de
Seguridad Social, SGSSS no se financia en ninguna parte del mundo; los problemas de salud no se resuelven
al interior del sistema; se requieren recursos públicos (participación del Estado). La inequidad se genera en: la
focalización de los ricos, los pobres y los más pobres; en el plan diferencial de servicios a los más pobres; en
separar un bien que no se puede separar para ofrecer bienes para algunos en los servicios preventivos y
curativos; se pierde la visión territorial del problema y se segmenta en prestadores de servicios,
desconociéndola.
Para Nieto (2002)11, la edad de oro en las políticas públicas se da en el Estado benefactor. En 1920, Keynes
define nuevas condiciones para la relación Estado-economía en la cual el Estado asume un papel protagónico
porque define las políticas públicas. Hoy, las políticas públicas se impulsan de acuerdo con una tendencia, por
actores privados, no estatales que buscan una rentabilidad económica; se ha abierto un nuevo espacio público
no estatal, no económico que está constituido por nuevas formas de organización de la sociedad; una nueva
forma de sociedad civil; está este escenario de lo público no estatal con una nueva lógica contraria a la
neoliberal; la guerra no ha permitido construir esa sociedad civil.
El concepto de salud es relativamente amplio, puede entenderse como un estado de armonía y equilibrio
funcional que se traduce en un silencio orgánico, y sólo, cuando uno de estos órganos se altera, se escucha, es
decir, rompe el silencio. La enfermedad es la ruptura del silencio orgánico.
Tautológicamente la definición sería no estar enfermo, por tanto, estar enfermo es una condición de no estar
sano.
Para la Organización Mundial de la Salud, el concepto trata de abarcar la aspiración de los pueblos y como
marco ideal define la salud como “el completo bienestar físico mental y social y no solamente la ausencia de
la enfermedad”6
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
4
Pero el concepto de salud también puede ser entendido y tratado desde la estadística, ya que se convierte, de
cierto modo, en un indicador referido del concepto de salud, porque al identificar poblaciones “…no es
posible establecer claramente una línea divisoria entre la salud y la enfermedad. Este concepto sugiere llamar
sanos al promedio estadístico de la población y enfermos a aquellos que escapan excesivamente de tal
promedio.”6
Para Granda (2005)7, la salud pública, SP es: 1) una práctica, 2) una función de Estado, 3) una disciplina. Se
requiere un análisis de la SP como disciplina en términos deductivos para analizar el riesgo en salud que trae
la globalización.
Para Franco (2207)8, hay una crisis conceptual, estructural y de orden práctico en la SP; hay una crisis de lo
público y de su conceptualización. No se tiene claro qué es la SP. El objeto de la SP está indefinido y cada
uno lo mira desde la perspectiva indisciplinar y no multidisciplinar ¿Es posible la integración del saber a la
práctica de la SP en la nueva ciencia? ¿Es crisis de las disciplinas o de la SP? Una disciplina científica tiene
especificidad de su objeto de estudio (la SP lo tiene); es un conjunto de teorías que orientan la investigación
(la SP lo tiene); existencia de pertinencia de los procedimientos metodológicos con que afronta la
comprensión de su objeto de estudio ((la SP más o menos lo tiene); tiene permanente crítica del trabajo
disciplinar permitiendo incorporar cambios y nuevos hallazgos (la SP lo tiene). El objeto de la SP es: la
situación de salud, condiciones de vida, contexto a la SP (político, económico, social), planificación, gerencia
de organizaciones de salud. La SP como conjunto de saberes es diversa, como práctica es interdisciplinaria e
intersectorial. La salud pública está muy condicionada por la decisión del político. El objeto de
transformación de la SP puede darse si se forman actores sociales; lo público se debe reconstruir con la gente
y las organizaciones comunitarias. Un concepto de salud pública puede ser, “la SP es el esfuerzo organizado
de la sociedad, principalmente a través de sus instituciones de carácter público, para mejorar, promover,
proteger y restaurar la salud de las poblaciones por medio de actuaciones de alcance colectivo”.
Para el Ministerio de la Protección Social de Colombia, “Salud Pública, es la responsabilidad estatal y
ciudadana de protección de la salud como un derecho esencial, individual, colectivo y comunitario logrado
en función de las condiciones de bienestar y calidad de vida”.
Para Jarillo y López (2007)9, el eje explicativo de la SP ha sido la enfermedad y transitar a una explicación
científica de la salud, es una deuda pendiente. El contexto general que enmarca el pensar y el hacer en
América Latina se caracteriza por la desigualdad social y económica, la polarización socio-sanitaria y la
pobreza generalizada; la transición demográfica hace más complejos los patrones de enfermedad y muerte
debido al envejecimiento de las poblaciones. El objeto de conocimiento de la SP se ha centrado en torno al
proceso salud/enfermedad y a las formas como la sociedad responde a él; en un principio, la medicina aportó
el pensamiento, pero hoy en día se ha dado una independencia conceptual y metodológica.
Bibliografía
6. Alvarez H Francisco, Alvarez H Aurelia. Investigación y epidemiología. Santafé de Bogotá. ECOE, 1998.
P 8- 19.
7. Granda Edmundo. Globalización de los riesgos en salud. IV congreso internacional de salud pública.
Facultad Nacional de Salud Pública. Universidad de Antioquia; 12 de noviembre de 2005.
8. Franco, Álvaro. El componente de salud pública en los programas de la Facultad Nacional de Salud
Pública. Universidad de Antioquia; 17 de enero de 2007.
9. Jarillo E, López O. Salud pública: objeto de conocimiento, prácticas y formación. Rev. Salud pública. 9(1):
140-154; 2007.
10. González Jorge Iván. Enfoque de las políticas públicas. Proyecto interinstitucional de políticas públicas y
salud. Facultad Nacional de Salud Pública. Universidad de Antioquia; 25 de noviembre de 2002.
11. Nieto Jaime Rafael. Políticas públicas y sistemas políticos. Conceptos fundamentales. Seminario de
pensamiento en salud pública. Facultad Nacional de Salud Pública. Universidad de Antioquia; 30 de
septiembre de 2002.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
5
La información ha sido útil para el ser humano desde que existe; los SI han estado presente a la par que el
hombre y las sociedades se han ido desarrollando. Las organizaciones, desde sus inicios han requerido de los
SI porque manejan información de producción, administración, financiera, consumos externos, mercados,
toda ella necesaria para el buen funcionamiento de ésta.
La estadística permite producir la información inicial para operar el SI e inclusive la información que
proporciona el SI. Similarmente, la computadora facilita el procesamiento de grandes volúmenes de datos y
por ello se diseñan SI basados en computadoras, pero, los SI también pueden ser manuales.
Entre las diferencias más importantes para los SI de información manuales y los basados en computadoras
están que los primeros son más fáciles de comprender en su tecnología, la administración es sencilla, la
conversión e instalación es fácil, son altamente flexibles pero la repercusión en la empresa es mínima, en
tanto, que los basados en computadoras pueden ser importantes e implicar cambios en las organizaciones y en
los comportamientos de los usuarios.
Generalmente cuesta mucho desarrollar sistemas basados en computadoras, sus fallas pueden resultar muy
costosas para la organización y afectan negativamente al recurso humano, pueden provocar conflictos entre
los individuos y entre los departamentos.
No existe una teoría central que soporte los SI; éstos están relacionados con el uso efectivo de la tecnología en
una organización.
Un modelo es la representación de una entidad tangible o intangible; Montgomery y Urban (1969) 2 han
identificado cuatro tipos:
Modelo intuitivo: es una idea parcialmente formada de cómo se relacionan dos variables.
Modelo verbal: el encargado de la toma de decisiones considera que si se sigue el curso de la acción
A, se obtiene B.
Modelo de flujo lógico: se establecen las relaciones entre las variables, puede hacerse gráficamente.
Es un modelo que resulta ser el más explícito.
Modelo físico: se realiza una maqueta en madera o cartón antes de edificar el proyecto final.
Bibliografía
1. Lucas Henry. Conceptos de los sistemas de información para la administración. 2a edición. Mc
Graw-Hill. México. 1983.
2. Montgomery D, Urban G. Management sicience, vol 16 N° 4 pp B212-B232.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
6
La investigación es un proceso que nos lleva al conocimiento de algo mediante la aplicación de métodos y
técnicas que nos permiten aprehender los elementos de ese algo y sus interrelaciones para describirlo,
explicarlo, predecirlo y transformarlo.
Si el conocimiento genera poder y éste es necesario para transformar la sociedad, la investigación debe ser el
punto de partida y de confluencia de esa acción transformadora.
La investigación conduce al investigador (a) a un estado superior de conocimiento frente al común de las
personas; además de una actitud positiva hacia la investigación, se debe tener cierta madurez que la dan una
edad mayor y la experiencia; mi práctica me ha enseñado que estudiantes menores de 20 años de edad
difícilmente comprenden la dimensión de un proyecto de investigación científica como un todo y la forma
como se relacionan sus partes.
No se tienen diagnósticos del nivel de desarrollo dentro del ciclo vital, de los estudiantes de la Facultad
Nacional de Salud Pública, FNSP y es posible que, en el cuarto o quinto semestre, algunos(as) de estos(as) se
encuentren en el nivel de las operaciones concretas y la investigación obliga a la abstracción y a la síntesis.
Si bien no toda persona tiene aptitudes y actitudes para la investigación, el profesional medio, debe llegar a
manejar los elementos básicos del proceso de investigación como herramientas para el ejercicio profesional.
Todos sabemos que la pregunta de investigación es la que define el enfoque que se le dará a la misma y en ese
sentido pienso que no debería existir ninguna rivalidad en el quehacer de un investigador con los métodos.
Pregunta de
investigación
Cuando busca:
describir, explicar Cuando busca:
interpretar y
comprender.
Una encuesta es un conjunto de preguntas que indagan sobre características de un fenómeno de salud pública
que requiere ser medido y analizado para producir información. La encuesta en sus preguntas incluye las
variables que serán objeto de medición de acuerdo con su naturaleza y nivel de medición.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
7
Existen diferentes conceptos sobre lo que es una POBLACIÓN para la estadística; algunos definen a la
población como el conjunto de objetos, animales o personas que tienen una característica de interés para un
estudio y que pueden ubicarse geográficamente en un lugar. Otros definen la población como el conjunto de
mediciones sobre los objetos, animales o personas que son de interés para un estudio y que están delimitados
geográficamente.
Asociado al concepto de POBLACIÓN aparece la VARIABLE que algunos la definen como una
característica de los elementos de una población que toma diferentes valores. Otros definen la VARIABLE
como: fenómeno medible que varía (cambia) a través del tiempo, o que difiere de un lugar a otro o de un
individuo a otro.
Para algunos, el concepto de población tomado como el conjunto de mediciones está contenido en el de
universo de estudio. En un universo pueden existir varias poblaciones estadísticas; por ejemplo, en el
universo de estudiantes de la universidad, pueden existir poblaciones formadas por el sexo, la edad, es
semestre, la dirección, el número de teléfono, el estado civil. El estrato socioeconómico, etc.
4.1 Características que se miden en la población en las investigaciones por muestreo: las variables
aleatorias que se miden en la población pueden ser cualitativas o cuantitativas y en ese sentido los cálculos
que se pueden hacer con ellas se resumen en la proporción o porcentaje, el total desde la proporción, la
media o promedio y el total desde el promedio que son los PARÁMETROS.
4.2 Experimento: Es el proceso mediante el cual se observa un fenómeno y se registra una observación. Es
decir, es cualquier acción que produzca un resultado medible. En los experimentos las mediciones o registros
las generan variables aleatorias que se observan.
4.3 Variable aleatoria: Es una variable de la cual se sabe qué valores puede tomar, pero no se conoce cuál
tomará exactamente con anticipación en la realización de un experimento.
Los experimentos involucran una o más variable aleatorias y por eso pueden ser univariados o multivariados.
Los resultados de medir la variable en cada uno de los individuos es el dato.
En los experimentos planeados se controlan la (s) variables independientes antes de la recolección de los
datos, como, por ejemplo, en un ensayo clínico a nivel psicológico en el que se controlan las variables: dosis
de un medicamento, exposición a una intervención, etc. En los experimentos puros, los sujetos se asignan
aleatoriamente a los grupos, control versus experimental. En los experimentos no planeados (diseños no
experimentales) no se controlan variables, sino que se accede de manera aleatoria a los elementos de la
población directamente, por ejemplo, en una encuesta de opinión.
4.5 La muestra es una parte o un subconjunto de la población y dependiendo de la forma como sea
seleccionada esta parte, puede ser representativa de la población.
4.6 Las características que se miden en la muestra son cuatro desde las variables aleatorias que se miden
en la población y pueden ser cualitativas o cuantitativas y en ese sentido los cálculos que se pueden hacer con
ellas se resumen en la proporción o porcentaje, el total desde la proporción, la media o promedio y el total
desde el promedio que son los ESTADÍSTICOS.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
8
4.7 Muestra aleatoria: Es la muestra que se selecciona, teniendo en cuenta que cada elemento de la
población tiene la misma probabilidad de formar parte de ella. Se enumeran los elementos de la población y
se seleccionan utilizando la tabla de números aleatorios que están incluidos en la calculadora.
Para seleccionar una muestra aleatoria debe existir un procedimiento de selección que sea objetivo y se
distribuya uniformemente en toda la población con igual probabilidad de selección de sus elementos.
No todos los temas de investigación permiten la selección aleatoria en los elementos de la población por lo
que en algunos temas y casos se utiliza una muestra por conveniencia que es seleccionada de acuerdo al
interés del investigador (a). La selección de una muestra aleatoria requiere que hay recursos económicos para
realizarla.
4.8 Muestra al azar: Se toma sin tener ningún criterio de selección sino por el orden de llegada. Por ejemplo,
las encuestas aplicadas a las personas que entran en un centro comercial, las personas que llaman a los
programas de radio o de TV.
4.9 La unidad elemental: Es cada uno de los elementos del universo de estudio que se desea medir.
B. FRACCIONES
Cada parte del trabajo estadístico desde la medición y la presentación gráfica hasta el cálculo de
probabilidades estadísticas implica trabajar con proporciones matemáticas.
5.1 Proporción: Es una parte de un total expresada en forma decimal; la parte aparece en el numerador de la
fracción y el total en el denominador de la misma fracción.
#.en.una.categoría
Cálculo de una proporción, P=
#.en.grupo.total
#.en.una.categoría
5.2 Cálculo de un porcentaje, p (100) = x100
#.en.grupo.total
5.3 Razón: Es el cociente de dos totales de dos variables. Se utiliza la comparación uno a uno ó 100 a 100, ó
1000 a 1000, ó 10000 a 10000, ó 1000000 a 100000.
Considere los datos de los censos de población que aparecen en la tabla 5 y con ellos realice los siguientes
pasos:
a) Un análisis por separado para el total de hombres y mujeres en los grupos de edad 0 a 4 años y 80 y
más años.
b) Un análisis sobre los cambios drásticos en la población de hombres y mujeres por separado para cada
censo.
c) Calcule el porcentaje de la población adolescente para cada censo (entre 10 y 19 años).
d) Calcular el porcentaje de hombres y de mujeres con base en el total de población para cada censo.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
9
e) Calcular el índice de masculinidad (Total de hombres sobre total de mujeres) para la población
adolescente de cada censo.
f) Calcule la Razón de Dependencia que relaciona la población dependiente (0 a 14 años, más 65 años
en adelante) con respecto a la que está en edad productiva (15 a 64 años).
g) Grafique la pirámide poblacional para cada censo.
Tabla 5. Población total censada, por sexo, según grupos de edad. Total, nacional. Colombia.
Disminuyeron los menores de 15 años y aumentaron las poblaciones en edad de trabajar y la de adultos
mayores. Una de cada tres personas tiene menos de 15 años en el 2005 (Tabla 1).
En 1993 por cada 100 personas en edad de trabajar, había 64 personas dependientes. Para el 2005 la población
dependiente disminuyó, pero continúa siendo alta porque aproximadamente, tres de cada cinco personas son
dependientes (Tabla 2).
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
10
Censo Porcentaje
1993 21.6
2005 19.9
Se escriben 3 columnas en el siguiente orden: edad, hombres y mujeres. Se requiere que los hombres queden
en la izquierda de la pirámide y por ello se resalta esta columna y con el botón derecho del Ratón se entra al
formato celda y se entra a número; se escoge el número de color rojo y se le da aceptar. Se les antepone a
los datos de hombres un signo negativo y se oprime enter después de cada cambio. Todos los números de esa
columna quedan en rojo.
Se resaltan los datos con el botón izquierdo del Ratón y se va a gráficos y se escoge las barras (que son
horizontales); se oprime siguiente; se escoge el rango de datos por columnas; se oprime siguiente. Se coloca
el título de la gráfica, los nombres de los ejes y se termina la gráfica.
Una vez que se termina de construir la gráfica, se le da clic a cualquiera de las barras y todas las de ese lado
deben aparecer resaltadas con un puntito; se entra con el botón derecho del Ratón a formato serie de datos y
se entra a opciones; en ancho de rango se coloca cero y en superposición 100. Se hacen los ajustes estéticos
que se quieran.
5.4 TASA: Es la frecuencia de ocurrencia de un fenómeno en relación con un número “base” especificado de
sujetos de una población. El número base se coloca en el denominador para que la tasa pueda representar los
casos por mil, por diez mil, por cien mil, por un millón y así sucesivamente. Un número base útil es aquel que
especifica la población en riesgo.
En general el denominador en las tasas es la población total y el numerador es el número de personas de esa
población en riesgo. Luego se multiplica por factores que son múltiplos de 10 como 1000 (103), 10000 (104) ó
100000(105) y en esos términos se expresan los resultados de esa tasa.
Las tasas son cocientes que establecen la relación entre la población expuesta a ciertos hechos (denominador),
y los individuos que fueron afectados por ese hecho (numerador). Por ejemplo, niños que tiene el hábito de
chupar dedo (denominador), y los que presenten posteriormente mordida abierta. El resultado significa riesgo,
es decir, implica probabilidad. Al calcular las tasas se debe cuidar que el denominador sea el correcto, es
decir, que contenga toda la población expuesta al riesgo.
La tasa es la población que presenta un hecho particular (A), la población susceptible a ese hecho (B),
multiplicado por una constante K (102, 103, …)
A
Tasa = K . Donde, A: total de casos que presentaron el evento y que antes no lo tenían, en un
B
área o período definido. B: total de la población expuesta al evento, en la misma área y período definido.
Tasa de suicidio = Número de suicidio en la comuna en el año dividido el total de la población de la comuna
en ese año y multiplicado por 100000.
Este Taller busca contextualizar a cualquier persona para un curso de estadística descriptiva de cualquier
programa; se utiliza como un complemento de las actividades desarrolladas en clase y se espera que se
entregue como nota de evaluación en forma individual aunque en su realización se puede trabajar con otras
personas.
1. El censo de población1 de una ciudad dio el siguiente resultado: mujeres de 15 años o más: 435720;
menores de 15 años: 122305. Hombres de 15 años o más: 422137; menores de 15 años: 113132;
halle:
2. Si en una encuesta sobre el estado civil de una población, las modalidades de respuesta son: soltero,
casado, diga:
a) las categorías de respuesta son exhaustivas?,
b) Qué categorías debe agregar para que sean exhaustivas?
1
Los ejercicios 1 al 7 son tomados del libro: Estadística de Lincoyan Portus. Ed. Mc Graw – Hill.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
12
3. Si en una investigación en un supermercado usted clasifica a los usuarios en las siguientes categorías:
“A” personas que compran, “B” personas que entran al supermercado, diga si puede sumar los datos
obtenidos en las dos categorías para ampliar la información.
4. En una biblioteca investigan dos encuestadores: el uno a los lectores que consultan simultáneamente
menos de tres libros, el otro a los que consultan más de tres libros. Diga si las categorías son
exhaustivas. ¿Son mutuamente excluyentes?
5. Si se deben investigar los granos de arroz partido que hay en un cargamento de una tonelada de
arroz, diga si desde el punto de vista estadístico ésta en una población finita o infinita.
6. Si en una encuesta de hogares usted visita sólo a sus familiares y personas conocidas, diga si ha
obtenido una muestra aleatoria. ¿Qué puede decirse de las encuestas que recogen los noticieros de
T.V. a través de una dirección de Internet?
7. Redondear los siguientes números hasta la segunda cifra decimal 2.
El número de estudiantes graduados en cada una de las cinco áreas académicas, conforme a su sexo,
es:
9. Eugene J Kanin ha estudiado varios aspectos del comportamiento de varones sexualmente agresivos.
La agresividad sexual se definió como “un intento de contacto sexual con una mujer en actitud de
rechazo, durante el cual se utiliza violencia física en grado tal que da lugar a reacciones que denotan
ofensa en la mujer”. Cuando sus resultados fueron comparados con los correspondientes a una
muestra de varones no agresivos, se formuló la hipótesis de que los varones no agresivos pudieron
utilizar técnicas de seducción en lugar de técnicas agresivas con más frecuencia que los varones
agresivos como medio de conseguir contacto sexual.
Una muestra de 254 varones no agresivos y 87 varones agresivos reveló las siguientes frecuencias en
que los sujetos admitieron el uso de técnicas de seducción.
2
Los ejercicios 8 al 12 son tomados del libro Estadística para ciencias sociales. Haber/ Runyon. Fondo
Educativo Interamericano.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
13
a) Hallar el porcentaje de varones no agresivos y agresivos que admiten cada una de las técnicas agresivas.
b) Construya un diagrama de barras para mostrar los porcentajes de varones no agresivos y agresivos en
cada técnica.
c) ¿Se tiene la impresión de que la hipótesis tiene fundamento?
10. Muchas de las poblaciones estudiadas en condiciones experimentales son teóricas. Dé algunos
ejemplos de poblaciones teóricas que puedan presentarse en la investigación.
11. Indíquese en cada uno de los siguientes casos si se trata de una variable o de una constante:
a) Número de días del mes de agosto.
b) Número de acciones negociadas en la Bolsa de Medellín en varios días del año.
c) Tiempo requerido para completar un ejercicio.
d) Edad en la que un colombiano adquiere el derecho de votar.
e) Calificaciones obtenidas en un examen que contiene 100 preguntas.
f) Máxima calificación obtenida en un examen de Estadística en la U.de A.
g) Cantidad de dinero gastada anualmente en libros por un estudiante.
Calcule los valores de la columna del % de incremento con base en el año 1979 y año anterior.
valorañoactual valorañoanterior
%incremento *100
valorañoanterior
16. En una empresa industrial la nómina de pago mensual por estamentos en cierto mes fue así: personal de
administración: $423380; el personal de ventas $560325; el personal de producción: $2360420. Elaborar
un cuadro que destaque:
17. Elabore un cuadro cronológico de producción de mineral de hierro en Colombia en el quinquenio 1978-
1982 y muestre las variaciones de cada año:
Producción de toneladas: 1978=453532; 1979=377508; 1980=491288; 1981=410584; 1982=445434.
18. Dibuje en un diagrama las ventas en un almacén en el semestre enero/junio de un año. El reporte de
contabilidad fue:
Enero, $675532; febrero, $563684; marzo, $785322; abril, $760520; mayo, $821230, y junio,
$890410.
19. Elabore un gráfico de barras en el que figuren los seis países americanos de mayor área: Argentina,
2776889 Km2; Brasil, 8511965 Km2; Canadá, 9976137 Km2; Perú, 1285215 Km2, Estados Unidos,
9363498 Km2; México, 1958201 Km2.
20. En un gráfico de barras muestre las exportaciones colombianas de café y otros productos en el
quinquenio 1978-1982.
Con los mismos datos anteriores elabore un gráfico lineal uniendo los puntos respectivos.
21. Utilizando un diagrama lineal represente la deuda externa de América Latina cuyos valores en millones
de US$ (dólares) son: (Fuente: BID).
1973 55.4 1978 141.6
1974 68.5 1979 169.2
1975 82.9 1980 207.1
1976 98.3 1981 279.1
1977 119.1 1982 312.0
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
15
C. VARIABLES
Las variables se clasifican según su naturaleza en cuantitativas y cualitativas. Las variables cuantitativas o
numéricas se dividen en discretas y continuas. Las variables cualitativas o categóricas toman valores que son
categorías o atributos como el estado civil.
1. Las variables continuas son las que se miden en una escala, ejemplo, peso, estatura, distancia, tiempo, peso
al nacer, tiempo de espera en la cola, etc; existen dos escalas de medida para las variables continuas, la escala
de razón (tiene cero verdadero) y la escala de intervalo (tienen cero arbitrario). Con las variables continuas se
pueden efectuar las cuatro operaciones básicas de la aritmética: suma, resta, multiplicación y división.
2. Las variables discretas son las que se cuentan, ejemplo, número de hijos, número de habitantes, número de
errores, etc.
3. Las variables cualitativas pueden estar en cualquiera de dos escalas, la ordinal y la nominal:
Las variables cualitativas nominales son variables cuyos valores son nombres o etiquetas, ejemplo,
número de teléfono, dirección, número de cédula, municipio de nacimiento, barrio donde vive, etc.
Las variables cualitativas ordinales son variables cuyos valores son nombres que orden, ejemplo,
nivel educativo, estrato socioeconómico, nivel de ingresos, etc. Se pueden convertir algunas
variables ordinales en variables en escala de intervalo.
Los valores de las variables se llaman modalidades y cuando la variable es cualitativa a los valores también se
les llama categoría.
Para analizar una variable en la mayoría de las veces se le codifica como números para procesarlas más fácil
en el software estadístico.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
16
Se asignan etiquetas a los valores de las variables para recordar el significado de los códigos numéricos; por
ejemplo, en la variable sexo, 1: Hombre, 2: Mujer. Aunque se codifiquen como números, se debe recordar
siempre el verdadero tipo de variable al momento de realizar el análisis.
Algunas variables continuas pueden agruparse en intervalos de clase; por ejemplo, la variable edad en: menos
de 20 años, de 20 a 62 años, más de 62 años. Estas modalidades deben ser exhaustivas y excluyentes.
Las medidas de las variables cualitativas son las frecuencias y el estadístico es la proporción o el porcentaje.
Las medidas de las variables cuantitativas son los datos y los estadísticos dependen de si la distribución de la
variable es simétrica o no; si es simétrica los estadísticos apropiados son la media, la mediana, la moda,
desviación estándar y coeficiente de variación. Si la distribución no es simétrica, los estadísticos apropiados
son los percentiles (25, 50 y 75), además de los valores, máximo y mínimo.
14. Para cada una de las siguientes variables diga cuál es su escala de medida y su nivel de medición:
En algunas ocasiones al investigar un fenómeno se define una variable principal de interés para el
investigador (a) que se constituye en la variable dependiente y se desea saber qué provoca un incremento o
una disminución en la cantidad de esta variable. Esta variable principal se denomina variable dependiente y es
3
Estas variables son tomadas del proyecto de Recurso Humanos en Salud desarrollado por la Facultad
Nacional de Salud Pública de la U.deA para Minsalud 2001-2002.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
17
la variable que se quiere explicar. Las variables que se sospechan que están relacionadas con el incremento o
la disminución son las variables independientes.
(Tomados del libro Estadísticas para las ciencias sociales de Ferris J. Ritchey)
1. En un estudio sobre los estudiantes de último año en una prestigiosa universidad, se mide el área de
especialización (psicología, sociología, química, inglés, arte, etc.) y su año de escolaridad (primero,
segundo, tercero, último año). En dicho estudio, ¿cuál de estas mediciones representa una variable y
cuál una constante?
2. ¿Cuál es la característica esencial de la ciencia que la distingue de otras formas de indagar sobre la
naturaleza?
3. Para una muestra de personas sin hogar, usted se interesa en la relación entre el género y tipos de
lugares para dormir (donde pasó la noche anterior. ¿Cuál es la variable independiente y cuál es la
variable dependiente?
4. Brian encuestó a 5 000 personas para un estudio sobre la salud. Su definición operacional de nivel de
salud es “visitas al médico”, es decir, el número de veces que un encuestado fue al médico durante el
último año.
7.4 GRÁFICA PARA LAS VARIABLES, Aunque se aconseja que la presentación de datos numéricos se
haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a
representar de un modo más eficiente nuestros datos.
Para variables categóricas con pocas categorías, como el sexo, nivel de depresión, grado que cursa
profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría.
Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o
diagramas de sectores. En los gráficos de sectores, también conocidos como diagramas de "tortas", se divide
un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco
de círculo proporcional a su frecuencia absoluta o relativa.
Un ejemplo se muestra en la Figura 1. Como se puede observar, la información que se debe mostrar en cada
sector hace referencia al porcentaje de casos dentro de cada categoría. Si el número de categorías excede a
tres no se recomienda utilizar el gráfico y en su lugar se utiliza un diagrama de barras separadas.
Figura 1. Distribución de frecuencia según el tipo de colegio de los estudiantes adolescentes de la Zona
Nororiental, Medellín, 2006
Los diagramas de barras se utilizan para una variable cualitativa con más de tres categorías, son
similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo
que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase Figura
2. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman
pocos valores (número de hijos, etc.).
60%
49,7%
(IC95% 45,6-53,7)
50%
39,1%
(IC95% 35,1-43,0)
40%
Porcentaje
30%
20% 11,3%
(IC95% 8,7-13,9)
10%
0%
Alto Moderado Bajo
Figura 2. Nivel de riesgo de orientación suicida de los adolescentes escolarizados. Medellín, zona
noroccidental. 2010.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
19
El diagrama de barras combinadas relaciona dos variables cualitativas; en este caso, la variable comuna
sexo y la variable riesgo de suicido con los valores, alto, moderado y bajo.
60%
51,0%
IC95% (45,1-57,0) 48,4%
IC95% (42,7-54,1)
50% 41,7%
IC95% (36,1-47,3)
36,2%
40% IC95% (30,5-41,9)
Porcentaje
30%
20% 12,8%
IC95% (8,7-16,8) 9,9%
IC95% (6,4-13,3)
10%
0%
Alto Moderado Bajo*
X2=0,57; p=0,45 X2=1,24; p=0,27
Hombre Mujer
Nivel de riesgo de orientación suicida
*Categoría de referencia
Figura 3. Nivel de riesgo de orientación suicida de los adolescentes escolarizados según sexo. Medellín, zona
noroccidental. 2010.
Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el
tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de
valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que
tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la
proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los
rectángulos. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una
imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué
rangos se encuentra la mayor parte de los datos. Un ejemplo, se presenta en la Figura 4.
La puntuación obtenida por los adolescentes encuestados en el CDI-LA se ubicó entre un mínimo de 0 puntos
y un máximo de 42 con un predominio marcado de las puntuaciones bajas, la media fue de 10,46, la
desviación estándar fue 6,34 puntos y el coeficiente de variación fue 60,6%.
Las puntuaciones de depresión se interpretan de la siguiente forma: entre 0 y 13 no presentan depresión, entre
14 y 18 hay depresión moderada, más de 19 clínicamente significativa.
El diagrama de caja permite relacionar una variable cualitativa y una variable cuantitativa. La Figura
5 muestra un gráfico de cajas correspondiente a los datos de puntaje de riesgo de suicidio por sexo. La caja
central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1 er
y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es
simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja
son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores
extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este
rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles
errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar
variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan
además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
El Riesgo de Suicidio en adolescentes se mide con el Inventory Suicide Orientation 30 (ISO-30). La medición
final del ISO-30 se produce con una variable llamada riesgo de suicidio de tipo ordinal y cuya
operacionalización es en la siguiente forma:
Según el diagrama de caja, el valor mediano del puntaje de riesgo de suicidio es mayor en los hombres que en
las mujeres. El puntaje de riesgo de suicidio en los hombres es simétrico porque los bigotes son del mismo
tamaño y la mediana está ubicada en el centro de la caja, o sea que puede decirse que se aproximan mejor a
una distribución normal en tanto que esos puntajes son asimétricos porque el bigote de los valores altos es
más largo; existen valores atípicos en las mujeres y se observa que hay mayor variación en los mismos.
En cuanto al sexo de los Adolescentes, los estudios de Berman y Jobes (1991) indican que los Adolescentes
hombres cometen actos suicidas en una proporción cuatro veces mayor que las mujeres (18% y 4%
respectivamente) si bien los intentos de suicidio son más numerosos en mujeres
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
21
80
60
RiesgoS
40
20
Hombre Mujer
__
Figura 5. Diagrama de caja del puntaje de riesgo de suicidio para hombres y mujeres en los
adolescentes escolarizados de la zona nororiental de Medellín, 2006.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis,
comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o
un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el
"apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad.
Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los
primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la
variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea
recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de
la variable respecto a los cuantiles de la distribución normal. En la figura 6 se muestra el gráfico P-P
correspondientes a los datos de la puntuación de riesgo de suicidio 82) que sugiere, que la distribución de la
variable se asemeja a la de la normalidad.
1.0
0.8
Prob acum esperada
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Los gráficos de líneas pueden resultar también especialmente interesantes, sobre todo cuando interesa
estudiar tendencias a lo largo del tiempo (F7). No son más que una serie de puntos conectados entre sí
mediante rectas, donde cada punto puede representar distintas cosas según lo que nos interese en cada
momento (el valor medio de una variable, porcentaje de casos en una categoría, el valor máximo en cada
grupo, etc.).
140,0%
200,0%
120,0%
150,0% 100,0%
80,0%
100,0% 60,0%
40,0%
50,0% 20,0%
0,0%
0,0%
1984 1986 1988 1990 1992 1994 1996 1998
1985 1990 1995 2000
150,00%
100,00%
50,00%
0,00%
1984 1986 1988 1990 1992 1994 1996 1998
El diagrama de dispersión como el de la Figura 8 relaciona dos variables continuas y ubica los puntos
formados por las dos variables en un plano cartesiano para observar si la relación entre ambas variables define
alguna tendencia, generalmente lineal, porque de ser así da indicios de una correlación positiva o negativa
dependiendo de la forma de la tendencia lineal.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar
en el proceso de análisis de datos. La mayoría de los textos estadísticos hacen hincapié en los distintos tipos
de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que
una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los
mismos datos.
D. LA ENCUESTA
En ocasiones para recoger información sobre la opinión de un grupo de personas o para registrar el resultado
de la observación de un fenómeno se utiliza un cuestionario que se convierte en el instrumento de recolección
de la información.
1. Prepare un documento donde se enuncien claramente los objetivos, las necesidades de información y el
plan de análisis.
2. Establezca las variables a medir, las preguntas en orden de importancia y las alternativas de respuesta
necesarias para cumplir los objetivos.
3. Prepare un listado de preguntas y asegúrese de la pertinencia de ellas en relación con los objetivos y
necesidades de información. En este punto revise preguntas que se hayan utilizado en anteriores
encuestas sobre algún tema igual o similar.
4. Analice la racionalidad de cada pregunta y haga el ejercicio de usar sus respuestas para cumplir los
objetivos planteados; recuerde que el criterio no debe ser lo interesante de la pregunta o de la respuesta
sino su correspondencia con un cuadro de salida preestablecido y acorde con los objetivos del estudio.
5. Ponga el listado de preguntas a consideración de los expertos en la temática de la encuesta.
6. Revise la gramática, el lenguaje y la pertinencia de conceptos, palabras o giros idiomáticos.
7. Con el listado final de preguntas estructure un cuestionario fluido, sin saltos bruscos en la temática, sin
repeticiones, ameno y en general que no constituya una carga de trabajo intelectual tanto para el
entrevistado como para el entrevistador.
8. Realice pruebas de cuestionario, en las que usted mismo juegue varias veces el papel de entrevistador.
Válgase para estas pruebas piloto de personas del universo de estudio, ojalá no vinculadas al grupo de
trabajo de la encuesta. De esta manera podrá identificar preocupaciones y asuntos propios del universo en
estudio.
Esta encuesta pretende describir algunas de las características de saneamiento ambiental de un municipio de
Antioquia intrínsecamente relacionadas con la calidad de vida de sus habitantes.
4
Tomado textual de: Bautista, Leonardo. Notas de Muestreo. Simposio de Estadística 2000. Universidad
Nacional.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
26
Para el análisis de las variables se sigue la siguiente secuencia que se hace intuitivamente cuando se está
realizando un estudio y que se describe muy bien en el libro: la investigación aplicada a proyectos. Volumen I
de María Nuncia Medina Suárez. Página 106.
Ejercicio 7
Pregunta: ¿Cómo es la distribución por sexo en los adolescentes escolarizados de la zona nororiental de
Medellín en el año 2006?
Objetivo: Determinar la distribución por sexo de la muestra de adolescentes de la zona nororiental de
Medellín en el año 2006.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
27
Hipótesis: Es posible que haya más mujeres en la muestra de adolescentes escolarizados porque se mueren
más los hombres por las violencias de la ciudad.
Variable: sexo del adolescente
Estadístico: el porcentaje
Gráfico: Diagrama de pastel
La distribución por sexo en la muestra de los adolescentes escolarizados de la zona nororiental es similar a la
reportada en los censos de población en Colombia (Tabla 1).
Tabla 1. Distribución de frecuencia del sexo del adolescente escolarizado en la muestra de adolescentes de la
zona nororiental de Medellín en el año 2006.
Frecuencia Porcentaje
Hombre 374 48
Mujer 405 52
Total 779 100
En todo análisis de una encuesta se inicia con una descripción de la muestra, en variables como el sexo, el
estrato socioeconómico, comuna donde está el colegio, grupo de edad, etc., que son muchas veces llamadas
variables sociodemográficas.
Luego de la descripción de la muestra se presentan los resultados del estudio y en ellos se hace una
generalización a la población y esto es lo que se llama la inferencia estadística. En este punto pueden
construirse intervalos de confianza o se pueden realizar pruebas de hipótesis.
El intervalo de confianza solo se construye cuando se tienen muestras aleatorias. La interpretación de éste
para los hombres es como sigue: con una confianza del 95% puede decirse que el porcentaje de hombres
adolescentes escolarizados en la zona nororiental de Medellín en el 2006 estaba entre 44,5% y 51,5%.
Ejercicio 8
Pregunta: ¿Cómo es la distribución del funcionamiento familiar en los adolescentes escolarizados de la zona
nororiental de Medellín en el año 2006?
Objetivo: Determinar la distribución del funcionamiento familiar en la muestra de adolescentes de la zona
nororiental de Medellín en el año 2006.
Hipótesis: Es posible que haya más un porcentaje de familias en la muestra de adolescentes escolarizados que
no funcionen bien porque mucha gente habla de una crisis en las familias.
Variable: funcionamiento familiar
Estadístico: el porcentaje
Gráfico: Diagrama de barras
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
28
Una de cada cuatro familias, aproximadamente, tiene buen funcionamiento de acuerdo a los que perciben los
adolescentes escolarizados de la zona nororiental de Medellín (Tabla 2).
Tabla 2. Distribución de frecuencia del funcionamiento familiar de la familia del adolescente escolarizado en
la muestra de adolescentes de la zona nororiental de Medellín en el año 2006
Frecuencia Porcentaje
Buena 216 27,7
Disfunción leve 227 29,1
Disfunción moderada 170 21,8
Disfunción severa 166 21,3
Total 779 100
Ejercicio 9
Pregunta: ¿Cómo es la distribución del riesgo de suicidio en los adolescentes escolarizados de la zona
nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del riesgo de suicidio en la muestra de adolescentes de la zona
nororiental de Medellín en el 2006.
Hipótesis: Es posible que haya más un porcentaje alto adolescentes con riesgo de suicidio en la muestra de
adolescentes escolarizados porque existen muchos problemas en esa zona de la ciudad.
Variable: nivel de riesgo de suicidio
Estadístico: el porcentaje
Gráfico: Diagrama de barras
Uno de cada cinco adolescentes escolarizados de la zona nororiental se encuentra en alto riesgo de suicidio.
Para la zona, en magnitud representa aproximadamente un tamaño en número de adolescentes de 10 colegios
grandes. Los estudiantes con algún riesgo de suicidio son el 46, 2 % lo que indica, que aproximadamente, uno
de cada dos estudiantes presenta algún riesgo de suicidio. (Tabla 3).
Tabla 3. Distribución del porcentaje del nivel de riesgo de suicidio de los estudiantes de la zona nororiental,
Medellín, 2006
Porcentaje, n=779
Alto 22,4
Moderado 23,8
Bajo 53,8
Total 100
Tres de cada cinco adolescentes han consumido alguna sustancia psicoactiva a lo largo de su vida (Tabla 4).
Tabla 4. Distribución del porcentaje de adolescentes que ha consumido alguna sustancia psicoactiva alguna
vez en la vida en la zona nororiental, Medellín, 2006
Porcentaje,
n=779
Sí 63,6
No 36,4
Total 100
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
29
Todo cuestionario tiene una validez interna que trata de que las preguntas que se hacen apuntan a alcanzar el
objetivo de la investigación. Se busca que todas las preguntas sean respondidas en su totalidad por los
encuestados. La falta de información es un costo muy alto que se asume en una investigación.
El primer análisis que se hace a las variables (preguntas) de un cuestionario se refiere a sus estadísticos
básicos o estadísticos de resumen. Si la variable es cualitativa, se mirará la frecuencia con la cual se obtiene el
porcentaje de respuestas para cada modalidad. Si la variable es cuantitativa, se considerará la media, su
desviación estándar y el coeficiente de variación.
En un estudio con los pacientes de un programa de control de la hipertensión realizado en el año 2003 en un
municipio de Antioquia con pacientes que se encuentran afiliados a una IPS, se seleccionaron algunas
variables medidas en una muestra de individuos y se presentan a continuación:
Tabla 1. Archivo de datos de la muestra de personas hipertensas de una IPS de Frontino (Antioquia), 2003.
Identif sexo edad conoci fuma licor activfisica fritos/dia freír sal salero proble
1 2 64 2 2 2 2 3 1 1 2 2
2 2 65 1 1 2 1 3 1 1 2 1
3 2 45 1 1 2 1 3 1 2 2 1
4 2 59 1 2 2 1 3 1 2 2 1
5 2 52 1 2 2 1 1 1 1 2 2
6 2 52 1 2 2 1 2 1 1 2 1
7 1 65 2 1 2 1 3 3 1 1 1
8 2 62 1 2 2 1 3 1 2 2 1
9 1 46 1 1 2 1 3 1 1 2 1
10 1 62 1 2 2 1 1 1 2 2 2
11 1 64 2 2 2 2 3 1 1 2 1
12 1 50 1 1 2 1 3 1 2 2 1
13 2 73 1 1 2 2 2 1 2 2 1
14 2 73 1 1 2 1 3 1 3 1 1
15 2 46 1 1 2 1 2 1 2 2 1
16 2 64 1 1 2 2 2 1 2 2 1
17 2 59 1 1 2 1 1 1 2 2 1
18 2 72 1 1 2 1 1 1 2 2 1
19 1 61 2 1 2 2 1 1 2 2 1
20 1 62 1 2 2 1 3 1 2 2 2
21 2 55 1 1 0 1 3 1 2 2 1
22 1 50 1 2 2 1 3 1 2 2 2
23 2 55 2 2 2 2 2 1 2 2 1
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
30
24 2 61 2 2 2 1 3 1 2 2 1
25 2 71 2 1 2 2 1 1 1 1 2
26 2 63 1 2 2 1 1 1 2 2 1
27 1 73 1 2 2 2 3 3 1 2 1
28 2 57 2 2 2 2 3 1 2 2 1
29 2 57 2 2 2 2 3 3 1 2 1
30 2 59 1 2 2 2 2 1 2 2 1
31 2 64 1 2 2 1 2 1 2 2 1
32 1 65 1 2 2 1 3 1 1 2 1
33 2 69 1 2 2 2 3 1 1 2 1
34 2 48 1 2 0 2 3 1 1 2 1
35 2 74 1 2 0 2 3 1 2 2 1
36 1 50 2 2 0 1 2 1 2 2 2
37 2 58 2 2 0 1 3 1 1 2 1
38 2 65 1 2 0 1 3 1 2 2 1
39 2 73 1 1 0 1 2 1 2 2 1
40 1 69 2 2 0 2 3 1 2 2 2
41 2 67 1 2 0 1 1 1 2 2 1
42 2 71 1 2 0 1 3 1 2 2 2
43 1 71 1 2 1 1 3 1 1 2 1
b) Para la variable cuantitativa, la edad, construir una tabla en la siguiente forma: Tabla
#…. Estadísticos de resumen de …
Estadístico Valor
Media
Desviación estándar
Coeficiente de variación %
Mediana
Máximo
Mínimo
c) Obtener la razón de prevalencias OR de conocimiento del medicamento, fuma, consume licor, realiza
actividad física, contenido de sal, usa salero, los problemas influencian por las columnas y por las
filas, el sexo.
Con el fin de obtener la Razón de Disparidades para cada exposición con posible asociación al
riesgo de suicidio en adolescentes, se realizó la siguiente tabla de contingencia 71.
Efecto
+ -
Factor de riesgo + a b
- c d
a+c b+d
La asociación en este tipo de estudio se midió a través de la Razón de Disparidades (RD), que es un
estimativo de Riesgo Relativo53.
RD = ad/bc
La RD es la disparidad de los casos con respecto a la exposición, comparada con la disparidad de los
controles con respecto a la exposición71:
Si la RD es igual a 1, significa que no existe asociación entre los factores de riesgo estudiados y la condición
de riesgo de suicidio en los adolescentes71.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
32
Si es mayor de 1, y mientras más se aleje de 1, tanto mayor será la fuerza de asociación 71.
El intervalo del 95% de confianza para el OR se construye obteniendo los valores de los límites superior e
inferior mediante las siguientes fórmulas:
71. Trujillo F J, Mazuera M. Curso Modular de Epidemiología Básica. 3. Ed. Medellín: Universidad de
Antioquia; 1994.
Construir la tabla,
Fuma
Contenido de sal
Usa salero
El informe contiene en total 12 tablas discriminadas así: una tabla con los estadísticos de resumen de la edad
del paciente porque el nivel de medida es escala y 10 tablas de frecuencia con tres columnas, categoría,
frecuencia y porcentaje. La última tabla corresponde a la razón de disparidad, OR, con su intervalo de
confianza. Cada tabla tiene una interpretación y en la última tabla se interpretan cada uno de sus renglones.
Tabla 1. Distribución de frecuencia del sexo del paciente del programa de hipertensión en un municipio
antioqueño, 2003.
Frecuencia Porcentaje
Hombre 13 30,2
Mujer 30 69,8
Total 43 100
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
33
Tabla 2. Distribución de frecuencia del conocimiento que tiene del medicamento el paciente del programa
de hipertensión en un municipio antioqueño, 2003.
Frecuencia Porcentaje
Sí 31 72,1
No 12 27,9
Total 43 100
La edad promedio de los pacientes es 61,4 años (d.e.= 8,4 años) (Tabla 11).
Tabla 11. Estadísticos de resumen de la edad del paciente del programa de hipertensión en un municipio
antioqueño, 2003.
Estadístico Valor
Media 61,42
Desviación estándar 8,387
Coeficiente de variación 13,70%
Mediana 62
Máximo 74
Mínimo 45
Tabla 12. Razón de disparidad de hombres a mujeres del programa de hipertensión en un municipio
antioqueño, 2003.
Contenido de sal
Usa salero
En el semestre 20201 se inicia por primera vez el trabajo con el R en los cursos de Estadística descriptiva y
probabilidad, utilizando las guías de clase y las asesorías del profesor Jaime Andrés Gaviria Bedoya del grupo
de profesores de Matemáticas y Estadística de nuestra Facultad.
Se analizará una encuesta recogida por dos enfermeras profesionales de la Universidad de Antioquia quienes
cursaban estudios de Especialización en la Universidad María Cano. Ellas recogieron la encuesta entre los
pacientes de un programa de hipertensión en dos municipios del occidente antioqueño. El análisis de la
encuesta se basa en el tratamiento estadístico de las variables con nivel de medida en escala, en nivel de
medida nominal o en ordinal. Se termina el análisis con el cálculo de la razón de prevalencias, OR que es una
medida de asociación entre dos variables dicotómicas, en este caso el sexo por las filas y por las columnas
otras variables de interés. Todos los procedimientos estadísticos se realizan en R.
En un estudio con los pacientes de un programa de control de la hipertensión realizado en el año 2003 en un
municipio de Antioquia con pacientes que se encuentran afiliados a una IPS
Preparación para el análisis de la encuesta en R
A. Creación de un archivo de datos en Excel
Seleccione en la tabla 1 desde los nombres de las variables hasta la observación 43 en la última fila y
dele copiar. Luego abre una hoja de Excel y en la primera celda (celda 1A) le da clic derecho y luego
pegado especial, y escoge la opción, texto. Da clic y se despliega el archivo de datos en la hoja de
Excel. Dele la opción guardar como y dele el nombre Hipertensos; luego, guarda el archivo en la
carpeta, documentos en un archivo tipo Excel.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
35
B. Construcción de un Script en R
El espacio de trabajo será el Restudio que usted previamente ha instalado después de la instalación
del R.
Un Script es una serie de comandos de R que se escribe en la ventana source y en el cual se hacen
comentarios anteponiendo el símbolo, # o se ejecutan líneas de código de R en cualquiera de las
siguientes dos formas: i) se ubica el cursor en la línea de código y se oprimen las teclas control enter
en forma simultánea; ii) se ubica el cursor en la línea de código y se oprime run que está en el primer
renglón del source. Cuando se ejecuta una línea de código su resultado aparece en console y
posiblemente en la ventana Enviroment.
Se crea el Script siguiendo la siguiente secuencia de instrucciones: File – New file – Rscript. El
cursor lo ubica en la primera línea del Source. Se escribe el comentario o la instrucción y luego se
guarda mediante la secuencia, File-save as, le da el nombre, Hipertensos, escoge la carpeta donde lo
guardará, documentos y le da save. Queda guardado el Script; a medida que le adicione nuevas líneas
las puede guardar en el mismo Script. Si necesita copiar el script en un documento Word, lo
selecciona, lo copia y lo pega.
C. Importación y grabación del archivo de datos en R
Se importa la base de datos desde el archivo Excel mediante la instrucción que está en el
Enviroment, import dataset; esta instrucción permite importar archivos desde Excel, desde SPSS,
desde SAS y desde STATA que son los paquetes estadísticos más utilizados.
En nuestro caso, tenemos guardado el archivo, Hipertensos.xlsx, en la carpeta documentos; la
secuencia es import dataset- from Excel. Busca el archivo en la carpeta con Browse. Selecciona el
archivo y le da open; muestra el archivo con sus datos y sus variables; en code preview, muestra el
comando de R que se utilizó para importar. Se oprime import y el archivo con las primeras 50
observaciones es mostrado en source.
Este paso que es el más importante se hace más fácil con el Restudio que con el R. Se verifica que el
archivo esté completo y se guarda como una base de datos de R, en la carpeta documentos, póngale
el nombre, HipertensosR en la secuencia, En Enviorement se va al disquete para guardar, se busca la
carpeta donde se guardará, se asigna el nombre y se da save; va al primer renglón del source para
traer el Script que se está trabajando. Cada vez que se necesite la base de datos en R es más fácil
traerla al espacio de trabajo desde Enviroment con la opción de abrir carpeta.
D. Ejecución de cada línea de comando y obtención de los resultados
En este momento del presente documento, hemos guardado la base de datos de HipertensosR y la
tenemos disponible en Enviroment que es el espacio de trabajo; aparece que tiene 43 observaciones y
12 variables.
En el Script en source hemos escrito la primera línea con un comentario,
# Hipertensos y en la siguiente línea agregamos otro comentario, # Paso 1. Fijar los nombres de las
variables; luego escribimos la instrucción attach(Hipertensos) para fijar los nombres de las variables;
puede ejecutarse esta línea colocando el cursor al final de la instrucción y oprimir simultáneamente
control enter; se puede leer lo que aparece en la consola abajo, The following objects are masked
from Hipertensos (pos = 3): activfisica, conoci, edad, freír, fritos/dia, fuma, Identif, licor, proble,
sal, salero, sexo.
La siguiente línea en el Script es, names(Hipertensos)#Este comando sirve para mostrar los nombres
de las variables. Puede ejecutarse y observar el resultado: > names(Hipertensos)#Este
comando sirve para mostrar los nombres de las variables
[1] "Identif" "sexo" "edad" "conoci" "fuma" "licor" "activfisica" "fritos/dia"
[9] "freír" "sal" "salero" "proble"
Se le van a colocar etiquetas a la variable sexo para que 1 sea Hombre y 2 sea mujer; se escriben
varias líneas de código en el Script para lograr este objetivo:
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
36
class(sexo)
sexo
#cómo convertir la variable sexo en factor
sexo<-as.factor(sexo)
# especificar las etiquetas de la variable
levels(sexo)<-c('Hombre','Mujer')
levels(sexo)
Para obtener las frecuencias del sexo, se escriben las siguientes instrucciones:
#Tabla de frecuencia de la variable
table(sexo)
prop.table(table(sexo))
prop.table(table(sexo))*100
Tabla 1. Distribución de frecuencia del sexo del paciente del programa de hipertensión en un
municipio antioqueño, 2003
Frecuencia Porcentaje
Hombre 13 30.2
Mujer 30 69.8
Total 43 100.0
Estadístico Valor
Mediana 62 años
Máximo 74 años
Mínimo 45 años
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
38
conoci
sexo 1 2
Hombre 8 5
Mujer 23 7
La tabla cruzada que se produce para obtener el OR es:
Conoci
1= Sí 2=No
Hombre 8 5
Mujer 23 7
Cálculo del OR
1 1 1 1
1.96
8 5 23 7
OR * e
1 1 1 1
1.96
8 5 23 7
El límite inferior del intervalo es: OR * e
1 1 1 1
1.96
8 5 23 7
El límite superior del intervalo es OR * e
LimInf<-OR*exp(-1.96*(sqrt(1/8+1/5+1/23+1/7)))
> LimInf
[1] 0.1198959
> LimSup<-OR*exp(+1.96*(sqrt(1/8+1/5+1/23+1/7)))
> LimSup
[1] 1.977772
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
39
OR Límite Límite
inferior del superior del
OR OR
Actividad física
salero
sal
problemas
F. Script en R
# Hipertensos
# Paso 1. Fijar los nombres de las variables
attach(Hipertensos)
names(Hipertensos)#Este comando sirve para mostrar los nombres de las variables
class(sexo)
sexo
#cómo convertir la variable sexo en factor
sexo<-as.factor(sexo)
# especificar las etiquetas de la variable
levels(sexo)<-c('Hombre','Mujer')
levels(sexo)
#Tabla de frecuencia de la variable
table(sexo)
prop.table(table(sexo))
prop.table(table(sexo))*100
#análisis descriptivo de la edad
class(edad)
edad
summary(edad)
sd(edad)#desviación estándar de la edad
cv=sd(edad)/mean(edad)*100
cv
#Generación de una tabla cruzada
table(sexo,conoci)
#Obtención del OR
OR<-(8*7)/(23*5)
OR
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
40
LimInf<-OR*exp(-1.96*(sqrt(1/8+1/5+1/23+1/7)))
LimInf
LimSup<-OR*exp(+1.96*(sqrt(1/8+1/5+1/23+1/7)))
LimSup
Profesores participantes:
Ramón Eugenio Paniagua Suárez
Emmanuel Nieto
Margarita María Pérez Osorno
Juan David Correa
Estudiantes de la Tecnología de Sistemas de Información en Salud –Turbo.
Coordinador del programa: Fernán Alonso Villa Garzón
Introducción
El presente estudio responde a la pregunta, ¿cuáles son los problemas de salud pública que identifican los
jefes de hogar en el municipio de Turbo?, para lo cual se diseñó una muestra aleatoria de manzanas en la zona
urbana tomadas desde el mapa del municipio. La investigación tiene tres dimensiones: una familiar y de salud
mental, la segunda corresponde al saneamiento básico y una tercera sobre salud y trabajo con las cuales le
damos pertinencia social a tres cursos de los ofrecidos a los programas en salud pública que ofrece la Facultad
Nacional de Salud Pública. Se pretenden visibilizar algunos problemas en estas tres dimensiones para buscar
colocarlos en la agenda pública de la administración del municipio en el período que recientemente se
iniciará. El objetivo de la investigación es conocer el acceso a los servicios de salud pública en las
dimensiones en consideración.
Objetivo general
Identificar los problemas de salud pública en tres aspectos: funcionamiento familiar, satisfacción con la vida
y situaciones difíciles de la familia y empleabilidad desde una muestra de jefes de hogar del municipio de
Turbo en el año 2015.
Objetivos específicos
Determinar el nivel de funcionamiento familiar en una muestra de jefes de hogar de municipio de Turbo en el
año 2015.
Determinar la satisfacción con la vida en una muestra de jefes de hogar de municipio de Turbo en el año
2015.
Determinar las situaciones difíciles en la familia en una muestra de jefes de hogar de municipio de Turbo en
el año 2015.
Metodología
El estudio es exploratorio y descriptivo en el cual se selecciona una muestra por conveniencia de jefes de
Hogar en el municipio de Turbo (Antioquia) entre los meses de agosto y septiembre de 2015. Desde el mapa
del municipio de Turbo en el cual se delimita el componente urbano y se identifican las manzanas, se procede
a enumerarlas consecutivamente desde la 1 hasta la 404 para obtener una muestra aleatoria de 20 manzanas
tomando en cuenta que, según el Departamento Administrativo Nacional de Estadística, DANE, existen en
promedio 40 viviendas por manzana. Se muestrean todas las viviendas de las manzanas seleccionadas. La
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
41
unidad de observación es el jefe del hogar sea hombre o mujer que habite la vivienda componente de la
manzana que aparece en le muestra. Se utiliza una encuesta elaborada por los profesores la cual recoge
preguntas de otros instrumentos y con la cual se miden el funcionamiento familiar, el saneamiento básico y el
empleo.
Después de un mes del conteo y selección de las manzanas se seleccionan 18 de ellas y se les asignan
estudiantes de la Tecnología en Sistemas de Información con sede en Turbo para que recojan la información.
Tabla 1. Direcciones y número de viviendas en las manzanas seleccionadas aleatoriamente, Tubo, 2015.
Número de la Dirección Número de N° de
manzana en el mapa viviendas estudiantes
212 Calle 106, caño yoyó, carrera 10 y carrera 11 41 2
294 Calle 98 B y calle 98 C, carrera 11 y 12 56 3
346 Carrera 15 y 16, calle 96 y calle 96 A 86 4
46 Carrera 13 y calle 110 y 111 97 4
41 Carrera 13 y 14 calle 99 y 98ª 32 2
264 Carrera 15 y 16, caño Veranillo y calle 101 33 2
291 Calle 99 y calle 98 C, carrera 12 50 2
287 Carrera 10 y 9, Calle 100 y 101 92 4
388 Carrera 19 y calle 91 54 2
323 Carrera 15, calle 98 y 98 A 50 2
103 calle 110 y 111, carrera 10 65 3
390 Calle 96, carrera 15 42 2
231 Calle 103 y 104, carrera 11 48 2
326 Calle 99, carrera 19 26 2
262 Calle 102, carrera 16 y 17 41 2
106 Carrera 13 y 12, calle 110 48 2
30 carrera 17 calle 102 y 102b 36 2
Total 897 42
Existe un equipo de seis estudiantes para organizar la parte logística. La meta es realizar por lo menos 400
encuestas y con estas manzanas es suficiente.
Se realizó una prueba piloto el día sábado 8 de agosto de 2015 con jefes de hogar de los municipios de
Apartadó, Chigorodó, Necoclí, Mutatá y Turbo para probar el instrumento con un total de 42 encuestas.
Después de su revisión y análisis se construye una encuesta final.
afectó mucho a mi
familia
Murió Murió un miembro de la familia, un 1: No ocurrió; 2: Ordinal
pariente o un amigo cercano Ocurrió, pero no afectó a
mi familia; 3: Ocurrió y
afectó mucho a mi
familia
Dificultades Uno de nosotros tuvo dificultades en 1: No ocurrió; 2: Ocurrió Ordinal
la escuela, colegio o universidad pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Cambios Uno de nosotros tuvo cambios 1: No ocurrió; 2: Ocurrió Ordinal
importantes en el trabajo. pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Conflictos Hubo serios conflictos o problemas 1: No ocurrió; 2: Ocurrió Ordinal
familiares pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Separaron Mis padres se separaron 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Dinero Hubo problemas de dinero en la casa 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Violencia Hubo violencia entre los miembros 1: No ocurrió; 2: Ocurrió Ordinal
de la familia pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Vivienda La familia se cambió de vivienda 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Nuevapareja Uno o ambos padres se unió a una 1: No ocurrió; 2: Ocurrió Ordinal
nueva pareja o se volvieron a casar pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Adoptó La familia o uno de sus miembros 1: No ocurrió; 2: Ocurrió Ordinal
tuvo o adoptó un hijo pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Alimentó La familia se alimentó mal por falta 1: No ocurrió; 2: Ocurrió Ordinal
de dinero. pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
44
familia
Sinvivienda La familia se quedó sin vivienda 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Faltadiner Alguien de la familia no pudo ir al 1: No ocurrió; 2: Ocurrió Ordinal
médico por falta de dinero pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Sefugó Uno de los hijos se fugó de la casa 1: No ocurrió; 2: Ocurrió Ordinal
pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Abandonó Uno de los padres abandonó a la 1: No ocurrió; 2: Ocurrió Ordinal
familia pero no afectó a mi
familia; 3: Ocurrió y
afectó mucho a mi
familia
Las encuestas fueron tabuladas en el área tecnológica por parte de estudiantes y egresados de la Facultad
Nacional de Salud Pública y la entregaron el formato del software estadístico SPSS.
Profesores participantes:
Ramón Eugenio Paniagua Suárez
Emmanuel Nieto
Margarita María Pérez Osorno
Juan David Correa
Estudiantes de la Tecnología de Sistemas de Información en Salud –Turbo.
Coordinador del programa: Fernán Alonso Villa Garzón
Introducción
El presente estudio responde a la pregunta, ¿cuáles son los problemas de salud pública que identifican los
jefes de hogar en el municipio de Turbo?, para lo cual se diseñó una muestra aleatoria de manzanas en la
zona urbana tomadas desde el mapa del municipio. La investigación tiene tres dimensiones: una familiar y de
salud mental, la segunda corresponde al saneamiento básico y una tercera sobre salud y trabajo con las cuales
le damos pertinencia social a tres cursos de los ofrecidos a los programas en salud pública que ofrece la
Facultad Nacional de Salud Pública. Se pretenden visibilizar algunos problemas en estas tres dimensiones
para buscar colocarlos en la agenda pública de la administración del municipio en el período que
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
45
recientemente se iniciará. El objetivo de la investigación es conocer el acceso a los servicios de salud pública
en las dimensiones en consideración.
Objetivo general
Identificar los problemas de salud pública en cinco aspectos: suministro de agua, manejo de aguas residuales,
manejo de residuos sólidos y ámbito de trabajo del jefe de hogar del municipio de Turbo en el año 2015.
Objetivos específicos
Describir algunas de las características de saneamiento ambiental, intrínsecamente relacionadas con la calidad
de vida de sus habitantes en una muestra de jefes de hogar de municipio de Turbo en el año 2015.
Caracterizar el perfil de empleo, desempleo e ingresos laborales de una muestra de jefes de hogar de
municipio de Turbo en el año 2015.
Identificar los factores socioeconómicos y laborales asociados al acceso a los servicios de salud de una
muestra de jefes de hogar del municipio de Turbo en al año 2015.
Metodología
El estudio es exploratorio y descriptivo en el cual se selecciona una muestra por conveniencia de jefes de
Hogar en el municipio de Turbo (Antioquia) entre los meses de agosto y septiembre de 2015. Desde el mapa
del municipio de Turbo en el cual se delimita el componente urbano y se identifican las manzanas, se procede
a enumerarlas consecutivamente desde la 1 hasta la 404 para obtener una muestra aleatoria de 20 manzanas
tomando en cuenta que, según el Departamento Administrativo Nacional de Estadística, DANE, existen en
promedio 40 viviendas por manzana. Se muestrean todas las viviendas de las manzanas seleccionadas. La
unidad de observación es el jefe del hogar sea hombre o mujer que habite la vivienda componente de la
manzana que aparece en le muestra. Se utiliza una encuesta elaborada por los profesores la cual recoge
preguntas de otros instrumentos y con la cual se miden el funcionamiento familiar, el saneamiento básico y el
empleo.
Después de un mes del conteo y selección de las manzanas se seleccionan 18 de ellas y se les asignan
estudiantes de la Tecnología en Sistemas de Información con sede en Turbo para que recojan la información.
Tabla 1. Direcciones y número de viviendas en las manzanas seleccionadas aleatoriamente, Tubo, 2015.
Número de la Dirección Número de N° de
manzana en el mapa viviendas estudiantes
212 Calle 106, caño yoyó, carrera 10 y carrera 11 41 2
294 Calle 98 B y calle 98 C, carrera 11 y 12 56 3
346 Carrera 15 y 16, calle 96 y calle 96 A 86 4
46 Carrera 13 y calle 110 y 111 97 4
41 Carrera 13 y 14 calle 99 y 98ª 32 2
264 Carrera 15 y 16, caño Veranillo y calle 101 33 2
291 Calle 99 y calle 98 C, carrera 12 50 2
287 Carrera 10 y 9, Calle 100 y 101 92 4
388 Carrera 19 y calle 91 54 2
323 Carrera 15, calle 98 y 98 A 50 2
103 calle 110 y 111, carrera 10 65 3
390 Calle 96, carrera 15 42 2
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
46
Existe un equipo de seis estudiantes para organizar la parte logística. La meta es realizar por lo menos 400
encuestas y con estas manzanas es suficiente.
Se realizó una prueba piloto el sábado 8 de agosto de 2015 con jefes de hogar de los municipios de Apartadó,
Chigorodó, Necoclí, Mutatá y Turbo para probar el instrumento con un total de 42 encuestas. Después de su
revisión y análisis se construye una encuesta final.
Las encuestas fueron tabuladas en el área tecnológica por parte de estudiantes y egresados de la Facultad
Nacional de Salud Pública y la entregaron el formato del software estadístico SPSS.
INFORME FINAL SOBRE EL ANÁLISIS DE UNA ENCUESTA
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
48
En el informe final deben aparecer las tablas de cada una de las variables construidas teniendo en cuenta su
medida que indica si es una tabla de frecuencia (nominal y ordinal) o una tabla con estadísticos de resumen
(escala). Cada tabla tiene un título y una interpretación. Observe que en el cuadro de variables parecen unos
temas que agrupan a unas variables. Se deben interpretar cada una de las tablas y luego sacar una conclusión
de lo evidenciado en cada tema. Luego se saca una conclusión general de todo el estudio en un párrafo de por
lo menos 200 palabras.
SUPLENTES
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
49
Ejercicio 10
Es una distribución de probabilidad continua que recibe el nombre de normal porque una parte de los médicos
y de los biólogos creyeron que todas las variables naturales de interés seguían este modelo.
1 ( x ) 2
1
f ( x) e2
Su función de densidad es: 2 donde x
Se dice que X ~ N (, ) que se lee “equis se distribuye normal con media y desviación estándar .
X i ~ N ( i , i )
para i=1,2,3, …, n la combinación lineal
Y an X n an1 X n1 ... a1 X 1 a0
sigue también el modelo normal:
n n
Y N (a0 ai i , a 2
i
2
)
i 1 i 1
Hay muchas variables asociadas a fenómenos naturales que siguen el modelo normal:
Caracteres morfológicos de individuos (personas, animales, plantas) de una especie; por ejemplo, tallas,
pesos, envergaduras, diámetros.
Caracteres fisiológicos; por ejemplo, efecto de una misma dosis de un fármaco, o de una misma cantidad
de abono.
Caracteres sociológicos; por ejemplo, cociente intelectual, grado de adaptación a un medio.
El número de errores cometidos al medir ciertas magnitudes.
Valores estadísticos muestrales como la media, y la proporción para muestras con n >30.
Otras distribuciones como la binomial o la de Poisson son aproximaciones normales.
Porcentaje
Peso en Z
Con las variables cuantitativas se puede hacer un análisis más rico5 mediante diferentes técnicas que reciben
el nombre de Análisis Exploratorios de Datos (Exploratory Data Analysis).
Las variables aleatorias toman valores que pueden ser continuos o discretos y los valores que asume la
variable no son igualmente probables.
Toda variable aleatoria X genera una serie de valores en su medición que reciben el nombre de distribución
de la variable o de la población que se encuentra asociada a esa variable y es la probabilidad de que la
variable tome cada valor dentro de la población.
Por ejemplo, en la Universidad de Antioquia, la variable sexo genera una población formada por todos los
valores de hombre o mujer; la aparición de cada valor de la variable sexo tiene asociada una probabilidad o
posibilidad.
La probabilidad es una medida de aparición de uno o más números como valores de X. La probabilidad,
aplicada a los valores que toma la variable aleatoria, mide la frecuencia con que un valor es asumido por una
variable.
Cuando se trabaja con variables continuas se puede realizar un análisis un poco más amplio que el realizado
con variables cualitativas.
*
Algunos conceptos fueron tomados del libro, MILTON, S. Estadística para Biología y Ciencias Sociales. 3° edición. Edic.
Mc GraW – Hill.
5
Clavijo, Jairo. Curso Básico de Estadística. Universidad del Tolima. Ibagué. 2000.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
52
El objeto de realizar este análisis es el de comparar la distribución de estas variables con la distribución
normal que es el referente por ser una distribución simétrica. Cuando no se cumple la simetría se utilizan
como estadísticos de la distribución, la mediana y el rango intercuartil.
El análisis de una variable cuantitativa se logra conociendo todas sus estadísticas de resumen que son: la
media, moda, mediana, desviación estándar, primer cuartil, tercer cuartil y coeficiente de variación,
coeficiente de simetría y coeficiente de curtosis. Estas estadísticas tienen fórmulas un poco distintas cuando
los datos están sin agrupar (menos de 15) y cuando están agrupados en distribuciones de frecuencia.
Conceptualmente significan lo mismo para ambos casos.
Es difícil, de un vistazo, tener una visión clara sobre la estructura de la distribución de una variable porque a
veces sus datos son muy diferentes o el número de ellos es muy grande; en tal caso, se recomienda empezar a
organizarlos en cualquiera de las dos formas: tabla de frecuencia y diagrama de tallos y hojas.
Tomado del libro: Vargas Viviana. Estadística descriptiva para ingeniería ambiental con SPSS. Universidad
Nacional de Colombia. Facultad de Ingeniería y Administración sede Palmira. Cali; 2007. Pag. 71.
Ejemplo: Muestras del nivel de presión sonora de ruido medida en decibeles (dB) en diferentes estaciones de
la ciudad de Cali. (LPD, en el día. LPN, en la noche)
N° de estación LPD (dB) LPN(dB) N° de estación LPD (dB) LPN(dB)
1 63,7 56,6 26 65,1 57,6
2 66,9 60,2 27 55,3 47,1
3 66,8 56,0 28 71,3 61,7
4 75,3 72,3 29 72,3 72,8
5 70,8 67,2 30 64,6 54,6
6 75,0 68,3 31 59,6 55,8
7 76,3 67,3 32 70,6 70,7
8 75,0 69,4 33 65,3 60,0
9 71,4 72,3 34 74,0 68,3
10 77,4 70,7 35 74,9 69,9
11 71,6 65,7 36 64,1 59,8
12 70,5 65,1 37 53,3 44,2
13 73,7 65,9 38 62,5 52,7
14 71,0 64,7 39 62,3 56,6
15 56,1 54,1 40 75,4 70,0
16 69,0 63,1 41 61,1 49,6
17 72,1 68,5 42 65,9 57,7
18 74,1 71,0 43 62,6 63,0
19 76,5 71,0 44 50,2 42,0
20 57,3 55,4 45 50,9 44,6
21 71,6 67,4 46 62,0 52,7
22 67,2 63,5 47 64,0 54,4
23 62,3 55,5 48 58,7 50,6
24 69,4 64,5 49 68,2 62,7
25 60,5 60,7 50 61,6 49,1
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
53
LPN (dB) fi
LPD (dB)
fi
50,2 1 50,2 1
50,9 1 50,9 1
53,3 1 53,3 1
55,3 1 54,1 1
56,1 1 55,3 1
57,3 1 55,4 1
58,7 1 55,5 1
59,6 1 56 1
60,5 1 56,6 1
61,1 1 58,7 1
61,6 1 59,6 1
62 1 60,2 1
62,3 2 60,7 1
62,5 1 61,1 1
62,6 1 61,6 1
63,7 1 62 1
64 1 62,3 1
64,1 1 62,5 1
64,6 1 62,6 1
65,1 1 63,1 1
65,3 1 63,5 1
65,9 1 64 1
66,8 1 64,1 1
66,9 1 64,5 1
67,2 1 64,6 1
68,2 1 64,7 1
69 1 65,1 2
69,4 1 65,3 1
70,5 1 65,7 1
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
54
70,6 1 65,9 2
70,8 1 67,2 1
71 1 67,3 1
71,3 1 67,4 1
71,4 1 68,2 1
71,6 1 68,3 1
71,6 1 68,5 1
72,1 1 69,4 1
72,3 1 70,6 1
73,7 1 70,7 1
74 1 71 2
74,1 1 71,3 1
74,9 1 72,3 3
75 1 74 1
75 1 74,9 1
75,3 1 75,4 1
75,4 1
76,3 1
76,5 1
77,4 1
12.2 Diagrama de Tallos y hojas. Representación gráfica de los datos de una variable cuantitativa
Una primera aproximación a la forma de la distribución de una variable cuantitativa la puede dar
El diagrama de tallo y hojas simple que es otra forma de organizar los datos para observar hacia qué valores
se agrupan los datos de la distribución. Los tallos están formados por al menos 5 dígitos iniciales de los
números y pueden representar: millones, cientos de miles, miles, cientos, etc. Dependiendo de la magnitud de
los datos se escogen los tallos; las hojas las representan los demás dígitos de cada dato observado. En
algunas ocasiones pueden tomarse como tallos los dos primeros dígitos; si el número de tallos es menor que 5
se duplica cada uno para obtener el número apropiado de tallos. En cada uno de estos tallos duplicados se
agrupan las hojas entre cero y 4 inclusive y en el otro las hojas entre 5 y 9.
En el ejemplo de las mediciones de perímetro craneal se tomarán como tallos los dos primeros dígitos, es
decir, las decenas; se consideran los tallos 33, 34, 35 y 36; son 4 tallos entonces se deben duplicar de la
siguiente forma:
2 33. 14
5 33. 67789
9 34. 012222233
9 34. 556667789
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
55
5 35. 11223
2 35. 68
2 36. 01
1 36 5
Se observa que la distribución se recoge alrededor entre 33.9 y 35.1 donde se ubican la mayoría de las
observaciones, 28 de las 35.
x = 34.59 = 34.6.
Sn-1 = 0.789
El coeficiente de Variación C.V. = 2.2%.
Ejercicio 17. Obtener el diagrama de tallos y hojas adosado para las mediciones de presión sonora en el día
al lado izquierdo y en la noche, al lado derecho.
Los siguientes ejercicios son extraídos textualmente del libro Estadística para Biología y ciencias de la salud.
J. Susan Milton. Editorial Mc Graw – Hill. 3°edición.
1. Se considera como derrumbamiento aquél en el que los escombros han recorrido una distancia sobre el
suelo plano, o ligeramente inclinado, varias veces mayor que su altura caída. Se realizó un estudio del
alcance (distancia recorrida por los escombros) de estos derrumbamientos y se obtuvieron los siguientes
datos. (Basado en los datos publicados por Charles Campbell, journal of geology, noviembre de 1989,
pags, 653 – 665)
Alcance, Km
a) Construir un diagrama de tallo y hojas para estos datos. Utilícese la parte entera de cada número como
tallo y el primer dígito tras el decimal como hoja.
b) ¿Piensa que en el futuro sería raro encontrar un derrumbamiento con un alcance de 10 ó más
kilómetros? ¡Argumente!
c) Mediante una simple inspección, dé una aproximación del alcance medio de estos derrumbamientos.
2. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a los niños. El nivel de protección
estándar obtenido por las antiguas vacunas era de 1 g/mL, un mes después de la inmunización.
Transcurrido un mes, se han obtenido estos datos del nivel de protección de la nueva vacuna:
b) ¿Se sorprendería si le dijeran que X, nivel de protección transcurrido un mes de la nueva vacuna, tiene
una distribución en forma de campana?
c) Mediante la inspección del diagrama de tallos y hojas, haga un cálculo aproximado del nivel de
protección medio utilizando la nueva vacuna. ¿Se sorprendería si le dijeran que la nueva vacuna tiende a
proporcionar un mayor nivel de protección que la estándar?
3. En un estudio realizado a pacientes clínicos cardíacos varones, el objeto del mismo fue detectar las
variables que contribuyen al estrés de estos pacientes. El estrés se midió mediante la puntuación de
ansiedad de Hamilton. Estas marcas se encuentran en una escala de comparar los dos grupos de pacientes.
Se obtuvieron los siguientes datos:
f) Basándonos en estos datos. ¿Podemos concluir que la puntuación media de estrés para todos los
pacientes cardíacos varones que viven solos está por debajo de la puntuación de todos los pacientes
cardíacos varones que viven con otras personas? Explique.
Acústico Visual
86 106 117 72 95 73
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
57
99 114 126 75 80 70
115 77 78 89
a) Construir un diagrama de tallo y hojas doble para cada conjunto de datos. Utilizar los dos primeros
dígitos de cada número como tallo. El tallo para un número como 86 es 08.
b) ¿Se sorprendería si le dijeran que la latencia está simétricamente distribuida en ambos casos?
c) ¿Se sorprendería si le dijeran que la latencia sigue una distribución en forma de campana en ambos
casos?
4. Se realiza un estudio para ayudar a comprender el efecto que tiene el hábito de fumar en los patrones de
sueño. La variable aleatoria considerada X, tiempo en minutos que se tarda en quedar dormido. Las
muestras de fumadores y no fumadores producen estas observaciones sobre X.
No fumadores Fumadores
17.2 19.7 18.1 15.1 18.3 17.6 15.1 20.5 17.7 21.3 16.0 24.8
16.2 19.9 19.8 23.6 24.9 20.1 16.8 21.2 18.1 22.1 15.9 25.2
19.8 22.6 20.0 24.1 25.0 21.4 22.8 22.4 19.4 25.2 18.3 25.0
21.2 18.9 22.1 20.6 23.3 20.2 25.8 24.1 15.0 24.1 21.6 16.3
21.1 16.9 23.0 20.1 17.5 21.3 24.3 25.7 15.2 18.0 23.8 17.9
21.8 22.1 21.1 20.5 20.4 20.7 23.2 25.1 16.1 17.2 24.9 19.9
19.5 18.8 19.2 22.4 19.3 17.4 15.7 15.3 19.9 23.1 23.0 25.0
a) Construir un diagrama de tallo y hojas adosado a estos con juntos de datos. Utilizar los enteros 15 al
25 inclusive como tallos.
b) ¿Se sorprendería si alguien le dijera que no existe diferencia en cuanto a la distribución de X en los dos
grupos? Explique.
5. Los incendios de vegetación en pradera, matorral y bosque son un fenómeno común. Algunos son
accidentales, pero otros son provocados con el fin de crear hábitats post – fuego que beneficien a plantas
y animales. No obstante, el suelo que ha sido expuesto a un alto calentamiento puede esterilizarse. Se
realizó un estudio para determinar el efecto de esta esterilización en el crecimiento de plantas, en
concreto rábanos. La variable medida fue el peso seco de la planta al cabo de 4 semanas.
9 28 26 16 19 13
10 18 17 15 14 2
10 28 10 7 11 6
30 30 11 9 6 3
25 35 34 18 14 11
9 15 20
a) Construir un diagrama de tallo y hojas doble para cada uno de los conjuntos de datos. ¿Parece tener
cada diagrama forma aproximada de campana?, ¿Cuál parece más disperso?, ¿Cuál parece tener la menor
tendencia central?
b) Construir un diagrama de tallo y hojas adosado doble para estos datos. Comentar qué reflejan estos
datos acerca de la capacidad de crecimiento de los rábanos en suelo estéril.
Son medidas que se ubican en el centro de la distribución de los datos, si éstos se observan en un diagrama de
tallos y hojas.
La media de una distribución es un valor central que es el promedio de todos los datos; es decir, se suman
n
x f i i
todos los datos y esa suma se divide por el número de datos. x i 1
.
n
La mediana es un valor central que divide la distribución de los datos en dos partes iguales del 50% cada uno;
equivale al percentil 50, P50; para obtenerla, los datos deben estar ordenados de menor a mayor. La mediana
se denota por Me. Si el número de datos es par, el valor central es el promedio de los dos valores centrales;
si el número de datos es impar, es el valor que está en la posición central.
Me= 34.5
La moda es el valor o valores con más alta frecuencia de aparición; no es única; se denota por Mo.
Mo= 34.2
Son medidas que nos muestran cuánto varían los datos entre sí. Si la diferencia entre el dato mayor y el
menor es grande, todas las medidas de variabilidad serán grandes.
El Rango es una medida de variabilidad que se calcula en unos datos para formarse una idea de la
variabilidad de esa variable; de acuerdo al criterio del investigador y al conocimiento sobre esa variable,
determinará qué es un rango alto o bajo.
La desviación estándar es la raíz cuadrada de la varianza; en una muestra se denota por la letra ese, s y en la
población por la letra sigma . Se acostumbra a trabajar con la desviación estándar corregida,
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
59
El coeficiente de variación, CV mide el grado de homogeneidad de los valores de una distribución; se calcula
mediante la fórmula,
s N 1
C.V. =
100
X
Si C.V. < 10% se dice que los datos son homogéneos y la media es una buena representante de los datos de
la distribución. Si C.V. > 10% se dice que los datos son heterogéneos.
Observación: El coeficiente de variación permite comparar variables numéricas de diferente tipo o que estén
en escalas de medida diferente o con unidades de medida, diferentes; por ejemplo, considere una muestra con
las estaturas de los estudiantes y otra con el tiempo de llegada a clase; se determina cuál de las muestras es
más homogénea seleccionando el que tenga el coeficiente de variación más pequeño.
Observaciones:
1. La mediana y la moda son menos sensibles a los cambios por que destacan valores individuales que
dependen de su posición o frecuencia de aparición, en tanto que la media promedia las magnitudes
de esos valores.
2. Si la media es mayor que la mediana, la distribución a asimétrica positiva o con cola hacia el lado
derecho.
3. Si la media es menor que la mediana, la distribución es asimétrica negativa o con cola hacia el lado
izquierdo.
5. Con los estadísticos descriptivos para variables cuantitativas o numéricas se busca la simetría de
estas distribuciones para llegar a compararlas con la distribución Normal. Si la simetría es difícil de
alcanzar la media y la desviación estándar no tiene sentido.
El C.V. = 2.2% que es menor que el 20% significa que los datos son homogéneos.
Estas medidas se encuentran a lo largo de la distribución de los datos, entre los valores menores y mayores y
la recorren al 100%.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
60
Los percentiles dividen la distribución de los datos en 100 partes iguales del 1% cada una; el percentil i que
se escribe Pi denota el valor debajo del cual están el i% de los datos.
q = i x n/100 en donde
n: # de datos ordenados de menor a mayor.
i: porcentaje percentil que se quiere buscar
q: Es la posición del percentil i
Si q es un entero, el percentil que se busca está en el promedio de los valores de las posiciones q y q+1
Si q no es un entero, se redondea al inmediato superior y en esa posición está el percentil que se busca.
En el ejemplo de las medidas del perímetro craneal el P10 estará en la posición q= (10 x 35) /100 = 3.5; se
redondea a 4 y queda que q = 4. Con los datos ordenados de menor a mayor P10=33.7.
Nota: H en una tabla de frecuencias o en una distribución de frecuencias, representa a los percentiles.
Coeficiente de sesgo se usa para medir la simetría de las colas de la distribución mediante la fórmula:
El rango intercuartil, iqr = Q3 – Q1 = P75 – P25. El coeficiente percentil de Curtosis mide el apuntamiento
(puntiaguda) de una distribución, se utiliza el índice,
Conclusión: Las mediciones del perímetro craneal en los bebés se ajustan a una distribución normal.
Observación: En general las mediciones en los seres vivos se ajustan a una distribución normal.
Manejo de la calculadora
Ingreso de los datos en la calculadora de las mediciones de presión sonora
Se ingresan los datos en la calculadora en el modo SD oprimiendo DATA o DT el número de veces que
indique cada f en la siguiente forma:
Ejercicio 18: Considere los siguientes tres conjuntos de datos y llene el cuadro al final; analice los resultados
1. 24 24 37 37 38 40
2. 0 24 24 37 37 38 40
3. 24 24 37 37 38 40 70
Se importa al SPSS 15.0 un archivo de EXCEL 97 ó 2003 con la variable perímetro craneal y luego se graba
con extensión “.sav” del SPSS y en el editor de datos se pasa al campo de variables y se verifica que el “nivel
de medida” de la variable sea escala y el “tipo” de numérico.
Casos
Válidos Perdidos Total
N % N % N %
Perímetro 35 100,0% 0 ,0% 35 100,0%
Tabla 11. Estadísticos descriptivos que arroja el SPSS cuando se le da explorar una variable cuantitativa
Error
Estadístico típico
Perímetro Media 34,591 ,1334
Intervalo de confianza Límite inferior 34,320
para la media al 95% Límite superior
34,862
Media recortada al 5% 34,571
Mediana 34,500
Varianza ,623
Desv. típ. ,7890
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
62
Mínimo 33,1
Máximo 36,5
Rango 3,4
Amplitud intercuartil 1,0
Asimetría ,519 ,398
Curtosis ,007 ,778
La media es un valor central al cual se recogen, en promedio, los datos de una variable cuantitativa; en el
diagrama de tallos y hojas, se observa que el centro de la distribución está entre los dos tallos definido por el
valor 34, allí se recogen la mayoría de los datos y se supone que, si la distribución es simétrica, en ese
espacio están la media, la moda y la mediana.
Intervalo de confianza para la media al 95%: es una manera de hacer inferencia o generalización para la
media de la población. Tiene dos valores, el límite inferior y el límite superior. Se interpreta diciendo que se
tiene una confianza de que en el 95% de las veces en las que se tome una muestra de ese tamaño, la media de
la población de las mediciones de perímetro craneal en los bebés, está entre 34,320 y 34,862.
Media recortada al 5 %: se recortan el 5% de las observaciones y se calcula la media para observar si su
valor es parecido al calculado con todos los datos.
Mediana: es el valor central que se ubica en la mitad de la distribución; está en la posición (n+1)/2.
Varianza: Es una medida de variabilidad de los datos de de una variable con respecto a la media de esos
datos; la medida es la suma promedio de las desviaciones al cuadrado. Se denota por S 2 ó por 2. La
n
(x i x)2
fórmula para calcularla es S2 i 1
. También se puede calcular la varianza corregida mediante
n
n
(x i x)2
la fórmula: S2 i 1
.Es un estadístico difícil de interpretar porque tiene las unidades elevadas al
n 1
cuadrado.
Desviación típica o estándar (Desv.est): Es la desviación estándar promedio de de los datos de una variable
con respecto a su media; Se denota por S ó por y es la raíz cuadrada positiva de la varianza. Es muy útil
porque se expresa en las mismas unidades de los datos originales; por ejemplo, si la variable es la edad en
años, la desviación estándar es el número de años que en promedio se desvían los datos por encima o por
debajo de su media.
Error estándar de la media (Error est.): se expresa como la desviación cuasi promedia de los datos de una
S
variable; es una medida más exacta del error de la media; se calcula con la fórmula EE ( x ) . Sirve
n
para construir los intervalos de confianza para la media que es una forma de hacer inferencia o generalización
de la media de una muestra aleatoria hacia la media de la población.
Cuartil inferior (Percentil 25, (P25)): Es una medida de posición o un valor debajo del cual están el 25% de
los datos; también corresponde al cuartel 1.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
63
Mediana (percentil50 ó cuartil 2): es un valor central que divide la distribución de los datos en dos partes
iguales. En algunas ocasiones es preferible analizar la mediana y no la medida porque no cambia con la
magnitud que asuman los datos.
Cuartil superior (Percentil 75, (P75)): Es el valor debajo del cual están el 75% de los datos de la distribución
de la variable.
Moda: Valor que más aparece en la distribución de los datos de la variable; pueden existir varias modas.
Perímetro Stem-and-Leaf Plot (Diagrama de tallos y hojas del perímetro craneal en el SPSS)
2 33. 14
5 33. 67789
9 34. 012222233
9 34. 556667789
5 35. 11223
2 35. 68
2 36. 01
1 36. 5
Diagrama de caja reportado por el SPSS para las mediciones del perímetro craneal
37.0
36.0
35.0
34.0
33.0
Perímetro
Coeficiente de Variación: Es la comparación de la desviación típica o estándar con respecto a su media; mide
la homogeneidad de los datos; cuando los datos son homogéneos, la media es una buena representante de
ellos; algunos profesionales de la estadística consideran que la homogeneidad se da cuando el coeficiente de
variación es menor o igual al 10%; sin embargo, la experiencia enseña que es valor depende de la magnitud
de los datos en consideración y en algunos casos la homogeneidad se da para valores menores o iguales al
20%.
Desviación.típica
C.V . *100
Media
Desviación Típica1.3723
E.E. de la Media (*) 0.0360
-------------------------------------
(*) Usar con propósito de estimación para el I.C. de la media
8. Se indican los valores adyacentes con x y se conectan con la caja mediante líneas punteadas. Se
localizan los puntos de datos situados entre los límites internos y externos, puntos que se denotan
con círculos y que se consideran valores atípicos leves. Los puntos de datos situados por fuera de los
límites de los límites externos se marcan con asteriscos y se los conceptúa valores atípicos extremos.
Resultados estadísticos obtenidos sobre la variable número de hombres en santa rosa de osos en el 2004
Diagrama de Caja
Ejercicio 19. Con las medidas de presión sonora, calcular la media, la desviación estándar y el coeficiente de
variación en el dìa con LPD y en la noche con LPN
Tabla 15. Estadísticos de resumen de las mediciones de LPD (dB) en el día en Cali, 2007.
Media 66,36
Desviación estándar
Coeficiente de variación %
Mediana 66,5
Máximo 77
Mínimo 50
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
66
0 2 0 0 2 2 0 0 1
1 3 0 0 1 0 0 1 0
1 4 0 1 4 2 0 0
1 0 0 2 2 1 1 0 6
0 5 1 3 1 0 1
a) Diseñar un gráfico de barras de frecuencias para estos datos y estimar la media muestral mediante su
observación.
b) Calcular la media muestral y comparar este valor con su estimación del apartado a).
El error estándar muestral de la media (SE) que se define por SE(x)= s / n permite que se calcule un intervalo
para la media de la forma x ± SE(x).
Los siguientes ejercicios son tomados del libro Manual práctico de Estadística aplicada a las ciencias sociales.
Rubén Mullor, María Dolores Fajardo.
a) 18, 8, 6, 0, 8, 3, 2, 5, 8, 0
b)1, 5, 5, 7, 9, 1, 5, 7.
c) 119, 5, 4, 4, 4, 3, 1, 0.
9. Calcular, s, desviación estándar, en los siguientes conjuntos de datos e interpretar los resultados:
a) 10, 8, 6, 0, 8, 3, 2, 5, 8, 0.
b) 1, 3, 3, 5, 5, 5, 7, 7, 0.
c) 20, 1, 2, 5, 4, 4, 4, 0.
d) 5, 5, 5, 5, 5, 5, 5, 5, 5.
Una distribución de frecuencia es la agrupación de los datos de una variable en intervalos de clase los cuales
tienen un límite superior y uno inferior de tal forma que, entre los dos, hay un conjunto de datos o valores de
la variable que son los que definen el valor de la frecuencia absoluta f i. Cada intervalo tiene una frontera
inferior y una superior las cuales se obtienen restando y sumando, 0.5 ó 0.005 según los límites tengan o no
un dígito decimal. Cada intervalo de clase tiene una marca de clase que es su punto medio y se representa por
xi que es el valor con el cual se obtendrán la media y la desviación estándar. Los percentiles, cuartiles, la
media, la mediana y la moda se obtendrán con fórmulas diferentes a la de los datos sin agrupar en intervalos.
Cuando en una muestra de una población asociada con una variable, se tienen más de 16 datos, se agrupan en
intervalos de clase para conocer mejor su estructura y se calcula la frecuencia de aparición de esos datos en
esos intervalos de clase.
Si los límites de un intervalo, son números enteros, la frontera superior se obtiene sumándole 0.5 al límite
superior y la frontera inferior se obtiene restándole 0.5 al límite inferior; en (4, 9). La frontera superior es 9.5
y la inferior es 3.5.
Si los límites tienen un decimal, entonces la frontera se obtiene sumando y restando 0.05; si tiene dos
decimales las fronteras se obtienen sumando y restando 0.005. Así sucesivamente.
Pasos para construir una distribución de frecuencias
sucesivamente); el límite inferior del siguiente intervalo, es el valor consecutivo al límite superior de la
clase anterior y así se continúa hasta completar todos los intervalos que cubran los datos observados.
4. Determine la marca de clase de cada intervalo.
5. Determine las frecuencias de clase contando el número de observaciones que cae dentro de cada intervalo
de clase.
F H f
X X X
Se llama histograma Ojiva (sirve para ver Salen histograma y polígono
Los Percentiles)
Para el cálculo de los Percentiles de los datos agrupados en intervalos de clase y que se llaman
distribuciones de frecuencias, se utiliza la siguiente fórmula:
ixn
( – Fi-1) a
100
Pi = L1 +
Fi-Fi-1
i: percentil que se busca.
n: número de datos.
L1: Límite inferior del intervalo donde estará el percentil i.
a : tamaño o amplitud del intervalo donde estará el percentil i.
Fi-1: frecuencia acumulada anterior al intervalo donde estará percentil i.
Fi: frecuencia acumulada hasta el intervalo del percentil i.
ixn
es la posición del percentil i.
100
Cálculo de la Moda para distribuciones de frecuencia:
1
M o L1 a
1 2
L1: frontera inferior del intervalo donde está la moda.
1 : Exceso de la frecuencia modal sobre la clase inferior inmediata.
2 : Exceso de la frecuencia modal sobre la clase superior inmediata.
a: tamaño del intervalo
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
69
Tabla 15. Distribución de frecuencia de las edades de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Tabla 16. Distribución de frecuencia del puntaje de suicidio en los adolescentes escolarizados de la zona
nororiental de Medellín, 2006.
Intervalo Marca de fi Fi hi Hi
clase, xi
3-12 45
12-21 155
21-30 200
30-39 189
39-48 126
48-57 45
57-65 14
65-73 2
73-80 2
Total 779
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
70
Ejercicio 22: Construir una distribución de frecuencia de siete intervalos de clase para las mediciones de
presión sonora en el día y en la noche. SUGERENCIA: utilice la tabla de frecuencia de la página 54.
Los siguientes ejercicios son extraídos textualmente del libro Estadística para Biología y ciencias de la salud.
J. Susan Milton. Editorial Mc Graw – Hill. 3°edición.
10. En el estudio de pautas de crecimiento de los niños, una variable importante es la edad del niño cuando
comienza el crecimiento rápido de la adolescencia. Las siguientes observaciones se obtuvieron en un
estudio de 35 chicos y 40 chicas (edad en años).
Chicos
Chicas
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
71
a) Dividir cada conjunto de datos en el número de clases y construir la distribución de frecuencias con
la frecuencia relativa, frecuencia relativa acumulada, frecuencia y frecuencia acumulada.
b) Construir un histograma de frecuencias relativas para cada conjunto de datos. Comentar las
semejanzas o diferencias llamativas entre los histogramas.
c) Construir un polígono de frecuencias relativas acumuladas para cada conjunto de personas. Utilizar
la ojiva para calcular aproximadamente la edad en la que el 50% de los chicos ha iniciado el
crecimiento rápido de la adolescencia; hacer lo mismo para las chicas. ¿Existe una diferencia notable
entre los dos valores?
d) A la edad de 12 años, ¿qué porcentaje aproximado de chicas ha experimentado el inicio del
crecimiento rápido de la adolescencia? A la edad de 14 años, ¿qué porcentaje aproximado de chicos
ha experimentado el comienzo del crecimiento rápido de la adolescencia?
11. Se lleva a cabo un estudio para comparar la diversidad de plantas hallada en una porción incendiada y
otra no incendiada de un bosque nacional. Para cada zona, la variable medida fue el Índice de
Comparación Secuencial (ICS). Un alto valor de ICS indica que se encontraron especies muy diferentes
en ese sitio; un valor bajo de ICS indica la presencia de sólo unas pocas especies. Los siguientes datos se
obtuvieron en muestras de 35 sitios incendiados y 35 no incendiados.
Incendiados
No incendiados
b) Construir una distribución de frecuencia del ICS en cada porción incendiada y no incendiada.
c) Compare a partir de los resultados del punto anterior y concluya.
12. Al visitar 84 hogares de un barrio, un encuestador obtuvo los siguientes datos correspondientes al número
de miembros de cada hogar:
3 5 4 6 3 1 5 2 4 1 3 2
4 5 3 3 4 6 8 4 5 7 4 3
4 5 1 4 3 2 2 6 7 4 3 4
6 7 7 4 4 5 3 3 4 5 6 3
7 2 1 9 3 10 2 3 2 3 4 4
6 7 7 1 3 2 4 3 4 6 1 3
3 4 3 3 6 2 2 3 9 2 4 5
Construir una distribución de frecuencias y verificar si se ajusta a una distribución normal tomando en
cuenta sus estadísticas de resumen.
13. Los siguientes datos representan los ingresos mensuales en miles de pesos de un colectivo de
trabajadores:
68 54 78 150 75 84 175 70 71 53 91 66
Construir una distribución de frecuencia y verificar, desde los estadísticos descriptivos, si se ajusta a una
distribución normal.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
73
Ejercicio 22: Considere los datos de la siguiente tabla y realice las siguientes actividades:
a) Construir una distribución de frecuencia de seis intervalos para la basura por vivienda y llene la tabla:
b) Construya el histograma, el polígono y la ojiva de frecuencia
c) Obtenga las medidas de tendencia central, de variabilidad y de posición para la basura por vivienda
Tomado del libro: Vargas Viviana. Estadística descriptiva para ingeniería ambiental con SPSS. Universidad
Nacional de Colombia. Facultad de Ingeniería y Administración sede Palmira. Cali; 2007. Pag. 79.
1. Tabla de contingencia
La tabla cruzada relaciona dos variables cualitativas, una que se ubica en las filas y otra que se ubica en las
columnas; el número de celdas de tabla está definido por el número de categorías de la variable de la fila por
el número de categoría de las columnas. En cada celda se pueden colocar los valores absolutos y los valores
relativos expresados en porcentaje que se pueden calcular por fila, o por columna o sobre el gran total.
Ejemplo 11
Pregunta: ¿Cómo es la distribución del nivel de riesgo de suicidio según el sexo en los adolescentes
escolarizados de la zona nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del nivel riesgo de suicidio según el sexo en la muestra de adolescentes
de la zona nororiental de Medellín en el 2006.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
74
Hipótesis: Es posible que haya un porcentaje más alto adolescentes mujeres con riesgo de suicidio y por esta
razón el riesgo de suicidio depende del sexo del estudiante en esta zona de la ciudad.
Variables: nivel de riesgo de suicidio y sexo.
Estadístico: el porcentaje
Gráfico: Diagrama de barras
Del total de hombres, el 24% está en alto riesgo de suicidio y del total de mujeres, el 22% está en alto riesgo
de suicidio (Tabla 6).
Tabla 6. Nivel de riesgo de suicidio según el sexo de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Hombre, Mujer,
n=374 n=405
Alto 23,80% 22,20%
Moderado 23,50% 21,50%
Bajo 52,70% 56,30%
Total 100,00% 100,00%
En la tabla 6, los porcentajes están calculados con base en el total de cada comuna.
Se elabora un archivo codificado con las respuestas a la encuesta en Excel en la siguiente forma:
Primero, se coloca en la primera fila del mismo, la identificación del individuo y a continuación el nombre de
cada una de las variables. A continuación, se van colocando las respuestas de cada una de las encuestas en el
orden de las variables con los códigos previamente establecidos. Una vez digitada todas las respuestas se
guardan el archivo con formato de Excel 1997 ó 2003.
Se entra al SPSS 15 para Windows y se “abre el archivo”. Se selecciona en “tipo de archivo” el de Excel y en
la carpeta o ruta definida se selecciona el archivo y se le indica “abrir”. Pregunta que si en la primera fila
están los nombres de las variables y se da “aceptar”. El archivo queda abierto y ubicado en el editor de datos.
Se debe grabar en un archivo con extensión “. sav” para que quede en el formato de SPSS. Se verifica en cada
variable el nivel de medida correspondiente (nominal, ordinal o escala). Luego se entra al módulo “Analizar”
se escoge “estadísticos descriptivos” luego “tablas de contingencia” y allí se selecciona una variable para las
filas (la que tenga más categorías) y una variable cualitativa para las columnas (la de menos categorías). En
el módulo interior “casillas” se define los porcentajes por columnas; en “estadísticos” se escoge, chi cuadrado.
Luego se le da aceptar y en el “visor de resultados “aparece la tabla; se la da un clic y luego con el botón
derecho del mouse se le da copiar y se pega en una hoja de EXCEL para maquillar los títulos y los nombres y
valores de las celdas. Desde el Excel se puede copiar y luego pegar en WORD.
Ejemplo 12
Pregunta: ¿Cómo es la distribución del nivel de depresión según el sexo en los adolescentes escolarizados de
la zona nororiental de Medellín en el 2006?
Objetivo: Determinar la distribución del nivel de depresión según el sexo en la muestra de adolescentes de la
zona nororiental de Medellín en el 2006.
Hipótesis: Es posible que haya un porcentaje más alto de adolescentes mujeres con depresión y por esta razón
el riesgo de suicidio depende del sexo del estudiante en esta zona de la ciudad.
Variables: nivel de depresión y sexo.
Estadístico: el porcentaje
Gráfico: Diagrama de barras
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
75
Tabla 7. Nivel de depresión según el sexo de los adolescentes escolarizados de la zona nororiental de
Medellín, 2006.
Hombre, Mujer,
n=374 n=405
Alto 9,10% 12,10%
Leve 13,60% 20,50%
Ninguna 77,30% 67,40%
Total 100,00% 100,00%
REGRESIÓN LINEAL
Es un modelo (2) estadístico para estimar el efecto de una variable independiente (X) sobre otra variable
dependiente (Y) que es la que tiene interés para el investigador. El efecto está asociado con el coeficiente de
correlación lineal r de Pearson cuando ambas variables son cuantitativas y se ajustan a una normal. Si no hay
normalidad, el coeficiente de correlación apropiado es el de Spearman.
La correlación lineal brinda la posibilidad de predecir puntuaciones de una variable tomando las puntuaciones
de la otra variable. Entre mayor es la correlación entre las variables (covariación) mayor es la capacidad de
predicción.
En el modelo se utilizan dos tipos de hipótesis estadísticas, unas referidas a la correlación de las variables y
otras a la relación causal entre ellas. Para relacionar dos variables en este modelo se debe tener un buen
sustento teórico acerca de esa relación.
La regresión lineal se determina con base en el diagrama de dispersión el cual es una gráfica de las
puntuaciones conjuntas de las dos variables. En el eje horizontal se coloca la variable X e Y en el eje vertical.
En el diagrama de dispersión se visualiza la correlación de las variables.
El diagrama de dispersión como el de la figura 8 relaciona dos variables continuas y ubica los puntos formado
por las dos variables en un plano cartesiano para observar si la relación entre ambas variables define alguna
tendencia, generalmente lineal, porque de ser así da indicios de una correlación positiva o negativa
dependiendo de la forma de la tendencia lineal.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
76
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar
en el proceso de análisis de datos. La mayoría de los textos estadísticos hacen hincapié en los distintos tipos
de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el
proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que
una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los
mismos datos.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
77
La correlación y la causalidad: los coeficientes de correlación son sólo medidas de covariación de las
variables; la variación misma de las variables puede deberse a causas que afectan a cada variable de una
misma manera o de maneras opuestas, o bien una de ellas es causa de la variación de la otra, o puede suceder
que la relación causal sea recíproca; todo esto, es ajeno a la comprobación de la existencia de la correlación y
del valor del coeficiente de correlación.
El análisis de regresión lineal (3), se adapta a una amplia variedad de situaciones. En la investigación social,
puede utilizarse para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes
aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para
determinar cuál de diferentes medios de comunicación puede resultar más eficaz para invertir. En áreas como
la física puede utilizarse para caracterizar la relación entre las variables o para calibrar algunas medidas.
Tanto en el caso de dos variables (3) (regresión lineal simple) como en el más de dos variables (regresión
múltiple), el análisis de regresión lineal puede utilizarse para explorar y cuantificar la relación entre una
variable llamada dependiente o criterio (Y) y una o más variables independientes o predictoras (X1, X2,… Xp),
así como para desarrollar una ecuación lineal con fines predictivos. Además, el análisis de regresión lleva
asociada una serie de estrategias de diagnóstico (análisis de los residuos, puntos de influencia) que informan
sobre la estabilidad e idoneidad del análisis y que proporcionan pistas sobre cómo perfeccionarlo.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
78
En una situación ideal (e irreal) en la que todos los puntos de un diagrama de dispersión se encontraran en una
línea recta, no habría que preocuparse por encontrar la recta que mejor resume los puntos del diagrama;
simplemente uniendo los puntos entre sí se obtendría la recta con el mejor ajuste posible. Pero en una nube de
puntos más realista, es posible trazar muchas rectas diferentes. De lo que se trata es de encontrar la recta
capaz de convertirse en el mejor representante del conjunto total de puntos. Existen diferentes procedimientos
para ajustar una función simple, cada uno de los cuales intenta minimizar una medida diferente del grado de
ajuste. La elección tradicionalmente preferida ha sido la recta que hace mínima la suma de cuadrados de las
distancias verticales entre cada punto y la recta. De todas las rectas posibles, existe una y sólo una que
consigue que las distancias verticales entre cada punto y la recta sean mínimas (las distancias se elevan al
cuadrado porque, de lo contrario, al ser unas positivas y otras negativas, se anularían unas con otras al
sumarlas).
En un modelo de regresión lineal simple (4), los datos pueden representarse por pares de observaciones {(xi,
Yi Y xi
yi); i=1, 2,…n}. El modelo es una variable aleatoria que se define por medio de un modelo
estadístico.
Y x
Si se postula que todas las medias i
, caen sobre una línea recta, cada Yi puede describirse por le modelo
de regresión lineal simple:
Yi Y xi Ei xi Ei
donde el error aleatorio Ei, el error del modelo, debe necesariamente
tener una media cero. Cada observación (xi, yi) en la muestra satisface la ecuación:
y i xi i
Donde
i es el valor que asume E cuando Y toma el valor y i . La ecuación anterior puede considerarse
i i
yi
como el modelo para una sola observación . De manera similar, al utilizar la línea de regresión estimada o
La diferencia entre
ei
y
i se muestra en la figura siguiente:
y
La nube de puntos o diagrama de dispersión recoge la relación entre x e . La recta de regresión estimada
pasa por el punto ( x , y ) pero no necesariamente por todos los puntos de la nube de puntos.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
79
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108
Ejercicios 24. La siguiente tabla muestra los valores del consumo de metilmercurio y la concentración total
de mercurio en la sangre de 12 individuos expuestos al metilmercurio por consumir peces contaminados.
X Y
Consumo de mercurio de metil Mercurio en toda la sangre
180 90
200 120
230 125
410 290
600 310
550 290
275 170
580 375
105 70
250 105
460 205
650 480
a) Dibuje el diagrama de dispersión.
b) Encuentre la ecuación de la línea de regresión que describa la relación lineal entre las dos variables.
c) Calcule r2.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
80
El aplicativo ISTAT es de uso libre y en él en el módulo de regresión lineal simple, se pueden ingresar los
datos dándole un valor a n de tantos datos como se tenga en la muestra. Se deja por defecto, 0,05 y se
procede a ingresar los datos entrando al ícono de la cuadrícula; se ingresa cada pareja de datos, X, Y hasta
obtener el total de parejas definidas por el valor n. Luego, se ingresa al ícono de la calculadora y él realiza los
cálculos. Para salir se oprime el ícono de las celdas en blanco y sale del modo de cálculo.
El aplicativo arroja valores para 0 y 1 y realiza los contrastes de hipótesis para saber si son pertinentes para
el modelo o no.
En el aplicativo se obtiene el modelo estimado, yˆ ˆ 0 ˆ1 X . Esta recta con los valores que arroja el
aplicativo es la recta promedio a la nube de puntos y en ese sentido es la mejor recta. A este modelo se le
hacen pruebas estadísticas para determinar si X está relacionada linealmente con Y; para que esta relación
exista, 1 debe de ser estadísticamente diferente de cero.
Ejercicio 26.
Tomado del libro: Vargas Viviana. Estadística descriptiva para ingeniería ambiental con SPSS. Universidad
Nacional de Colombia. Facultad de Ingeniería y Administración sede Palmira. Cali; 2007. Pag. 134.
Datos de turbiedad y sólidos suspendidos en una estación del río Cauca para ser analizados en un modelo de
regresión lineal.
Número de observación Fecha Turbiedad (UNT) Sólidos suspendidos
(mg/l)
i x i
yi
1 04-Mar-91 42 71
2 07-Mar-91 72 146
4 14-Mar-91 35 61
5 08-Abr-91 65 136
12 27-May-91 75 120
13 30-May-91 69 99
15 06-Jun-91 85 140
16 11-Jun-91 32 53
17 13-Jun-91 34 54
18 17-Jun-91 85 123
20 02-Jul-91 51 84
21 04-Jul-91 37 73
22 11-Jul-91 62 84
La gráfica de dispersión nos sugiere que existe una relación lineal entre la variable independiente
porcentaje de pobreza en 2010 y la variable dependiente porcentaje de pobreza en 2011 (Figura 2)
El modelo de regresión lineal simple es:
y 0 1 x
Conclusiones
El análisis de regresión lineal simple, como parte de la inferencia estadística, es fundamental para
determinar relaciones de dependencia lineal entre variables y establecer su validez con el fin de
hacer estimaciones y predicciones dentro de un intervalo de confianza deseado.
Obtener una ecuación de regresión que describe el comportamiento lineal entre dos variables
permite pronosticar valores futuros de la variable bajo análisis con cierto grado de certeza, lo cual
constituye una herramienta poderosa pues le da al profesional la posibilidad de hacer ajustes en los
procesos, tomar decisiones o establecer políticas. Por ejemplo, si un profesional en ciencias
políticas o administración pública utiliza el estudio sobre índices de pobreza realizado con los datos
de las trece principales ciudades del país y concluye que los valores observados y estimados están
por debajo de la media en América Latina o que están por debajo de la meta nacional; podría
establecer un programa que disminuya en forma eficaz esos índices de pobreza. Así mismo, si un
administrador o economista realiza el análisis sobre la relación de dependencia entre el gasto en
publicidad y el volumen de ventas de un producto podría determinar la inversión óptima en
publicidad para ese producto y obtener el máximo de ventas o predecir la cantidad de unidades
vendidas de acuerdo con un valor invertido en publicidad. A pesar de lo importante que resulta ser
para cualquier profesional el conocimiento y uso del análisis de regresión, es una herramienta muy
poco aprovechada como lo demuestran un gran número de trabajos de grado a nivel de posgrado y
trabajos de investigación en los cuales el desarrollo estadístico solo se limita a la parte descriptiva y
no a la inferencial.
2. En un estudio de ingeniería del agua relacionado con las educciones de los sólidos suspendidos,
en función de la demanda química de oxígeno (DQO) se sacó una muestra aleatoria, cuyos
datos aparecen en la tabla de abajo
Sólidos suspendidos-y DQO-x
30 29 33 37 25 32 30 30 33 35 31 29 29 27 31 36 25 31 29 28 32 29 30 30
30 34 30 36 30 34 31 36 29 31 36 29 28 29 34 29 34 29 33 30 35 28 30 28
26 30 34 28 30 31 27 32 34 26 29 31
31 30 28 31 36 28 33 32 27 32 36 27
27 29
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
84
3. Los datos de abajo muestran las emisiones de óxidos de nitrógeno (NOx) provenientes de
calderas de plantas eléctricas.
MBtu/hr- 100 125 125 150 150 200 200 250 250 300 300 350 400 400
ft2(X)
NOx(Y) 150 140 180 210 190 320 280 400 430 440 390 600 610 570
G. PROBABILIDAD
Ejemplo: Un paciente sufre de cálculos renales y no se ha conseguido mejora alguna a partir de los métodos
ordinarios. Su médico está planteándose la posibilidad de llevar a cabo una intervención quirúrgica y debe
responder a la pregunta, ¿Cuál es la probabilidad de que la operación sea un éxito?, varios factores como la
edad, el estado de salud y la actitud frente a este proceso intervienen en este caso. El acierto del médico
depende de lo correcta que sea la información de que dispone y la capacidad para evaluarla adecuadamente.
La probabilidad de que ocurra un evento o suceso determinado A se denota por P(A) y viene dada por
número.de.veces.que.ocurre. A
P( A)
número.de.veces.que.se.realiza.el. exp erimento
En cada ejercicio se pide calcular probabilidades, ¿Qué método (personal, frecuencia relativa o clásico)
considera el más apropiado para resolver el problema?
1. Una mujer contrae la rubéola durante el embarazo; ¿Cuál es la probabilidad de que su hijo nazca con
algún defecto congénito?
2. Un etólogo estudia un numeroso grupo de babuinos en libertad. Observa que de los 150 animales del
grupo, 5 tienen el pelo extremadamente claro. ¿Cuál es la probabilidad de que de que la siguiente
cría de babuino que nazca en el grupo porte esta coloración clara?
3. Un químico sabe por experiencia, que aproximadamente, 8 de cada 100 de las muestras que recibe
para localizar fosfatos contienen demasiado poco para que éstos puedan ser detectados en un análisis
rutinario, ¿Cuál es la probabilidad de que tenga que usar un método alternativo, más sensible, en la
siguiente muestra que reciba para su análisis?
4. Un hombre es zurdo y su mujer diestra. La pareja tiene dos niños. Cada uno de ellos tiene la misma
probabilidad de ser zurdo a diestro. ¿Cuál es la probabilidad de que los dos sean zurdos?
Ejemplo: Una mujer es portadora de hemofilia clásica; esto significa que, aunque la mujer no tenga hemofilia,
puede transmitir la enfermedad a sus hijos. Da a luz tres hijos. ¿Cuáles son las posibilidades de este
experimento?
Primer hijo Segundo hijo Tercer hijo Trayectoria
Sí SSS
Sí No SSN
Sí Sí SNS
No No SNN
Sí NSS
Sí No NSN
No Sí NNS
No No NNN
Ejemplo: ¿Cuál es la probabilidad de que una mujer con tres hijos y que es portadora de hemofilia clásica no
transmita su enfermedad a ninguno de sus hijos?
Observación: con respecto a las tres formas de calcular la probabilidad, es conveniente recordar que:
i) El enfoque personal o probabilidad subjetiva siempre resulta aplicable; todo el mundo puede tener una
opinión personal acerca de cualquier cosa. Su principal desventaja, por supuesto, radica en que la precisión
depende de la exactitud de la información disponible y la capacidad del científico para evaluar de manera
correcta esa información.
ii) El enfoque de frecuencia relativa puede usarse siempre que sea posible repetir muchas veces el
experimento y observar sus resultados. La desventaja es que el experimento no puede ser una situación que
ocurra una sola vez, se requiere un número grande de ensayos para que la aproximación sea buena.
iii) El método clásico para calcular las probabilidades puede usarse solamente cuando es razonable suponer
que los posibles resultados del experimento son igualmente probables. La ventaja de este método es que no
requiere la experimentación; la probabilidad asignada al evento A no es una aproximación; es una descripción
precisa de la frecuencia con la que ocurrirá el evento A.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
86
Los datos experimentales pueden ser conteos o mediciones o tal vez datos categóricos que puedan clasificarse
con algún criterio.
Un experimento estadístico es cualquier proceso que genere un conjunto de datos los cuales pueden ser
cuantitativos (conteos o mediciones) y cualitativos (datos categóricos).
En Estadística interesan las observaciones que se obtienen en la repetición de un experimento; en la mayor
parte de los casos, los resultados dependerán del azar y no pueden pronosticarse con certeza; es posible
conocer los posibles resultados del experimento mas no cuál será el resultado del mismo en un momento
dado.
1
P( A)
2
Variable aleatoria, X: el número de caras que muestra la moneda en el lanzamiento al aire una vez
Valores, x = 0, 1.
Distribución de probabilidad
x 0 1
P (X = x) ½ 1/2
3
A: el dado cae un número impar. A= {1, 3, 5}. P( A)
6
3
B: el dado cae en un número par. B= {2, 4, 6}. P( B)
6
A y B no tienen elementos en común. A y B son mutuamente excluyentes o disjuntos porque
A B
C
C S A: las monedas caen en diferente valor. A= {cs, sc}.
P(A)=2/4
C
S S B: ambas monedas caen sello. B = {ss}. P (B) = ¼.
Ejercicio 26: Para el ejemplo 4, definir los puntos muestrales y calcular la probabilidad de cada uno de
los siguientes eventos:
A: ambos dados caen en un número igual.
B: el segundo dado cae en un número mayor a tres.
C: ambos dados caen en un número cuadrado perfecto.
D: la suma de ambos dados es 9.
BD
P (Ac) =
a) Construya un árbol que represente las configuraciones posibles de los tres interruptores.
f) Si en un momento dado cada interruptor tiene igual probabilidad de estar encendido o apagado,
¿Cuál es la probabilidad de que ningún interruptor esté encendido?
2. Dos artículos se seleccionan al azar simultáneamente de una línea de montaje y se clasifican como de
calidad superior (+), promedio (0) o inferior (-)
3. Un experimento consiste en seleccionar un objeto de 0 a 9 de manera tal que cada dígito tenga la
misma probabilidad que los demás de ser seleccionado. El dígito seleccionado se denota con A, se
ejecutan las líneas de código siguiente:
A B C
0 12 -1
1 12 0
2 17 0
9 17 0
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
90
a) Dibuje un diagrama de árbol para mostrar los 18 elementos del espacio muestral.
b) Enumere los elementos del evento A, en que el dado cae en un número menor a 3.
c) B, en que se obtienen dos sellos.
d) Ac
e) Ac B
f) AB
9. ¿Cuáles de los siguientes pares de eventos son mutuamente excluyentes?
a) Una madre que da a luz a una niña y tiene un par de gemelas el mismo día.
b) Un jugador de ajedrez que pierde el último juego y que el mismo jugador gane el torneo.
Existen experimentos complejos donde enumerar los puntos muestrales o elaborar un diagrama de
probabilidad es difícil; aplicar el método clásico de probabilidad a estos experimentos requiere que los
eventos sean equiprobables además de conocer el número de casos favorables a un evento y el número de
casos posibles a ese experimento para que la siguiente fórmula tenga sentido,
n( A) número.de.veces.que.ocurre. A
P( A) . Por medio de esta
n(S ) número.de.resultados.que. puede.dar.el. exp erimento
aproximación clásica se resuelven problemas en los cuales los puntos muestrales del espacio muestral son de
dos tipos: permutaciones o combinaciones.
Definición de permutación: Una permutación es una distribución de objetos en un orden determinado.
Ejemplos:
1. El número de la cédula de ciudadanía es una permutación.
k
ocurrir en la etapa i. En total el experimento puede ocurrir en i 1
ni n1 .n2 .n3 ...nk formas.
Práctica 2
EJERCICIOS SOBRE CONTEOS DE PUNTOS MUESTRALES
Tomado del libro de Walpole/Myers (2)
1. Cuántas placas de carros pueden hacerse en Colombia si cada placa consta de tres letras y tres dígitos
______
a) ¿Sin restricción?
e) ¿Si sólo pueden empezar por la letra M y no se pueden repetir letras y dígitos?
2. 7P7
Esta fórmula requiere que los objetos sean distintos, no permite repeticiones en ninguna posición del
ordenamiento; la fórmula no resuelve todos los problemas de las permutaciones y por tal razón se debe
considerar en primer lugar en un problema el principio de la multiplicación.
Conteo de combinaciones
En situaciones donde el orden es irrelevante se trabaja con combinaciones.
Teorema: el número de combinaciones de n objetos distintos, de los cuales se seleccionan r a la vez,
n
denotados por nCr ó , está dado por:
r
n n!
nCr = .
r r!(n r )!
Ejemplos
1. 5C3
2. 5C0
3. 7C7
4. En una fundidora se identifica un lote de 20 bloques de motor, de los cuales cinco contienen defectos
internos; el computador selecciona tres bloques al azar y prueba su dureza. Se aceptará el lote si no
se identifican defectos. ¿Cuál es la probabilidad de que se acepte este lote?
15C 3
P (se acepta el lote)= .
20C 3
5. Encuéntrese el número de comités que pueden formarse con 4 químicos y 3 físicos y que
comprendan 2 químicos y 1 físico.
Axiomas de probabilidad
1. Sea S el espacio muestral de un experimento P(S)=1. La probabilidad de un evento siempre es menor
o igual a 1 porque el evento más grande es el espacio muestral S.
3. Sean A1, A2, A3,… una colección finita o infinita de eventos mutuamente excluyentes. Entonces
P (A1UA2UA3…) = P (A1) + P (A2) + P (A3) +… Cuando los eventos no tienen nada en común entre
sí, la probabilidad de la unión de ellos es la suma de las probabilidades de cada uno; esta situación
cambia cuando la intersección entre los eventos es diferente del vacío.
Esta regla se utiliza para obtener la probabilidad de la unión de dos eventos y requiere que a la suma de la
probabilidad de los eventos se le reste la probabilidad de la intersección de ambos eventos.
EJEMPLOS:
1. La probabilidad de que Paula apruebe matemáticas es de 2/3 y la de que apruebe inglés es de 4/9. Si
la probabilidad de que aprueba ambos cursos es de ¼, ¿cuál es la probabilidad de que Paula apruebe
al menos uno de ellos?
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
94
Solución
Si M es el evento de “aprobar matemáticas” y E es el de “aprobar inglés”, entonces, por la regla de
adición, se tiene que
2 4 1 31
P( M E ) P( M ) P( E ) P( M E )
3 9 4 36
2. ¿cuál es la probabilidad de obtener un total de 7 u 11 cuando se lanza un par de dados?
Solución
Sea A el evento de que ocurra 7 y B el de que se dé el 11. El 7 resulta en 6 de los 36 puntos
muestrales y el 11, en sólo 2 de ellos. Dado que todos los puntos muestrales son igualmente
posibles, se tiene que P(A)=1/6 y P (B)=1/18. Los eventos son mutuamente excluyentes, dado que 7
y 11 no pueden presentarse en el mismo lanzamiento. Por lo tanto,
1 1 2
P( A B) P( A) P( B) . Este resultado también pudo obtenerse contando el
6 18 9
n 8 2
número total de puntos para el evento A B , o sea 8, y escribir P( A B)
N 36 9
3. Si las probabilidades de que una persona, al comprar un nuevo automóvil, seleccione el color verde,
blanco, rojo o azul, son, respectivamente, 0.09, 0.15, 0.21 y 0.23 ¿cuál es la probabilidad de que un
comprador dado adquiera un automóvil en uno de esos colores?
Solución
Sean G, W, R y B los eventos de que un comprador seleccione, respectivamente, un automóvil verde,
blanco, rojo o azul. Dado que estos cuatro son mutuamente excluyentes, la probabilidad es:
P(G W R B) P(G) P(W ) P(R) P(B) 0.09 0.15 0.21 0.23 0.68
7. Si se selecciona aleatoriamente una letra del alfabeto castellano, encuentre la probabilidad de que ésta
a) sea una vocal.
b) se encuentre en algún lugar de la lista antes de la letra j.
c) se encuentre en algún lugar después de la letra g.
12. Si se seleccionan al azar 3 libros de un estante que contiene 5 novelas, 3 libros de poemas y un
diccionario, ¿cuál es la probabilidad de que
a) se tome el diccionario?
b) Se escojan 2 novelas y un libro de poemas?
Ejemplo: Si las probabilidades de que un mecánico automotriz repare 3, 4, 5, 6, 7, 8 ó más vehículos en un día
hábil cualesquiera de la semana son, respectivamente, 0.12, 0.19, 0.28, 0.24, 0.10 y 0.07, ¿cuál es la
probabilidad de que le dé servicio al menos a 5 carros el siguiente día de trabajo?
Solución
Sea E el evento de que se arreglen al menos 5 carros. P (E) = 0.28+0.24+0.10+0.07=0.69. Otra forma es
considerar que P (E)= 1- P (E’), donde E’ es el evento de que se reparen menos de 5 autos. Dado que P (E ’’)
=0.12+0.19=0,31 se sigue que P (E)= 1-0.31=0.69.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
95
Tabla 12. Considere la información de 1000 mujeres clasificadas de acuerdo a parámetros de la Organización
Mundial de Salud, según la presencia de menopausia.
Menopausia
Sí, S No, S´ Total
Clasificación de la OMS Normal, N 189 280 469
Osteopenia, O 108 359 467
Osteoporosis, T 6 58 64
Total 303 697 1000
b. Probabilidad de tener osteoporosis o menopausia. Observe que los eventos no son disjuntos porque
en la intersección de ellos hay 6 mujeres.
Observaciones:
a) Cualquier probabilidad que se tome con base en algunos de los totales de fila o de columna, se llama
probabilidad marginal.
b) Cualquier información de las celdas que son intersecciones, se llaman probabilidad condicional
donde el evento dado es el que indique la columna de la tabla. La intersección de las dos celdas
también implica la intersección de los eventos.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
96
Ejemplo 2.2. A los habitantes de una gran ciudad se les hizo una encuesta con el fin de determinar el número
de lectores del time y Newsweek. Los resultados de la encuesta fueron los siguientes: 20% de los habitantes
leen el Times, el 16% lee el Newsweek y un 1% lee ambos semanarios. Si se selecciona al azar a un lector
del Time, ¿cuál es la probabilidad de que también lea el Newsweek?
Solución
A: lee el Time. B: lee el Newsweek. P (B|A)=?
Ejemplo 2.3. Muchas instituciones bancarias emplean modelos computarizados de crédito con el propósito de
dar un determinado puntaje a todas las solicitudes de préstamo; este puntaje se emplea como una ayuda para
decidir cuándo se otorga el préstamo. Supóngase que el 3% de todos los préstamos que se otorgan presentan
problemas por incumplimiento de pago y que los modelos de crédito son precisos en un 80% al predecir
menos créditos. Si el 85% de todas las solicitudes reciben puntuaciones favorables por los modelos
computarizados y se les otorga el préstamo, determinar la probabilidad de que una solicitud que recibe una
puntuación favorable y a la que se le otorga el préstamo, no presente ningún problema para el pago de éste?
Solución
Sean A: incumplimiento en el pago, B: la puntuación es favorable y se otorga el préstamo.
Del enunciado se tiene que P(A) = 0.03, P (B) = 0.85 y P (B| A ) = 0.8, en donde A es el evento de que
hay cumplimiento en el pago. Lo que se busca es la probabilidad condicional de que no exista problema en
el pago del préstamo, dado que la solicitud obtuvo una puntuación favorable y se le otorga el préstamo o en
forma simbólica, P ( A |B).
Por definición,
P( A B)
P( A | B) , pero, P ( A B ) P ( A ) P ( B | A ) se sigue que
P( B)
P( A ) P( B | A )
P( A | B) y se reemplazan sus respectivos valores, para obtener que
P( B)
P ( A |B) =0.9129
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
97
13. Un testigo de un accidente de tránsito en el que el causante huyó. Le índica a la policía que el número de
matrícula del automóvil tenía las letras RLH seguidas por los tres dígitos, el primero de los cuales era 5.
Si el testigo no puede recordar los otros dos dígitos, pero está seguro de que los tres eran diferentes
encuentre el número máximo de registros de automóvil que debe verificar la policía.
15. ¿Cuántos números de tres dígitos pueden formarse con los dígitos 0, 1, 2, 3, 4, 5, 6, si cada uno solo
puede usarse solo una vez?
28. Nueve personas salen de viaje para esquiar en 3 vehículos cuyas capacidades son de 2, 4 y 5 pasajeros,
respectivamente. ¿En cuántas formas es posible transportar a las 9 personas hasta el albergue con todos
los vehículos?
2 4 5 2 4 5
...
1 3 5 1 4 4
1. En un estudio sobre la salud mental de adolescentes (6) escolarizados se encuentra que el 48% son
hombres. Del total de hombres, el 23% presentan síntomas de depresión. Del total de las mujeres, el 33%
presenta síntomas de depresión.
E E Total
H 25
M 19 52
Total 56 44 100
5. A un centenar de mujeres casadas se les preguntó qué método de control natal preferían. La siguiente tabla
muestra las 100 respuestas clasificadas en referencia cruzada por nivel educativo y método de control.
Método de control natal Nivel escolar
Preparatoria Universidad Posgrado Total
(A) (B) (C)
S 15 8 7 30
T 3 7 20 30
V 5 5 15 25
W 10 3 2 15
Total 33 23 44 100
f) P (B ) g) P(T B) h) P (T C )
10. En una población, la probabilidad de que un individuo, elegido aleatoriamente, se exponga a determinado
alérgeno y tenga una reacción frente al mismo es de 0.60. La probabilidad de que un individuo expuesto al
alérgeno experimente una reacción alérgica es de 0.80. Si un individuo es elegido aleatoriamente de esta
población, ¿cuál es la probabilidad de que se exponga al alérgeno?
11. Suponga que 3 por ciento de una población de adultos ha intentado suicidarse. También se sabe que 20
por ciento de esa población vive en condiciones extremas de pobreza. Si estos dos eventos son
independientes, ¿cuál es la probabilidad de que un individuo elegido aleatoriamente haya intentado suicidarse
y además viva en condiciones extremas de pobreza?
13. La probabilidad de que una persona elegida al azar de entre una población presente el síntoma
característico de una enfermedad es de 0.20 y la probabilidad de que una persona elegida aleatoriamente
presente esa enfermedad es de 0.23. La probabilidad de elegir a una persona que tenga el síntoma y también la
enfermedad es de 0.18. Si una persona elegida al azar de entre esa población no presenta el síntoma, ¿cuál es
la probabilidad de que tenga la enfermedad?
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
99
13. Dibuje un diagrama de Venn para mostrar las intersecciones y uniones posibles de los siguientes eventos
relativos al espacio muestral S, el cual consta de todos los estudiantes del Reanoke Collage:
J: Un estudiante cursa el penúltimo año.
M: Un estudiante se especializa en Matemáticas.
W: Un estudiante es una mujer.
S: todos los estudiantes de Reanoke Collage.
16. Considere el espacio muestral,
S= cobre, sodio, nitrógeno, potasio, uranio, oxígeno, zinc
Y los eventos:
A= cobre, sodio, zinc
B = sodio, nitrógeno, potasio
C= oxígeno
Enumere los elementos de los conjuntos correspondientes a:
a) Ac
b) A C
c) A B C
c c
d) Bc C c
e) A B C
f) Ac Bc ( Ac C )
4.5 Se eligen al azar tres deportistas de un equipo de 10 integrantes para realizar un control antidopaje; se
sabe que dos de los jugadores del equipo han tomado sustancias prohibidas. ¿Cuál es la probabilidad de elegir
para el análisis a alguno de los infractores?
P( A B) P( B) P( A B)
Ejemplo1.32: Supóngase que se tiene una caja de fusibles que contiene 20 piezas, de las cuales 5 están
defectuosas. Si se seleccionan 2 al azar y se sacan de la caja en sucesión sin reemplazo del primero, ¿cuál es
la probabilidad de que ambos fusibles resulten defectuosos?
Solución
Sea A el evento de que el primer fusible esté defectuoso y B el de que el segundo fusible también; entonces
se interpreta A B como el evento de que A ocurre, y a continuación lo hace B. La probabilidad de sacar
primero un fusible defectuoso es ¼; entonces la de extraer un segundo fusible defectuoso de los restantes 4 es
4/19. Por lo tanto,
1 4 1 4 1
Dado que P( A) y P( B | A) entonces, P( A B) P( A) P( B A) ( )( )
4 19 4 19 19
Ejemplo 1.33 En una bolsa se han colocado 4 pelotas blancas y 3 negras, y en una segunda bolsa, 3 blancas y
5 negras. Se saca una pelota de la primera bolsa y, sin verla, se mete en la segunda. ¿Cuál es la probabilidad
de que la pelota que se saque de esta última sea negra?
Solución
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
101
B1, B2 y W1 representan, respectivamente, los retiros de una pelota negra de la bolsa 1, una negra de la bolsa
2 y una blanca de la bolsa 1. El interés se centra en la unión de los eventos mutuamente excluyentes
B1 B2 y W1 B2 . Las distintas posibilidades y sus probabilidades se muestran a continuación,
Solución
Primero se definen los eventos
A1: la primera carta es un as rojo.
A2: la segunda un 10 o una jota.
A3: la tercera mayor que 3 pero menor que 7.
Entonces
P (A1) = 2/52
8
P( A2 A1 )
51
12
P( A3 | A1 A2 )
50
Por el teorema se tiene que
P A1 A2 A3 P( A1 ) P( A2 | A1 ) P( A3 | A1 A2 ) (
2 8 12 8
)( )( ) .
52 51 50 5525
Ejemplo 2.3.5. Investigaciones recientes muestran que casi 49% de las infecciones se debe a bacterias
anaerobias; además, 70% de todas las infecciones anaerobias son polimicrobianas, es decir, resultan de dos o
más anaerobias. ¿Cuál es la probabilidad de que una infección dada se deba a bacterias anaerobias y también
sean polimicrobianas?
Solución
Ejemplo 1.34: En un pequeño pueblo se dispone de un carro de bomberos y una ambulancia para casos de
emergencia. La probabilidad de que el primero esté disponible cuando se le necesite es de 0.98 y la de que la
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
102
ambulancia lo esté cuando se le llame, es de 0.92. En el caso de que resulte un herido al quemarse un
edificio, encuentre la probabilidad de que tanto el carro de bomberos como la ambulancia estén disponibles.
Solución
Sean A y B los respectivos eventos de que ambos vehículos estén disponibles; se tiene que,
P( A B) P( A) P( B) (0.98)(0.92) 0.9016
Ejemplo 1.35: Un par de dados se lanza dos veces. ¿Cuál es la probabilidad de obtener totales de 7 y 11?
Solución
Sean A1, A2, B1 y B2 respectivos eventos independientes de que ocurra un 7 en el primer lanzamiento, un 7 en
el segundo, un 11 en el primero y un 11 en el segundo. Lo que interesa es la probabilidad de la unión de los
eventos mutuamente excluyentes A1 B2 y B1 A2 . Por lo tanto,
P A1 B2 ( B1 A2 ) P( A1 B2 ) P( B1 A2 ) P( A1 ) P( B2 ) P( B1 ) P( A2 )
1 1 1 1 1
=
6 18 18 6 54
Ejemplo 2.3.1. Considere el experimento de extraer dos cartas con reemplazo de un monte de 52 barajas bien
revueltas. ¿Cuál es la probabilidad de extraer una carta de picas y una carta alta?
Solución
Se usa el método clásico para estimar P (A1) = 13/52 y P (A2) = 20/52. De otra parte, P (A1 A2) = 5/52.
Note que P (A1) P (A2) = (13/52) (20/52) = 5/52. Luego, P (A1 A2) = P (A1) P (A2) y se concluye que
A1 y A2 son independientes.
Teorema: Si, en un experimento, los eventos A1, A2, A3, ... Ak pueden ocurrir, entonces
P( A1 A2 A3 ... Ak ) P( A1 ) P( A2 A1 ) P( A3 A1 A2 )...P( Ak A1 A2 ... Ak 1 ).
Si los eventos A1, A2, A3, ... Ak son independientes, entonces
P( A1 A2 A3 ... Ak ) P( A1 ) P( A2 ) P( A3 )...P( Ak )
Ejemplo 2.3.4. Durante un lanzamiento espacial, el sistema de cómputo primario está respaldado por dos
sistemas secundarios. Funcionan uno con independencia de los otros y cada uno es 90% confiable. ¿Cuál es
la probabilidad de que los tres sistemas sean funcionales en el momento del lanzamiento?
Solución
Sean, A1: el sistema principal funciona.
A2: el primer sistema de respaldo funciona.
A3: el segundo sistema de respaldo funciona.
De acuerdo a la información, P (A1) = P (A2) = P (A3) = 0.9. Se necesita calcular P ( A1 A2 A3 ) .
Puesto que se supone que estos sistemas son independientes, se tiene que:
P( A1 A2 A3 ) P( A1 ) P( A2 ) P( A3 ) (0.9)(0.9)(0.9) 0.729
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
103
Independencia
Dos eventos son independientes si uno puede ocurrir sin importar qué pase con el otro. Por ejemplo,
considere el lanzamiento de un dado una vez y a continuación una moneda; S = {1c, 1s, 2c. 2s, 3c, 3s, 4c, 4s,
5c, 5s, 6c, 6s}. Sean,
A: El número que muestra el dado es uno o dos.
B: La moneda muestra cara.
P(A) = 4/12; P (B) = 6/12; P (A B) = 2/12 = 1/6. Se puede observar que P (A B) = P(A) P (B) =
(4/12) (6/12) = 24/144 = 1/6.
11. Dos cartas se sacan, una después de la otra sin reemplazo, de un paquete completo, ¿Cuál es la
probabilidad de que ambas sean mayores que 2 y menores que 8?
Definición de eventos independientes: Los eventos A1 y A2 son independientes si y sólo si P (A1 A2) = P
(A1) P (A2).
Ejemplo: considere el lanzamiento de tres monedas en forma consecutiva, ¿cuál es la probabilidad de obtener
cara en las tres monedas?
El espacio muestral se encuentra divido en k eventos disjuntos B i los cuales tienen una probabilidad conocida
a priori de tal forma que la suma de todas las probabilidades de los B i es igual a 1. Es decir,
k
ik1 Bi S y además, P( B ) 1 . En este espacio con estas condiciones ocurre un nuevo evento A
i 1
i
que cambia las condiciones y se requiere encontrar la probabilidad de ese evento A que tiene algo en común
con todos los Bi. A la probabilidad de A se le llama la probabilidad total.
Teorema 1.16 (probabilidad total) Si los eventos B1, B2, B3, ... Bk constituyen una división del espacio
muestral S, de tal forma que P ( Bi ) 0 para i =1, 2, ... k entonces para cualquier evento A de S
k k
P( A) P( Bi A) P( Bi ) P( A Bi )
i 1 i 1
Ejemplo 1.38: Se ha nominado a tres miembros de un club privado nacional para ocupar la presidencia del
mismo. La probabilidad de que se elija al señor Adams es 0.3; la de que se haga lo propio con el señor
Brown, de 0.5 y la de que gane la señora Cooper, de 0.2. En caso de que se elija al señor Adams, la
probabilidad de que la cuota de ingreso se incremente es de 0.8; si se elige al señor Brown o a la señora
Cooper, las correspondientes probabilidades de que se incremente la cuota son de 0.1 y 0.4. ¿Cuál es la
probabilidad de que haya un incremento en la cuota de membresía?
Solución
Considérense los siguientes eventos:
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
104
La probabilidad total ocurre cuando se calcula la probabilidad de que se aumenten las cuotas de membresía.
P( A) P( B1 A) P( B2 A) P( B3 A) 0.37
Ejemplo 2.4. Una planta recibe reguladores de voltaje de dos diferentes proveedores B 1 y B2; el 75% de los
reguladores se compra a B1 y el resto a B2. El porcentaje de reguladores defectuosos que recibe de B 1 es 8% y
el de B2 es 10%. Determinar la probabilidad de que funcione un regulador de voltaje de acuerdo con las
especificaciones (no está defectuoso).
Solución
Sea, A: el regulador no está defectuoso. Ningún regulador de voltaje puede ser vendido tanto por B 1 como
por B2, por lo tanto, son disjuntos.
P(A) = P (A B1) + P (A B2) pero, P (A B1) = P (B1) P (A|B1) y P (A B2) = P (B2) P (A|B2) en donde
P (B1) = 0.75, P (B2) = 0.25, P (A|B1) = 0.92 y P (A|B2) = 0.9; sustituyendo,
P (A) = P (B1) P (A|B1) + P (B2) P (A|B2) = (0.75) (0.92) + (0.25) (0.9.) = 0.915.
Nótese que en este ejemplo sólo se tenían dos proveedores disjuntos B 1 y B2 pero pueden existir alternativas
disjuntas B1, B2, B3, … Bn; la probabilidad total de un resultado final, por ejemplo A, está dada por,
n
P( A) P( Bi ) P( A | Bi )
i 1
El teorema de Bayes se usa para calcular la probabilidad P (A|B) cuando la información disponible no tiene
compatibilidad inmediata con lo necesario para aplicar directamente la definición de la probabilidad
condicional.
El siguiente ejemplo es un problema típico que requiere usar la regla de Bayes.
Ejemplo 2.4.1. Suponga que en 40% de los accidentes en autopistas interestatales participa la velocidad
excesiva de por lo menos uno de los conductores (evento A), y en 30%, el consumo de bebidas alcohólicas,
también al menos de uno de los conductores (evento B). En el caso de dicho consumo, existe probabilidad de
60% de que también haya velocidad excesiva, mientras que en caso contrario esta probabilidad es de apenas
10%. Ocurre un accidente con participación de exceso de velocidad, ¿cuál es la probabilidad de que participe
el consumo de bebidas alcohólicas?
Solución
A
B1 Ac
A
B2 Ac
El espacio muestral está dividido en dos eventos, el conductor consume bebidas alcohólicas (B 1) y no
consume bebidas alcohólicas (B2). En este espacio ocurre un nuevo evento A que es que el conductor utiliza
exceso de velocidad en cuyo caso la probabilidad de los eventos existentes B y B´ cambia por la ocurrencia
de A. Se trata entonces de calcular la probabilidad de B dado A y eso configura un problema de Bayes, lo
mismo que si se calcula la probabilidad de B´ dado A.
P (A) = 0.4 P (B) = 0.3 P (A|B1) = 0.6 y P (A|B2) = 0.1. Se pide calcular P (B1|A).
P( B1 A)
P( B1 A) , pero, A ( A B1 ) ( A B2 ) por lo tanto,
P( A)
Probabilidad total
P( A) P( A B1 ) P( A B2)
P( A B1 ) P( B1 ) P( A B1 )
P ( A B2 ) P ( B2 ) P ( A B2 )
Regla de Bayes
La regla de Bayes actualiza la probabilidad a priori de los eventos disjuntos Bi de un espacio muestral
mediante una probabilidad a posteriori a raíz de la ocurrencia de un nuevo evento A en ese espacio muestral.
Teorema 1.17 (Regla de Bayes) Si los eventos B1, B2, B3,... Bk constituyen una división del espacio muestra
S, de tal forma que P ( Bi ) 0 para i =1, 2,... k entonces para cualquier evento A en S es tal que P(A) 0
P( Br A) P( Br ) P( A Br )
P( Br A) k
k
P( B A) P( B ) P( A B )
i 1
i
i 1
i i
Para i= 1, 2,... k.
La regla de Bayes en el Ejemplo 1.38 ocurre cuando se responde la siguiente pregunta, Dado que se aumentan
las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido a la señora Cooper como presidenta
del club?, ¿es decir, P (B3|A) =?
Se procede de diferentes formas:
a) Una forma es identificar que los eventos disjuntos que conforman el espacio muestral son,
En ese espacio muestral de la elección de cualquiera de los socios a la presidencia ocurre un nuevo evento A
que consiste en que se aumentan las cuotas de membresía. Se trata entonces de actualizar la probabilidad de
ocurrencia de cualquiera d e los tres eventos a la ocurrencia de A; en este caso se pregunta por P (B 3|A).
Desde la definición de probabilidad condicional se tiene que,
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
106
P( A B3 )
P( B3 | A) ; Para encontrar este resultado se observa que la probabilidad P ( A B3 ) se
P( A)
tiene que hallar utilizando la regla de la multiplicación porque los eventos A y B 3 no son independientes.
Luego,
P( A B3 ) P( B3 ) P( A | B3 ) . De la misma manera se observa que el evento A resulta de unir las
intersecciones del evento A con cada uno de los Bi que se expresa en la forma,
A ( A B1 ) ( A B2 ) ( A B3 ) y significa que con cualquiera de las personas elegidas puede
haber un aumento en las cuotas de membresía. P ( A) P ( B1 A) P ( B2 A) P ( B3 A) 0.37 .
Luego,
8
P( B3 | A) .
37
b) Otra en la cual el esquema de árbol, se inicia con los tres eventos disjuntos B i y de ellos se desprende el
evento que ocurrió, A, con su respectivo complemento. La primera trayectoria se compone de dos ramas
de izquierda a derecha, primero, P (B 1) y en la segunda rama aparece P (A|B1) para llegar a P( B1 A)
a la cual se le aplica la regla de la multiplicación porque los eventos son dependientes y se llega a
P( B1 A) P( B1 ) P( A | B1 ) . Se procede en la misma forma con las otras dos trayectorias hasta
obtener todas las probabilidades que se muestran en el esquema. Se tiene en cuenta que la suma vertical
de las ramas complementarias suma 1; por ejemplo, P (B 1) + P (B2) + P (B3) = 1. De igual manera, P
(A|B1) + P (A´|B1) =1.
Como se dijo antes, la regla de Bayes la configura cualquier probabilidad de la forma P (B i|A).
Por ejemplo,
8
P( B3 | A) .
37
c) Similarmente, aplicar la regla de Bayes en los siguientes dos casos:
1) Dado que se aumentan las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido
al señor Adams como presidente del club?
2) Dado que se aumentan las cuotas de membresía, ¿cuál es la probabilidad de que se haya elegido
al señor Brown como presidente del club?
Probabilidad total
P( A) P( B1 A) P( B2 A) P( B3 A) 0.303
Regla de Bayes
La regla de Bayes es la probabilidad condicional de cada evento de la fila dado que ha ocurrido A. Observe que se
hace una actualización de la probabilidad del evento de la fila a la ocurrencia del evento A. Un ejemplo de regla de
P( B1 A) 0.469x0.403
Bayes es P( B1 A) 0.624
P( A) 0.303
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
107
5. En una cierta región del país se sabe por la experiencia pasada que la probabilidad de seleccionar a
un adulto mayor de 40 años de edad con cáncer es de 0.02. Si la probabilidad de que un médico le
diagnostique correctamente a una persona con cáncer que tiene la enfermedad es de 0.78 y la de que
se equivoque, de 0.06, ¿cuál es la probabilidad de que a una persona se el diagnostique cáncer?
Sugerencia:
A: diagnóstico de cáncer. A : Diagnóstico incorrecto de cáncer.
B1: Adulto mayor de 40 años con cáncer.
B2: Adulto mayor de 40 años sin cáncer
6. La policía planea reforzar el respeto a los límites de velocidad mediante la utilización de sistema de
radar en 4 diferentes sitios dentro de la ciudad. Los sistemas de radar en cada sitio L 1, L2, L3 y L4 se
ponen a funcionar, respectivamente, el 40%, 30%, 20% y 30% del tiempo, y si una persona que
conduce a gran velocidad rumbo a su trabajo tiene, respectivamente, las probabilidades de 0.2, 0.1,
0.5 y 0.2 de pasar por alguno de estos sitios, ¿cuál es la probabilidad de que le levanten una multa?
Sugerencia:
Ejercicios tomados de: Rius F, Barón F. Bioestadística. Thomson. España; 2005. Páginas 92 y 93
4.11 Una enfermedad puede estar producida por tres virus A, B y C. En el laboratorio hay tres tubos de
ensayo con el virus A, dos con el virus B y cinco tubos con el virus C. La probabilidad de que el virus A
produzca la enfermedad es de 1/3, que la produzca B es de 2/3 y que la produzca el virus C es de 1/7. Se
inocula un virus a un animal y contrae la enfermedad. ¿Cuál es la probabilidad de que el virus que se inocule
sea el C?
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
108
4.12 El 70 % de los estudiantes aprueba una asignatura A y un 60 % aprueba otra asignatura B. Sabemos,
además, que un 35 % del total aprueba ambas. Elegido un estudiante al azar, calcular las probabilidades de las
siguientes situaciones:
a) Haya aprobado la asignatura B, sabiendo que ha aprobado A.
b) Haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
c) No haya aprobado la asignatura B, sabiendo que ha aprobado la A.
d) No haya aprobado la asignatura B, sabiendo que no ha aprobado la A.
Ejercicios tomados de: Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud.
H. PROYECTOS DE AULA
GUÍA DIDÁCTICA POR COMPETENCIAS N°2-SOBRE LA FACTURA DE EPM
Contenido Temático
Competencia Manejar los métodos y procedimientos usados por quienes trabajan con la estadística
aplicada en la determinación de políticas de salud pública, epidemiología, toma de
decisiones, negocios, mercadeo, psicología y sociología.
Horas presenciales 64
Horas de trabajo
independiente
IDENTIFICACIÓN DE RESPONSABLES
E-mail ramon.paniagua@udea.edu.co
Horario de clase Viernes-sábado
Horario de atención
a estudiantes
Profesores que
acompañan el
proceso
1. CONTEXTUALIZACIÓN
El programa de Administración de Servicios de promueve la formación investigativa, con fundamentos
estratégicos que permiten la toma de decisiones oportunas y anticipadas, garantizando el posicionamiento
estratégico de una empresa.
El egresado puede desempeñarse en dirigir y gerenciar productivamente empresas dentro del sistema de
protección social. Concebir, formular, ejecutar y evaluar estrategias de empresas en las instituciones del sector
salud. Trabajar en entidades que velen por la responsabilidad social empresarial.
en una prioridad que tiene un gran peso en su canasta familiar. Los servicios públicos domiciliarios tienen un
sistema de información muy eficiente que ha sido construido y administrado por las Empresas Públicas de
Medellín, EPM, las cuales ofrecen y facturan el servicio de energía, alcantarillado, acueducto y gas; dentro de este
sistema existen las viviendas ubicadas en zonas de alto riesgo las cuales no están conectadas al servicio y otras
viviendas que son desconectadas por falta de pago de las facturas, EPM; esta dinámica ha hecho que se ofrezca a
los usuarios un servicio bancario de refinanciación del pago de las facturas o la venta unidades de sus servicios en
una modalidad de cobro anticipado. Se paga antes de consumir a diferencia del servicio regular en el cual se paga
en forma mensual las facturas de los servicios una vez consumidos.
La mayoría de los usuarios no sabe cómo se calculan o cómo se leen las facturas de EPM, a pesar de que la
empresa ha mejorado sustancialmente la información que se consigan en su factura. Existe publicidad de la
empresa para que se aprenda a realizar un uso adecuado de los servicios para que el costo de la factura no sea alto.
Se enseña a los usuarios a utilizar la conexión de los electrodomésticos y se sanciona el uso desmedido del agua.
Las viviendas en las ciudades de Colombia están organizadas en manzanas, las cuales según el Departamento
Nacional de Estadística, tienen 40 viviendas y para sus estudios poblacionales consideran al segmento como una
medida de tamaño formada por 10 viviendas. Se excluyen los locales comerciales y los institucionales de
cualquier tipo. Las manzanas no tienen necesariamente la forma rectangular al igual que el segmento. Se toma
como manzana al conjunto de 40 viviendas y al segmento al conjunto de 10 viviendas.
En el marco propuesta por la FNSP de trabajar los cursos para desarrollar competencias en los estudiantes, esta
guía didáctica permite que los estudiantes desarrollen capacidades para analizar y proponer y sustentar decisiones
con base en la información presentada en un problema que debe resolverse en una comunidad o contexto
particular.
¿Qué decisión puede usted tomar con la situación de su manzana, presentada en la facturación de EPM?
Sustente su decisión.
4. CONTENIDOS
1. Población.
2. Variable
3. Naturaleza y niveles de medición.
4. Variable dependiente y variable independiente
5. Estadísticos descriptivos para las variables cualitativas
6. Estadísticos descriptivos para las variables cuantitativas
7. Gráficos según la naturaleza de las variables-
5. TAREAS ( DESEMPEÑOS DE COMPRENSIÓN)
-Producir un informe descriptivo de acuerdo a la naturaleza de las variables en consideración y diseñar las
conclusiones acerca de la propuesta.
7. BIBLIOGRAFÍA Y CIBERGRAFÍA
Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación estadística.
Méjico: McGraw-Hill; 2002.
Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición. Limusa
Wiley. México; 2004.
Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España: McGraw-Hill;
2001.
Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
Castillo M, Isabel. Guijarro G., Marta. Estadística descriptiva y cálculo de probabilidades.
1ªedición.Pearson, Prentice hall; 2006.
Grisales Romero Hugo. Estadística Aplicada en Salud Pública: Estadística Descriptiva y
Probabilidad. Editorial L-Vieco e Hijas. 2002.
ACTIVIDADES QUE DEBE DESARROLLAR EN EL TRABAJO
• Debe ubicar una manzana en la ciudad de Medellín, de la cual elaborará un mapa a mano alzada para
definir en ella el segmento con 10 viviendas.
• Se ubica en la esquina nororiental y empieza, en el sentido de las manecillas del reloj a ubicar 10
viviendas.
• En cada vivienda recogerá la siguiente información:
Número del contrato; valor de los cuatro servicios básicos: acueducto (anterior y actual); alcantarillado
(anterior y actual); energía (anterior y actual); gas (anterior y actual); ¿Hay personas con discapacidad en la
vivienda? 1. Sí, 2. No; ¿Hay estudiantes en la vivienda? 1. Sí, 2. No. ¿Hay adultos mayores en la vivienda? 1.
Sí, 2. No.
La anterior información la consigna en la siguiente tabla:
#contrato Acueducto Alcantarillado Energía Gas Discapa Estu Adultos
Anterior Actual Anterior Actual Anterior Actual Anterior Actual
• Analiza la información recogida y responde a la pregunta que se formuló en este Proyecto para la
manzana.
• Elabora un informe escrito y prepara una exposición frente a sus compañeros.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
111
GUÍA DIDÁCTICA POR COMPETENCIAS N°1- UNA SUBZONA GEOGRÁFICA
IDENTIFICACIÓN DE RESPONSABLES
Oficina 206
E-mail ramon.paniagua@udea.edu.co
7. CONTEXTUALIZACIÓN
El Administrador Ambiental y Sanitario es un profesional que, de manera integral y estratégica, responde a las
demandas de transformación y mejoramiento de la sociedad mediante intervenciones y aportes significativos en
sus procesos y trayectorias de desarrollo, con una orientación eminente hacia el desarrollo humano, la
sostenibilidad ambiental y la presencia de lo público, en el marco de la salud ambiental.
La Administración aplicada al desarrollo humano social sostenible a partir de la solución de problemas
ambientales, de salud ambiental y por ende de la salud pública, así como al aprovechamiento de las oportunidades
inherentes al capital ambiental y despliegue de las potencialidades humanas y del territorio.
La administración científica está basada en modelos matemáticos y se apoya en sistemas de información
gerenciales construidos desde la matemática aplicada en un campo del conocimiento que se llama la investigación
de operaciones. La estadística forma parte de este campo del conocimiento que le permite a un administrador
ambiental y sanitario, obtener diferentes fotografías de la realidad para luego tomar decisiones adecuadas para
mejorar la calidad de vida de las poblaciones mediante la intervención de los fenómenos que tienen que ver con la
salud pública.
8. PREGUNTA (TÓPICO GENERATIVO)
“Una cuenca hidrográfica es una zona geográfica drenada por una corriente de agua. Este concepto se aplica a
varias escalas, que van desde una superficie agrícola atravesada por un arroyo (microcuenca) hasta las grandes
cuencas fluviales (o cuencas lacustres). Una cuenca fluvial suele comprender un complejo sistema de cuencas y
microcuencas hidrográficas atravesadas por un río principal y sus afluentes, en su curso desde su origen (su
“fuente”) hasta su desembocadura (y una cuenca lacustre se puede definir como una zona geográfica atravesada
por una corriente de agua que desemboca en un lago). Dado que los suelos y la vegetación están estrechamente
vinculados al ciclo del agua, las cuencas hidrográficas constituyen la unidad de planificación más útil para llevar a
cabo una gestión integrada del agua y de la tierra.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
112
Las cuencas hidrográficas cumplen importantes funciones y servicios como, entre otros, los siguientes: el
suministro de agua dulce (especialmente las cuencas hidrográficas de las tierras altas);
la regulación del flujo del agua; el mantenimiento de la calidad del agua; el suministro y la protección de de los
recursos naturales para las poblaciones locales; protección frente a peligros naturales (por ejemplo, inundaciones y
desprendimientos de tierra locales); el suministro de energía (como la energía hidroeléctrica); conservación de la
biodiversidad; y recreación.
Las zonas hidrográficas son también conocidas como las cuencas hidrográficas las cuales por su definición son las
áreas de influencia de la red hidrológica de un río. Las Subzonas son la categoría dada a estas mismas áreas de
influencia de la red hidrológica a una escala o jerarquía menor ya que son de los ríos tributarios” (1).
VARIABLES DE REFERENCIA PARA EL ANÁLISIS
Ubicación geográfica
Elementos que la conforman (tierra, fauna, flora, agua)
Temperatura ambiente
Longitud
Altitud,
Hay presencia de viviendas (Sí, No)
Está en el sector urbano
El agua es apta para el consumo humano (Sí, No)
Se utiliza para bienestar de la población (Sí, no)
El estado de salud de la zona geográfica es adecuado (Sí, no)
Tiene intervención estatal (Sí, no)
Es un referente turístico (Sí, No)
El sistema de información sobre ella es adecuado (Sí, No)
¿La subzona geográfica desde las variables observadas favorece la calidad de vida de los habitantes de
la zona circundante? Sustente su decisión.
10. CONTENIDOS
1. Población.
2. Variable
3. Naturaleza y niveles de medición.
4. Variable dependiente y variable independiente
5. Estadísticos descriptivos para las variables cualitativas
6. Estadísticos descriptivos para las variables cuantitativas
7. Gráficos según la naturaleza de las variables-
11. TAREAS ( DESEMPEÑOS DE COMPRENSIÓN)
-Producir un informe descriptivo de acuerdo a la naturaleza de las variables en consideración y diseñar las
conclusiones acerca de la propuesta.
7. BIBLIOGRAFÍA Y CIBERGRAFÍA
(1): Organización Mundial de la Salud. http://www.fao.org/sustainable-forest-
management/toolbox/modules/watershed-management/basic-knowledge/es/. Consultado el 6 de
diciembre de 2019.
Ritchey, Ferris. Estadística para las ciencias sociales. El potencial de la imaginación estadística.
Méjico: McGraw-Hill; 2002.
Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición. Limusa
Wiley. México; 2004.
Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España: McGraw-Hill;
2001.
Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
Castillo M, Isabel. Guijarro G., Marta. Estadística descriptiva y cálculo de probabilidades.
1ªedición.Pearson, Prentice hall; 2006.
Grisales Romero Hugo. Estadística Aplicada en Salud Pública: Estadística Descriptiva y
Probabilidad. Editorial L-Vieco e Hijas. 2002.
UNIVERSIDAD DE ANTIOQUIA
1. INFORMACIÓN GENERAL
Unidad Académica: Facultad Nacional de Salud Publica
Co-requisitos: Ninguno
2. INFORMACIÓN ESPECÍFICA
6
El número de créditos y la intensidad horaria debe estar acorde con el plan de estudios del programa para el que fue
diseñado el curso.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
115
Objetivo general:
Promover la formación investigativa, con fundamentos estratégicos que permiten la toma de decisiones oportunas y anticipadas,
garantizando el posicionamiento estratégico de una empresa.
Objetivos específicos:
Distinguir la naturaleza de las variables y su análisis estadístico.
• Relacionar dos variables cuantitativas o cualitativas.
Contenido:
Unidad No. 1. Fundamentos básicos de la estadística.
Unidad No. 2. Cálculo de proporciones, porcentajes y razones.
Unidad No. 3. Estadística descriptiva.
Unidad No. 4. Introducción a la teoría de probabilidades.
Unidades: Temas: Subtemas:
● Definición de estadística, estadística descriptiva,
probabilidad y estadística inferencial.
● Conceptos básicos: población, muestra, estimador,
Fundamentos básicos parámetro, unidad de medida.
Unidad No. 1 de la estadística. ● Naturaleza y niveles de medición de las variables en
(Fechas: mayo 12) estadística
● Técnicas de recolección de información primarias y
secundarias (encuesta, observación y bases de datos)
Proyecto de aula- guía didáctica: i) explicación del análisis
de las facturas de EPM sobre el consumo de cuatro
servicios básicos domiciliarios en 10 viviendas de una
manzana del municipio; ii) explicación del proyecto de aula
sobre una subzona geográfica.
3. METODOLOGÍA
El curso tiene una modalidad presencial y virtual según las condiciones del contexto y las decisiones de los
administrativos, lo permitan; se programarán sesiones de cuatro y seis horas en las fechas que se agendan en el
cronograma. EL PROFESOR ENTREGARÁ A CADA ESTUDIANTE LAS NOTAS DEL CURSO EN UN DOCUMENTO
IMPRESO. En las sesiones, el profesor realizará ejercicios desde esas notas en compañía de los estudiantes.
También el profesor apoyará estas actividades con asesorías individuales mediante reuniones en Meet o
presencialmente, cuando el estudiante lo requiera. Se enviarán algunos videos elaborados por el profesor en el
tema de probabilidades.
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
117
En cada tema, se explicará teóricamente cada uno de los conceptos del curso y luego se realizarán ejercicios por
parte de los estudiantes quienes deben complementar este trabajo con otro asignado extra clase. El trabajo en
clase puede ser realizado en grupo por los estudiantes, pero las actividades de evaluación requieren que cada
estudiante asuma una responsabilidad individual.
Se desarrollarán evaluaciones formativas o autoevaluaciones, la cuales se solucionarán en clase. Fuera del horario
de clase el estudiante también tendrá la posibilidad de consultar la información del curso que se encuentra
disponible en la Internet, la cual es una alternativa didáctica de las clases presenciales.
La solución de los ejercicios propuestos en los exámenes individuales requiere que las respuestas estén justificadas
con los respectivos procedimientos matemáticos.
El manejo del software estadístico R es oficial para los profesores del grupo de estadística de la Facultad Nacional
de Salud Pública. Los estudiantes deben expresar alguna habilidad en su manejo, a lo largo del curso al igual que el
manejo de la calculadora CalES desde su teléfono celular.
Lineamientos didácticos y escenarios
Unidad No.1. Se desarrolla una conceptualización sobre salud pública, sistemas de información e investigación con
base en la experiencia y las notas recogidas en los congresos de salud pública por parte del profesor que ofrece el
curso. Esto le da el contexto a la salud pública dentro del curso. Se definen algunos conceptos básicos de la
estadística que aportan en el desarrollo de los proyectos de aula del curso.
Unidad No.2. Se inicia el cálculo de las fracciones desde una de las operaciones básicas de la aritmética, para
introducir suavemente al estudiante en el manejo de la calculadora, de las fracciones, de las proporciones,
porcentajes y razones para allanar el camino hacia la realización e interpretación de tablas de frecuencia cuando
se esté analizando manualmente una encuesta.
Unidad No.3. El centro del curso es el capítulo de estadística descriptiva y con él se pretende introducir al
estudiante en el manejo de unos análisis generales para las variables continuas y discretas presentes en los
fenómenos de salud pública. Se trabaja la conceptualización básica común a cualquier curso de estadística
descriptiva, pero se le da un énfasis en salud pública con el análisis de una encuesta recogida en una investigación
realizada por el profesor oferente del curso.
Unidad No.4. Se introduce al estudiante en el manejo de los conceptos básicos introductorios de cualquier curso
de probabilidad, rematando el curso con la regla de Bayes y la probabilidad de total de amplia utilización en el
sector financiero para estimar riesgos en los clientes.
SE ADELANTARÁN DOS PROYECTOS DE AULA en los cuales la responsabilidad de los estudiantes puede ser
compartida en su evaluación con otro compañero.
El primero de los proyectos de aula es sobre una subzona geográfica, con las siguientes actividades:
• Debe ubicar una manzana en el municipio de residencia, de la cual elaborará un mapa a mano alzada para definir
en ella el segmento con 10 viviendas.
• Se ubica en la esquina nororiental y empieza, en el sentido de las manecillas del reloj a ubicar 10 viviendas.
• En cada vivienda recogerá la siguiente información:
Número del contrato; valor de los cuatro servicios básicos: acueducto (anterior y actual); alcantarillado (anterior y
actual); energía (anterior y actual); gas (anterior y actual); ¿Hay personas con discapacidad en la vivienda? 1. Sí, 2.
No; ¿Hay estudiantes en la vivienda? 1. Sí, 2. No. ¿Hay adultos mayores en la vivienda? 1. Sí, 2. No.
La anterior información la consigna en la siguiente tabla:
#contrato Acueducto Alcantarillado Energía Gas Discapa Estu Adultos
Anterior Actual Anterior Actual Anterior Actual Anterior Actual
• Analiza la información recogida y responde a la pregunta que se formuló en este Proyecto para la
manzana.
• Elabora un informe escrito y prepara una exposición frente a sus compañeros. •Elabora un informe escrito
y prepara una exposición frente a sus compañeros.
El segundo proyecto de aula es el análisis de una encuesta aplicada en Turbo sobre salud mental en los hogares y
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
118
las condiciones de vida de los jefes de hogar. Información recogida en el 2015 y que debe ser analizada utilizando
el software estadístico R.
Observaciones
●Se deben realizar las lecturas previas a cada sesión de clase. Son lecturas individuales, por fuera del aula de clase,
que abordan aspectos de interés del tema en cuestión y están contenidas en las notas del curso.
●Los exámenes evaluarán aspectos teóricos y prácticos, a través de preguntas de selección múltiple,
apareamiento, falso o verdadero, completación y problemas a resolver. Cada respuesta debe estar sustentada por
un procedimiento matemático. El examen final será acumulativo de todos los temas del curso.
●Para las prácticas, es necesario el uso de un software, el teléfono celular y una calculadora.
Bibliografía:
Unidad No. 1 Fundamentos básicos de la estadística
Vargas Franco Viviana. Estadística descriptiva para ingeniería ambiental con SPSS.
Universidad Nacional de Colombia. Sede Palmira. Cali, Colombia; 2007.
Grisales Romero Hugo. Estadística Aplicada en Salud Pública: Estadística Descriptiva y
Probabilidad. Editorial L-Vieco e Hijas. 2002.
Aburto Galván César. Elementos de bioestadística: Métodos estadísticos para
investigación. 3 ed. Barcelona, Herder, 1980. 642p
Triola M. Estadística. 10a edición. Editorial Pearson. México 2009
7
De conformidad con el artículo 30 del Acuerdo Superior 432 de 2014, cuando un estudiante supere el 30% de faltas de
asistencia en un curso sin causa justificable legalmente, reprobará por inasistencia y se calificará con una nota de cero,
cero (0.0)
Ramón Eugenio Paniagua Suárez. Profesor titular. Universidad de Antioquia. Facultad Nacional de Salud Pública. Mayo
de 2023
119
Daniel, Wayne. Bioestadística: base para el análisis de las ciencias de la salud. 4ªedición.
Limusa Wiley. México; 2004.
Walpole R, Myers R. Probabilidad y estadística. 4ª edición. Mc Graw-Hill. México. 1992.
Grisales Romero Hugo. Estadística Aplicada en Salud Pública: Estadística Descriptiva y
Probabilidad. Editorial L-Vieco e Hijas. 2002.
Milton, Susan. Estadística para biología y ciencias de la salud. 3a edición. España:
McGraw-Hill; 2001.
Triola M. Estadística. 10a edición. Editorial Pearson. México 2009
Bibliografía básica:
McGraw-Hill; 2001.
Triola M. Estadística. 10a edición. Editorial Pearson. México 2009
4. Profesores
Formación en Unidad N°
Nombres y Apellidos Dependencia Fechas
pregrado y posgrado N° Horas
Matemático, 64
Ramón Eugenio
Salud Pública Magíster en salud
Paniagua Suárez
pública
Aprobado en Acta número del Haga clic aquí o pulse para escribir una fecha...