Tema 1 Introducción
Tema 1 Introducción
Tema 1 Introducción
FACILITADOR:
BIBLIOGRAFÍA:
2
ESTADÍSTICA CON APOYO COMPUTACIONAL
Población y muestra
En casi todos los problemas de estadística, un número especificado de mediciones o datos, es decir, una
muestra, se toma de un cuerpo de mediciones más grande llamado población. Por ejemplo, la población
puede estar formada por todos los apartamentos de La Candelaria. La muestra puede estar formada por
los apartamentos de dos habitaciones de La Candelaria.
Las muestras se utilizan para describir u obtener información importante acerca de la población, por
consiguiente deben ser representativas. Así por ejemplo, si se desea estimar el precio unitario de
apartamentos de 2 habitaciones en La Candelaria, una muestra tomada de apartamentos de dos
habitaciones en Guarenas no es representativa. La selección de los elementos que conforman una muestra
pueden ser realizados de forma probabilística o aleatoria (al azar), o no probabilística.
Población
Muestra
3
ESTADÍSTICA CON APOYO COMPUTACIONAL
La estadística descriptiva está formada por los procedimientos empleados para resumir y describir las
características importantes de un conjunto de mediciones.
La estadística inferencial está formada por los procedimientos empleados para hacer inferencias acerca de
características poblacionales, a partir de información contenida en una muestra tomada de esa población.
Estadístico
Cualquier característica medible calculada sobre una muestra (Ejemplos: promedio, desviación estándar,
coeficiente de variación)
Parámetro:
Una medición basada en una población
Estadística Descriptiva
ESTADÍSTICA
Estadística Inferencial
4
PROCESO DE APLICACIÓN DE LA ESTADÍSTICA
En avalúo, el proceso de aplicación de la estadística incluye una serie de pasos y, frecuentemente, con
apoyo de herramientas computacionales
Paso 1: Selección y determinación de la población o muestra y las características contenidas que se desean estudiar:
determinar el tamaño de la muestra y el tipo de muestreo a realizar (probabilístico o no probabilístico).
Paso 2: Obtención de los datos. Esto puede ser realizado mediante la observación directa de los elementos, la
aplicación de encuestas y entrevistas y la realización de experimentos.
Paso 3: Clasificación, tabulación y organización de los datos. La clasificación incluye el tratamiento de los datos que
puedan falsear un análisis de los indicadores estadísticos. La tabulación implica el resumen de los datos en tablas y
gráficos estadísticos.
Paso 4: Análisis descriptivo de los datos. El análisis se complementa con la obtención de indicadores estadísticos
como las medidas de tendencia central, dispersión, posición y forma, entre otras.
Paso 5: Análisis inferencial de los datos. Se aplican técnicas de tratamiento de datos que involucran elementos
probabilísticos que permiten inferir conclusiones de una muestra hacia la población.
Una variable es una característica que cambia o varía con el tiempo y/o para diferentes personas u objetos
bajo consideración. Por ejemplo, el precio unitario de una vivienda es una variable cuantitativa que
cambia con el tiempo; o bien la calidad de los servicios públicos en una urbanización, es una variable
cualitativa percibida de distintas maneras por diferentes personas
Las variables pueden ser discretas o continuas. Una variable discreta puede tomar sólo un número finito o
contable de valores. Una variable continua puede tomar infinitamente muchos valores correspondientes a
los puntos en un intervalo de recta.
Cuando una variable se mide (en la realidad) en un conjunto de unidades experimentales, resulta un
conjunto de mediciones o de datos.
Una unidad experimental es el individuo u objeto en el que se mide una variable. Resulta una sola
medición o datos cuando una variable se mide en una unidad experimental.
Resultan datos univariados cuando se mide una sola variable en una sola unidad experimental. Resultan
datos bivariados cuando se miden dos variables en una sola unidad experimental. Resultan datos
multivariados cuando se miden más de dos variables. 6
MEDIDAS DE DESCRIPCIÓN DE UNA MUESTRA CUANTITATIVA
Las cantidades que definimos son medidas descriptivas numéricas de un conjunto de datos. Buscamos
algunos números que tienen interpretaciones significativas y que se pueden usar para describir la
distribución de frecuencia de cualquier conjunto de mediciones. De esas cantidades se pueden mencionar
la media, la mediana, la varianza, la desviación estándar, el valor máximo, el mínimo, la curtosis, el
coeficiente de variación, el rango, etc. Sin embargo, por los momentos centraremos nuestra atención en
cuatro tipos de números descriptivos: Media muestral, Varianza muestral y Desviación estándar (o típica)
muestral y coeficiente de variación.
𝒏
𝒊=𝟏 𝒙𝒊
𝒏 𝟐
𝒊=𝟏 𝒙𝒊 − 𝒙
𝒙= = 𝑴𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 𝒔𝟐 = = 𝑽𝒂𝒓𝒊𝒂𝒏𝒛𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍
𝒏 𝒏−𝟏
𝒔
𝒔 = 𝑫𝒆𝒔𝒗𝒊𝒂𝒄𝒊ó𝒏 𝒆𝒔𝒕á𝒏𝒅𝒂𝒓 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍 = 𝒔𝟐 𝑪𝑽 = = 𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒄𝒊ó𝒏
𝒙
Dado un conjunto de mediciones, los parámetros anteriores se pueden obtener utilizando las funciones
de Excel:
PROMEDIO, VAR y DESVEST
7
MEDIDAS DE DESCRIPCIÓN DE UNA MUESTRA CUANTITATIVA
EJEMPLO 1:
El siguiente conjunto de valores representa una muestra de los precios unitarios (en $/m2) de
apartamentos de una zona urbana. Obtenga la media, la varianza y la desviación estándar de la muestra.
PROMEDIO = 3,2252 𝒔
𝑪𝑽 =
𝒙
VAR = 10,029084
8
GRÁFICAS PARA DATOS CATEGÓRICOS
FRECUENCIA FRECUENCIA
CALIDAD FRECUENCIA
ACUMULADA RELATIVA
PORCENTAJE 𝒙𝒊
𝑭𝑹 =
𝒙𝒊
EXCELENTE 35 35 0,076 7,609
MUY BUENA 260 295 0,565 56,522
REGULAR 123 418 0,267 26,739
MALA 30 448 0,065 6,522
MUY MALA 12 460 0,026 2,609
460 1,000 100,000
La frecuencia relativa (𝑭𝑹 ) no es más que una normalización por la suma de la variable calidad
9
GRÁFICAS PARA DATOS CATEGÓRICOS
200
3
150 123 27%
100
50 35 30
12 2
0 56%
EXCELENTE MUY BUENA REGULAR MALA MUY MALA
FRECUENCIA RELATIVA
0,600
0,565
0,500
0,400
0,300
0,267
0,200
0,065
0,100
0,076
0,026
0,000
1 2 3 4 5
10
GRÁFICAS PARA DATOS CATEGÓRICOS
GRÁFICAS DE LÍNEAS
EJEMPLO 3
La siguiente tabla muestra el Índice de Precios al Consumidor (IPC) para el año 2020 (Fuente BCV). Haga
una gráfica de la variación del índice desde enero 2020 hasta diciembre 2020.
𝐼𝑃𝐶𝐽 −𝐼𝑃𝐶𝐽−1
La variación se calcula: 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝐼𝑃𝐶 = × 100
𝐼𝑃𝐶𝐽−1
11
GRÁFICAS PARA DATOS CATEGÓRICOS
GRÁFICAS DE PUNTOS
EJEMPLO 4:
Algunos conjuntos de datos cuantitativos están formados de números que no se pueden separar
fácilmente en categorías o intervalos. Entonces puede usarse una gráfica de puntos o de dispersión.
Área de
Zona Área de terrenos (m2)
terrenos (m2)
1 120 250
2 135,4
200
3 95,5
4 128,7 150
5 200
6 185,4 100
7 124,6
50
8 95,9
9 29,7 0
10 58,4 0 2 4 6 8 10 12 14
11 31,3
12 138,0
12
GRÁFICAS PARA DATOS CATEGÓRICOS
Gráficas de tallo y hoja
EJEMPLO 5.
Precios de viviendas (en miles de dólares) se muestran en la siguiente tabla. Haga un gráfico de tallos y
hojas
1. Divida cada segmento en dos partes: el tallo y las hojas.
2. Ponga en lista los tallos en una columna, con una línea vertical a su derecha.
3. Para cada medición, registre la parte de hoja en el mismo renglón como su tallo correspondiente.
4. Ordene las hojas de menor a mayor en cada tallo.
5. Dé una clave a su codificación de tallo y hoja para que el lector pueda recrear las mediciones reales si es
necesario.
Tallos Hojas
14
GRÁFICAS PARA DATOS CATEGÓRICOS
EJEMPLO 7:
Frecuentemente es necesario hacer gráficos de funciones descritas por variables. Suponga que, en el avalúo
de un equipo de vida útil N = 15 años y valor de reposición a nuevo VRN = 450, se quiere dibujar un gráfico
comparativo entre dos funciones para obtener el avalúo A: Línea recta (LR) y Kuentzle (K) en función de la
edad T del equipo. Las funciones son las siguientes:
0,9𝑇
Por línea recta: 𝐴 = 𝑉𝑅𝑁 1 − 𝑁
𝑇
Por Kuentzle: 𝐴 = 𝑉𝑅𝑁[1 − 0,9(𝑁)2 ]
VRN = 450
N = 15 AVALÚO LINEA RECTA Y KUENTZLE
EDAD (T) LR KUENTLE 500
1 423 448,2
2 396 442,8
400 K
3 369 433,8
4 342 421,2 AVALÚO
5 315 405 300
6 288 385,2 LR
7 261 361,8 200
8 234 334,8
9 207 304,2 100
10 180 270
11 153 232,2 0
12 126 190,8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
13 99 145,8
14 72 97,2
EDAD
16
15 45 45
GRÁFICAS PARA DATOS CATEGÓRICOS
EJEMPLO 8:
En el avalúo de maquinarias y equipos, es frecuente utilizar un método para calcular la depreciación de un
bien utilizando un diagrama para expresar su estado de conservación. Tal es el caso del método de
depreciación de Ross-Heidecke. Este método utiliza una tabla y/o un gráfico para expresar el estado de
conservación, con base a unas variables cualitativas. La llamada tabla de conservación de Heidecke y su
correspondiente gráfico se muestran a continuación:
COEFICIENTE DE HEIDECKE
100,00
75,20
COEFICIENTE
ESTADO CONDICIONES FÍSICAS COEFICIENTE
1 Nuevo 0,00
52,60
1,5 Entre nuevo y conservación normal 0,32
2 Conservación normal 2,52 33,20
2,5 Conserv. Normal y reparaciones simples 8,09 18,10
8,09
3 Necesita reparaciones simples 18,10 0,00 0,32 2,52
3,5 Entre rep. Simples y rep. importantes 33,20
4 Necesita rep. Importantes 52,60 1 1,5 2 2,5 3 3,5 4 4,5 5
4,5 Entre rep. Import. y obsoleto 75,20 ESTADO DE CONSERVACIÓN
5 Obsoleto 100,00
17
NORMALIZACIÓN DE VARIABLES
Frecuentemente es necesario utilizar variables para obtener una medida de efectividad. Tal es el caso donde
la medida de efectividad es precio. Por ejemplo, a mayor área de terrenos, mayor precio. En este caso, si la
variable es área entonces la relación es directa. Por el contrario, si se trata de la edad de un apartamento, a
mayor edad menor precio y la relación es inversa.
EJEMPLO:
Se desea de normalizar por la suma (rj), las variables ÁREA y 1/EDAD (xj)), que se señalan a continuación con
el objeto de determinar el precio de una vivienda unifamiliar.
2. Las 40 acciones principales del mercado secundario (OTC, por sus siglas en inglés), clasificadas por el
porcentaje de acciones en circulación vendidas en un día el año pasado, se muestran en la siguiente tabla:
11,88 6,27 5,49 4,81 4,4 3,78 3,44 3,11 2,88 2,68
7,99 6,07 5,26 4,79 4,05 3,69 3,36 3,03 2,74 2,63
7,15 5,98 5,07 4,55 3,94 3,62 3,26 2,99 2,74 2,62
7,13 5,91 4,94 4,43 3,93 3,48 3,2 2,89 2,69 2,61
a. Construya un histograma de frecuencia relativa para describir estos datos. b ¿Qué proporción de estas 40
acciones principales vendió más de 4% de las acciones en circulación?
20
EJERCICIOS
3. El histograma de frecuencia relativa que aparece a continuación se construyó a partir de datos obtenidos
de una muestra aleatoria de 25 familias. A cada una se le preguntó el número de litros de leche que habían
comprado la semana previa.
Use este histograma de frecuencia relativa para determinar el número de litros de leche comprados por la
proporción más grande de las 25 familias. A) La categoría asociada con la frecuencia relativa más grande se
denomina categoría modal. B) ¿Qué proporción de las 25 familias compró más de 2 cuartos de leche? C)
¿Qué proporción compró más de 0 pero menos de 5 litros?
21
EJERCICIOS
4. Es sabido que la inflación puede influir en los precios unitarios de viviendas y debe ser tomada en cuenta
en los estudios de avalúos de bienes inmuebles. Haga sendos gráficos de líneas para comparar la inflación en
Venezuela, la Unión Europea y el mundo
22
EJERCICIOS
7. Haga una gráfica de tallos y hojas de los valores de la tabla del ejercicio 1.
23
EJERCICIOS
9. Para el siguiente conjunto de valores de acciones en un mercado de valores: A) Determine las siguientes
medidas: Número de datos, media, varianza, desviación estándar, mediana, Min, Q1, Q3, Máx. B) Utilice la
función CONTAR.SI de Excel para contar el número de datos entre 𝜇 ± 𝜎 𝑦 𝑒𝑛𝑡𝑟𝑒 𝜇 ± 2𝜎
ACCIONES DE MERCADO DE VALORES
11,88 2,88 3,36 3,94 4,94
6,27 2,68 3,03 3,62 4,43
5,49 7,99 2,74 3,26 3,93
4,81 6,07 2,63 2,99 3,48
4,4 5,26 7,15 2,74 3,2
3,78 4,79 5,98 2,62 2,89
3,44 4,05 5,07 7,13 2,69
3,11 3,69 4,55 5,91 2,61
10. Los datos siguientes muestran una votación con tarjetas para elegir al presidente de un club deportivo.
Haga un diagrama de distribución de frecuencia relativa. Utilice la función de Excel CONTAR.SI
Azul Rojo Verde Verde Azul Negro Blanco Rojo Azul Rojo
Verde Azul Azul Verde Verde Negro Azul Blanco Verde Azul
Rojo Azul Azul Azul Verde Azul Negro Rojo Azul Azul
Blanco Blanco Rojo Rojo Verde Negro Azul Blanco Rojo Rojo
Rojo Verde Verde Negro Blanco Blanco Azul Rojo Verde Azul
Verde Azul Azul Negro Azul Rojo Blanco Blanco Negro Blanco
Rojo Rojo Rojo Negro Rojo Azul Azul Verde Blanco Blanco
24
EJERCICIOS
11. En 1926 el matemático alemán Herbert Sturges propuso una expresión sencilla, basado en el número de
muestras x, que permitiese encontrar el número de intervalos k en las cuales debe dividirse un conjunto de
N datos para obtener un histograma de frecuencias. Lo propuesto por Sturges fue 𝒌 = 𝟏 + 𝒍𝒐𝒈𝟐 𝐍 lo cual
puede expresarse también como 𝒌 = 𝟏 + 𝟑, 𝟑𝟐𝟐𝒍𝒐𝒈𝟏𝟎 (𝑵).
Haga un gráfico de la expresión de Sturges para valores de N del 1 al 50 y compárelo con 𝑁
GRÁFICO CON
MINITAB
25
EJERCICIOS
12. Resuelva el problema 1.11 de la página 16 del libro “Introducción a la probabilidad y estadística de
William Mendenhall, Robert J. Beaver y Barbara M. Beaver”
13. Resuelva el problema 2.5 de la página 58 del libro “Introducción a la probabilidad y estadística de William
Mendenhall, Robert J. Beaver y Barbara M. Beaver”
14. Los datos representan el número terminal de cédulas de personas que van a solicitar pasaporte. La
distribución de estos datos es relativamente “plana”, con cada valor diferente de 0 a 9 presentándose con
casi igual frecuencia. Usando este dato, A) ¿cuál sería su mejor estimación para la media del conjunto de
datos? B) Use la aproximación de rango (s= Rango/4) para calcular el valor de s para este conjunto. C) Use
Excel para hallar los valores reales de la media y la desviación estándar. Compare con sus estimaciones en los
incisos A) y B).
1691590284
0734235842
3200212774
0099538474
6690262958
5177787518
3419386666
26
EJERCICIOS
REFERENCIALES X1 X2 X3
R1 12,3 3 3
R2 15,6 3 4
R3 13,1 2 4
R4 26,2 4 7
R5 14,7 5 6
27