Introduccion A La Geoestadistica

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 80

Introducción a la

GEOESTADÍSTICA

Edmundo Alarcón
1ra. PARTE
Origen de la “Geoestadística”

✓ La Geoestadística tiene su origen en la búsqueda,


exploración y evaluación de yacimientos minerales útiles.
✓ Se ha consolidado y desarrollado en los últimos 30 años
como ciencia aplicada casi exclusivamente en el campo
minero.
✓ La gran diversidad de formas en que se presentan los
datos ha llevado a la utilización de técnicas matemáticas y
estadísticas para resolver un único problema: estimar
valores desconocidos a partir de los conocidos, para la
estimación y caracterización de los recursos y reservas.
Origen de la “Geoestadística”

❖ Las investigaciones han buscado los métodos más


eficientes que proporcionen la mayor información
posible de los datos disponibles.
❖ Mediante el mejor estimador que minimice la varianza
del error de estimación (error cuadrático medio) surge
la Geoestadística por los trabajos de G. Matheron en la
Escuela Superior de Minas de París (1949)
❖ Entre los métodos más recientes se pueden citar los
“geomatemáticos”: El Inverso de la Distancia,
Triangulación, Splines, etc.
Geoestadística: Antecedentes
✓ Sichel (1947, 1949) observó la naturaleza asimétrica de la
distribución del contenido de oro en las minas surafricanas, la
equiparó a una distribución de probabilidad lognormal y
desarrolló las fórmulas básicas para esta distribución.
✓ D.G. Krige (1951) desarrolló la aplicación del análisis de
regresión entre muestras y bloques de mena (Mineral
metalífero, principalmente el de hierro, tal como se extrae
del criadero y antes de limpiarlo).
✓ Las técnicas geoestadísticas se han exportado de la minería a
más campos como: hidrología, física del suelo, ciencias de la
tierra y más recientemente a la gestión ambiental y al
procesado de imágenes de satélite.
Geoestadística : Definición y Objeto
➢ La geoestadística es una rama de la estadística que trata de fenómenos espaciales
(Journel & Huijbregts, 1978).
➢ Su interés primordial es la estimación, predicción y simulación de dichos fenómenos
(Myers, 1987).
➢ Se reconoce como una rama de la estadística tradicional, que parte de la
observación de que la variabilidad o continuidad espacial de las variables
distribuidas en el espacio tienen una estructura particular que se estudia mediante
las dependencias entre ellas.
➢ Matheron (1970) denominó a estas variables dependientes entre si, variables
regionalizadas.
➢ En resumen, la aplicación de la teoría de los procesos estocásticos a los problemas
de evaluación de reservas de distintos tipos de materias primas minerales y en
general a las ciencias naturales en el análisis de datos distribuidos a las ciencias
naturales en el análisis de datos distribuidos espacial y temporalmente dio origen a
lo que hoy se conoce como Geoestadística.
Datos geográficos y análisis estadístico
Los SIG actuales incluyen Características de los datos
posibilidades de exploración y geográficos:
análisis de datos. en un punto, a más de las
Las técnicas más elementales son coordenadas, se tiene de
de Estadística descriptiva información multivariante
(Análisis Exploratorio de Datos, (altitud, precipitación,
EDA). profundidad del suelo, tipo de
La Estadística Descriptiva: para vegetación,…).
una, dos y hasta 3 variables, El Análisis exploratorio espacial
permite resumir conjuntos de de datos (ESDA), es una
valores y visualizar estructuras ampliación y desarrollo del EDA,
que incluye el Análisis espacial o
de distribuciones de
estadística espacial.
probabilidad.
Datos geográficos y análisis estadístico

• Existen algunas dificultades fundamentales para que


las técnicas estadísticas convencionales manejen
correctamente datos geográficos:
• El empleo de las Técnicas clásicas de Inferencia
Estadística, suponen, en los datos de partida :
❑ La independencia de las observaciones
❑ La distribución en curva de Gauss (distribución
Normal)
Lo cual a menudo no se cumple en datos geográficos.
Conceptos básicos de Estadística

Revisión de Técnicas estadísticas:


✓ Muestreo y análisis Exploratorio de datos
✓ Conceptos de Inferencia Estadística paramétrica:
✓ Una variable: Estimador, propiedades,
intervalos de confianza y tests de hipótesis.
✓ Dos ó más variables: modelos lineales
(regresión, Análisis de la varianza).
✓ Conceptos de procesos estocásticos (variables
dependientes, medidas de dependencia espacial).
Conceptos básicos de Estadística

Muestreo y análisis Exploratorio de datos:


➢ Población (Universo) y Muestra.
➢ Muestreo (Obtención de datos).
➢ Variables y tipos.
➢ Antes de comenzar un estudio geoestadístico se
deben discutir todos los elementos que aporten
conocimientos del problema a resolver, fenómeno
en estudio, organización y verificación de la
información disponible y finalmente realizar el
análisis exploratorio de los datos.
Conceptos básicos de Estadística
✓ Población estadística o universo es el conjunto de referencia
sobre el cual van a recaer las observaciones.
✓ Muestra: es el subconjunto de la población en el que se mide
una o más variables de interés.
▪ A partir de este subconjunto se obtienen conclusiones
sobre las características de la población.
▪ La muestra debe ser representativa, en el sentido de que
las conclusiones obtenidas deben servir para el total de la
población.
✓ Unidad muestral: elementos de la población, no solapados en
los que se mide. Cada elemento de la población pertenecerá a
una y sólo una unidad muestral.
Estadística básica: Tipos de muestras
❖ Muestra probabilística: se elige mediante ciertas reglas,
de manera que la probabilidad de selección de cada
unidad es conocida de antemano.
❖ Muestra no probabilística: no se rige por las reglas
matemáticas de la probabilidad.
❖ En las muestras probabilísticas es posible calcular la
magnitud del error muestral, y no es factible hacerlo en el
caso de las muestras no probabilísticas (puntos de fácil
acceso, estaciones de medición de la calidad del aire en
una ciudad).
Métodos de muestreo

Esquemas de tipos de muestreo:


a) aleatorio simple;
b) aleatorio estratificado;
c) sistemático rejilla rectangular;
d) sistemático rejilla polar
Diferencias entre tipos de muestreo
ALEATORIO ESTRATIFICADO CONGLOMERADOS
Variables y Tipos de variables
➢ Variable: cada una de las características de los
elementos de una población y que varían de una
unidad a otra.
➢ Variables cualitativas (o categóricas): aquellas que no
tienen medida numérica; se representan por
categorías o atributos (tipo de suelo, de vegetación,
textura,…).
➢ Variables cuantitativas: las que pueden expresarse
numéricamente (temperatura, precipitación,
profundidad suelo, altitud, pendiente, ….)
Variables cuantitativas

✓ Variables discretas: son el resultado de contar y


sólo toman valores enteros (número de puntos, de
cuadrículas, de píxeles).
✓ Variables continuas: son el resultado de medir, y
pueden contener decimales (temperatura,
profundidad, altura). Se pueden subdividir a
voluntad. Pueden tomar, entonces, cualquier valor
de un determinado intervalo.
Estadística Descriptiva

Objetivo: conocer la información disponible.


Cálculos estadísticos o estadística descriptiva.
Permiten determinar si la distribución de los datos es
normal, lognormal, o si no se ajustan a una distribución
estadística conocida. Implica tener conocimiento de:
Número de casos: representado por “n”, es el número de
valores muestreados del fenómeno en estudio, los datos
representados por xi, i = 1, . . . , n.
Frecuencia de cada xi nº de veces que aparece el mismo
valor medido.
Distribuciones de frecuencias
Los valores de cada xi medidos y su frecuencia de aparición en los n
datos se conoce como la distribución de la variable estudiada.
Valores resumen: Medidas de posición
Media: Es la media aritmética de la distribución,
Moda: Es el valor más frecuente de la distribución
Mediana: Es el valor para el cual la mitad de los datos son menores y la
otra mitad están por encima de este valor. La mediana es también
llamada percentil 50
Ordenando los datos en orden ascendente podemos calcular la mediana
como:
Valores resumen: Medidas de posición
V l
Cuartiles, donde: M did d i ió
Q1 = percentil 25,
Q2 = Mediana,
Q3 = percentil 75.
Deciles si los datos se dividen en 10.
De forma general estas medidas se pueden calcular por:
[ p(n+1)/100 ]
ésima observación de los datos ordenados
ascendentemente, donde p es el percentil que se desea
calcular.
Interpretación de los Cuartiles
Se forman cuatro grupos con igual cantidad de datos
Un cuarto de los La mitad de los datos (dos Tres cuartos de los datos
datos toman cuartos) toman valores toman valores iguales o
valores iguales o iguales o inferiores a 3,6 inferiores a 7,6
inferiores a 2,2
Q2= Me=3,6 Q3=7,6
Q1=2,2 Rango Intercuartil
RI=Q3-Q1
xmin=1,1 xmax=9,9

0 1 2 3 4 5 6 7 8 9 10
Escala graduada de la variable en estudio
Valores resumen: Dispersión
Rango de la distribución: Es la diferencia entre el valor máximo y el
mínimo observados.
Varianza: Describe la variabilidad de la distribución. Es la medida de la
desviación o dispersión de la distribución.
Se divide por (n-1) y no por n y se representa por S2 cuando se calcula con
una muestra observada porque proporciona mejor estimación de la
varianza de la población. (estimación insesgada).
Esto significa que si un experimento fuera repetido muchas veces se
podría esperar que el promedio de los valores así obtenidos para S2 (valor
muestral) igualaría a  2
Valores resumen

Desviación estándar: También describe la


dispersión de la distribución. Es la raíz cuadrada
de la medida de desviación al rededor de la media.
En las mismas unidades de medida que la variable
estudiada.

Normal con σn-1 pequeña

Normal con σn-1 grande


Valores resumen

Error estándar: que se comete al


estimar la media de la variable
medida con las n observaciones de
la muestra. A mayor tamaño
muestral menor error.
Coeficiente de variación: Es una
medida de la variación relativa de
los datos en porcentaje,
Valores resumen: De forma
Coeficiente de asimetría (de Fisher): Describe la simetría de la
distribución relativa a la distribución normal.

Asimetría negativa = mayor concentración de valores a la


izquierda de la media.
Asimetría positiva = mayor concentración de valores a la
derecha de la media.
Valores resumen: De forma
Curtosis (o apuntamiento): Describe el grado de esbeltez de la
distribución, en relación a una distribución normal.
Gráficos estadísticos
Gráfico de dispersión
(scatterplot X-Y)

Permiten ilustrar y entender


las distribuciones de los
datos, identificar datos
errados, valores extremos,
tendencias en la variación de
los datos, relaciones entre
variables,…
Gráficos estadísticos: Exploración de datos
Gráficos descriptivos 12
Histogram

para una variable: 10

frequency
8

•Histogramas: 4
2
0
0 2 4 6 8
Copa 1

•Gráficos de cuartiles: Quantile Plot


1
Percentiles for Copa 1
0,8

proportion
1,0% = 1,2 0,6
5,0% = 1,4
10,0% = 1,6 0,4

25,0% = 2,4 0,2


50,0% = 3,2 0
75,0% = 4,3 0 2 4 6 8
90,0% = 5,1 Copa 1
Gráficos estadísticos: Exploración de datos
Gráficos descriptivos para una variable:
Gráfico de cuantiles para verificar el ajuste de los datos a la distribución
Normal: (Q-Q Normal).
Eje vertical: valores de la función de distribución de la Normal.
Recta: gráfico de los valores de la variable con los valores de
probabilidad acumulada de ocurrencia según la distribución Normal.
Normal Probability Plot
99,9

La proximidad de los valores


99
95

percentage
observados a la recta indica 80
50

que los datos se pueden 20


5

considerar con distribución 1


0,1

Normal. 0 2 4 6 8
Copa 1
PLOTEOS TIPO Q-Q

• PLOTEOS CUANTIL-CUANTIL

• UNA LÍNEA RECTA INDICA QUE


LAS DOS DISTRIBUCIONES TIENEN
LA MISMA FORMA

• UNA LÍNEA A 45 GRADOS INDICA


QUE LOS PROMEDIOS Y LAS
VARIANZAS SON LAS MISMAS
Gráficos estadísticos: Exploración de datos
Gráficos descriptivos para una variable:
Gráficos de cajas (box-plot)
Gráficos estadísticos: Exploración de datos

Box-and-Whisker Plot

Comparación gráfica de
la variable silt
(sedimento) en los
distintos puntos de
muestreo (1 a 4):
PROMEDIO DE PDF

Mean(=4.1)
MODA DEL PDF

Mode (also min)

Max
Media en la CDF
VARIANZA
• EJEMPLO: • SI QUITAMOS EL VALOR MAS ALTO:

1, 1, 1, 2, 3, 3, 5, 7, 7 ,11 1, 1, 1, 2, 3, 3, 5, 7, 7

M=4.1 M= 3.33

S2= 1/9 {(1-4.1)2+ (1-4.1)2+ (1-4.1)2+ (2-4.1)2+ S2=1/8 {(1-3.33)2+ (1-3.33)2+ (1-3.33)2+ (2-
(3-4.1)2+ (3-4.1)2+ (5-4.1)2+ (7-4.1)2+ (7-4.1)2+ 3.33)2+ (3-3.33)2+ (3-3.33)2+ (5-3.33)2+ (7-
(11-4.1)2 } 3.33)2+ (7-3.33)2

= 1/9 (9.61+ 9.61+ 9.61+ 4.41+ 1.21+ 1.21+ = 1/8 (5.43+ 5.43+ 5.43+1.769+ 0.109+
0.81+ 8.41+ 8.41+ 47.61) 0.109+ 2.789+ 13.469+ 13.469)

= 100.9/9 = 48/8

= 11.21 =6
DESVIACIÓN ESTÁNDAR
S2= 11.21 → S = 3.348 S2 = 6 → S = 2.445
COEFICIENTE DE VARIACIÓN
CV = 3.348/4.1 =0.817 CV = 2.445/3.33=0.743
SESGO

• EJEMPLO: • SI QUITAMOS EL VALOR MAS ALTO:


1, 1, 1, 2, 3, 3, 5, 7, 7 ,11 1, 1, 1, 2, 3, 3, 5, 7, 7
M =4.1 M=3.3
SK = [1/10 {(1-4.1)3+ (1-4.1)3+ (1-4.1)3+ (2- SK= [1/9 {(1-3.3)3+ (1-3.3)3+ (1-3.3)3+ (2-
4.1)3+ (3-4.1)3+ (3-4.1)3+ (5-4.1)3+ (7-
3.3)3+ (3-3.3)3 + (3-3.3)3+ (5-3.3)3+ (7-
4.1)3+ (7-4.1)3+ (11-4.1)3 } ]/ 3.348 3
3.3)3+ (7-3.3)3 } ]/ 2.445 3
= {1/10 (-29.79-29.79-29.79-8.82-1.33
1.33+ 0.73+ 24.39+ 24.39+328.51)} = {1/9 (-12.17- 12.17- 12.17- 2.2- 0.03-
/37.52 0.03+ 4.91+ 50.65+ 50.65)} / 14.61
= 277.2/375.2 = 67.44/131.54
=0.738 = 0.513
2da. PARTE
DISTRIBUCIÓN NORMAL

X ~> N(μ, σ2)


• ES SIMÉTRICA Y ACAMPANADA
• LA FRECUENCIA ACUMULATIVA ES UNA LÍNEA RECTA
• 68% DE LOS VALORES ESTÁN DENTRO DEL RANGO +/- 1 DESVIACIÓN ESTÁNDAR
• 95% DE LOS VALORES ESTÁN DENTRO DEL RANGO +/- 2 DESVIACIONES ESTÁNDAR

CURVA DE
DISTRIBUCIÓN
NORMAL, Y
ACUMULADA
DISTRIBUCIÓN NORMAL ESTÁNDAR

• EL PROMEDIO DE LA DISTRIBUCIÓN ES Μ = 0 Y LA DESVIACIÓN


ESTÁNDAR ES S = 1
• SE PUEDE ESTANDARIZAR CUALQUIER DISTRIBUCIÓN CON LA
FORMULA:
Z ~> N(0, 1)

• LA FUNCIÓN ACUMULATIVA F(X) NO SE PUEDE CALCULAR


FÁCILMENTE PARA LA DISTRIBUCIÓN NORMAL
• EXISTEN EXTENSAS TABLAS PARA SIMPLIFICAR ESTE CALCULO
• LA MAYORÍA DE LOS TEXTOS SOBRE ESTADÍSTICA CONTIENEN
TABLAS PARA LA DISTRIBUCIÓN NORMAL
EJEMPLO DE UNA CDF* (NORMAL)
Encontrar la proporción de valores mayores que la ley de corte 0.5 en una
población normal con media = 0.3 y desviación = 0.2
Solución:
• Primero transformar la ley de corte, x0 , a unidad normal.
z = (x0 - m) / s = (0.5 - 0.3) / 0.2 = 1
• Luego, encuentra el valor de F(z) para z = 1. En las tablas se ve que el valor
de F(1) es 0.8413
• Calcular la probabilidad de muestras mayores que la ley de corte 0.5, P(x >
0.5), de la siguiente manera:
P(x > 0.5) = 1 - P(x  0.5) = 1 - F(1) = 1 -0.8413 = 0.16
40
• Por lo tanto, 16% de las muestras en la población son > 0.5
DISTRIBUCIÓN LOGNORMAL
• El logaritmo de la variable aleatoria Formulas para conversión entre
tiene una distribución normal distribuciones normales y
lognormales:
f(x) = 1 / (x 2 ) e –u
x > 0, > 0 • Lognormal a normal:
µ = exp (+2 /2)
en donde:
2 = µ2 [exp(2) - 1]
u= (ln x -  ) 2 / 22
= promedio de los logaritmos • Normal a lognormal:
= varianza de los logaritmos  = logµ - 2 /2
2 = log [1 + (2 /µ 2)]
CURVAS DE DISTRIBUCIÓN LOGNORMAL

Distribución Lognormal
Sesgado positivo

42
Transformaciones
Para modelos de interpolación del tipo regresión, las
hipótesis requieren, entre otras condiciones:
• Normalidad de los datos
• Homogeneidad en la varianza
Si en el análisis exploratorio no se observa simetría
en el histograma y con un contraste de bondad de
ajuste (prueba chi-cuadrado o Kolmogorov-Smirnov)
se confirma la falta de normalidad, se tendrá que
recurrir a algún tipo de transformación
“normalizante” de los datos.
Transformaciones Box-Cox o de potencia

• =2, Y=X2
• =1/2, Y=X1/2
Se busca que la variable transformada se parezca a una
distribución normal
Ejemplo:
X ~ Exp(3)

Rango: [0, 10]


pasos de
0.05.
La mejor fue
 = 3.05
Ejemplo:

X ~ Beta(5,
• 2.5)

Rango: [-10, 10]


pasos de 1.
La mejor fue  >= 10
Ejemplo:
X ~ U(0.01, 1)
L j f > 10

Rango: [-10, 10]


pasos de 0.5.
La mejor fue  >= 10
INTERVALO DE CONFIANZA
Un intervalo de confianza es una técnica de estimación utilizada
en inferencia estadística que permite acotar un par o varios pares de
valores, dentro de los cuales se encontrará la estimación puntual buscada
(con una determinada probabilidad).
Nos va a permitir calcular dos valores alrededor de una media muestral (uno
superior y otro inferior). Estos valores van a acotar un rango dentro del cual,
con una determinada probabilidad, se va a localizar el parámetro
poblacional.
Intervalo de confianza = media +- margen de error
Conocer el verdadero poblacional, por lo general, suele ser algo muy
complicado. Ante situaciones así, se hace más factible seleccionar
una muestra estadística, y sobre dicha muestra, calcular la media, a esa
media le sumamos el margen de error y tenemos un valor del intervalo de
confianza. Por otro lado, le restamos a la media ese margen de error y
tendremos otro valor. Entre esos dos valores estará la media poblacional.
FACTORES DE LOS QUE DEPENDE UN INTERVALO DE CONFIANZA

El cálculo de un intervalo de confianza depende principalmente de


los siguientes factores:
•Tamaño de la muestra seleccionada: Dependiendo de la cantidad
de datos que se hayan utilizado para calcular el valor muestral, este
se acercará más o menos al verdadero parámetro poblacional.
•Nivel de confianza: Nos va a informar en qué porcentaje de casos
nuestra estimación acierta. Los niveles habituales son el 95% y el
99%.
•Margen de error de nuestra estimación: Este se denomina como
alfa y nos informa de la probabilidad que existe de que el valor
poblacional esté fuera de nuestro intervalo.
•Lo estimado en la muestra (media, varianza, diferencia de
medias…): De esto va a depender el estadístico pivote para el
cálculo del intervalo.
3ra. PARTE
DISTRIBUCIÓN Ln CON 3
PARÁMETROS

El logaritmo de la variable aleatoria mas una


constante, ln (x+c), tiene una distribución normal

La constante c puede ser estimada con la


formula:
c = (M2 - q1 q2 ) / (q1 + q2 + 2M)
DISTRIBUCIÓN DE 2 VARIABLES
(BIVARIABLE )
• Distribución conjunta de las ocurrencias de dos
variables X e Y :

F(x,y) = Prob {Xx y Yy}

• En la practica, esto se estima usando la proporción


de pares de datos X e Y en conjunto y debajo de
sus umbrales respectivos.
ANÁLISIS CHEQUEO DE
ESTADÍSTICO ERRORES
• Nunca usar cero para definir
valores que no existen
• Organizar, entender y/o
• Chequear por errores de tipeo
describir los datos
• Ordenar los datos y examinar los
• Chequeo de errores valores extremos
• Condensar la información • Plotear secciones y planos para
encontrar errores en las
• Intercambiar la coordenadas de las muestras
información de forma • Ubicar los valores extremos en un
uniforme mapa. ¿Están aislados, o tienen
alguna tendencia?
ANÁLISIS Y DESPLIEGUE DE DATOS

• CORRELACIÓN
• DISTRIBUCIÓN DE FRECUENCIAS • COEFICIENTE DE CORRELACIÓN
• HISTOGRAMAS • REGRESIÓN LINEAL
• TABLAS DE FRECUENCIA ACUMULATIVA • MAPAS DE UBICACIÓN DE DATOS
• PLOTEOS DE PROBABILIDAD • MAPAS DE CONTORNOS (CONTOUR
• PLOTEOS DE DATOS DISPERSOS MAPS)
(SCATTER PLOTS) • MAPAS DE SÍMBOLOS (IMPRESORA)
• PLOTEOS DE TIPO Q-Q • ESTADÍSTICA DE VENTANAS MÓVILES
• EFECTO PROPORCIONAL
HISTOGRAMAS PLOTEO DEL HISTOGRAMA

• DESPLIEGUE VISUAL DE LA
DISTRIBUCIÓN DE LOS DATOS

• LA DISTRIBUCIÓN BIMODAL
RESALTA

• SE PUEDE VISUALIZAR LOS VALORES


DE ALTA LEY (OUTLIERS)

57
HISTOGRAMAS CON
DATOS SESGADOS HISTOGRAMAS CON
DATOS SESGADOS
• PUEDA SER QUE LOS DATOS NO DEN
UN HISTOGRAMA INFORMATIVO

• UN HISTOGRAMA PUEDE DEMOSTRAR


LA AMPLITUD COMPLETA DE LOS
DATOS, PERO PUEDE SER NECESARIO
OTRO HISTOGRAMA PARA VER LOS
DETALLES DE VALORES PEQUEÑOS.
TABLAS DE FRECUENCIA ACUMULATIVA

59
PLOTEOS DE PROBABILIDAD

• MUESTRA SI LA
DISTRIBUCIÓN ES
NORMAL O
LOGNORMAL
• SE PUEDE VER SI HAY
POBLACIONES
MÚLTIPLES
• LA PROPORCIÓN DE
LEYES ALTAS (OUTLIERS)
RESALTA

60
PLOTEO DE DATOS DISPERSOS
• Es simplemente
una grafica x-y de
los datos
• Muestra que tanto
dos variables están
relacionadas
• Descubre pares de
datos no usuales o
anormales
Regresión Lineal
• y = ax + b + Ɛ
donde: a = pendiente de la recta a = r (y/x)
b = constante b = my - amx
REGRESIÓN LINEAL
• DIFERENTES RANGOS DE DATOS PUEDEN SER DESCRITOS DE FORMA ADECUADA
POR DIFERENTES REGRESIONES

Cu<5, Mo<0.5 ρ=0.8215 Cu<5, Mo<0.5 ρ=0.8215


y= 0.109x +0.0029 y= 0.109x +0.0029
COVARIANZA
C = 2097.5
Covxy= 1/n (xi-mx)(yi-my)
para i=1,...,n

mx = promedio de los valores de x


my = promedio de los valores de y
Es afectada por la magnitud de los C=20.975
valores de los datos:
Al multiplicar los valores de x e y
por C, la covarianza aumentar en
C2.
TIPOS DE COVARIANZA
COVARIANZA ALTA Y POSITIVA COVARIANZA ALTA Y NEGATIVA

COVARIANZA CERCANA A CERO


CORRELACIÓN
Coeficiente de Correlación
r = Covxy / xy
Hay tres casos de correlación
donde:
entre dos variables:
Covxy= 1/n (xi-mx)(yi-my) ;i=1,...,n
• Correlacionadas positivamente r = 1, línea recta, pendiente positiva
r = -1, línea recta, pendiente negativa
• Correlacionadas negativamente r = 0, no hay correlación
• No correlacionadas Puede ser afectado por valores altos
(outliers)
TIPOS DE CORRELACION
CORRELACION ALTA Y POSITIVA CORRELACION ALTA Y NEGATIVA

r = 0.99 r = -0.97
CORRELACION CERCANA A CERO MIDE LA DEPENDENCIA LINEAL

r = -0.03
r = -0.08
UBICACIÓN DE LOS DATOS

67
MAPAS DE CONTORNOS (CU)

68
MAPAS DE SÍMBOLOS

• CADA UNO DE LOS VALORES SON


REPRESENTADOS POR UN SÍMBOLO
CORRESPONDIENTE A LA CLASE A LA
CUAL PERTENECEN

• DISEÑADO PARA LA IMPRESORA EN LÍNEA

• GENERALMENTE NO ES A ESCALA

69
ESTADÍSTICA DE VENTANAS MOVIBLE
• SE DIVIDE EL ÁREA DE ESTUDIO EN ÁREAS MAS PEQUEÑAS DEL MISMO
TAMAÑO
• SE CALCULAN LA ESTADÍSTICAS PARA CADA UNA DE LAS ÁREAS PEQUEÑAS
• ESTE PROCEDIMIENTO ES ÚTIL PARA INVESTIGAR SI HAY ANOMALÍAS EN EL
PROMEDIO Y EN LA VARIANZA

70
EFECTO PROPORCIONAL
Cuando en el cálculo del semivariograma se detecta que existe
una relación linear entre el valor medio de las muestras usadas
en el cálculo de cada g(h) y la desviación estándar
correspondiente, en la estadística básica para las variables
PMA (Promedio, Mediana, Asimetria), las tres variables tienen
una distribución asimétrica positiva, por lo que es necesario
evaluar si en estos casos se presenta el conocido “efecto
proporcional”, que es una forma particular de
heterocedasticidad (la variabilidad de los datos cambia a lo
largo del área de estudio), en particular para distribuciones
asimétricas positivas, la varianza local se incrementa conforme
se aumenta su media local, este efecto proporcional puede
hacer el variograma experimental no interpretable.
EFECTO PROPORCIONAL PLOT DEL EFECTO
PROPORCIONAL

CASOS POSIBLES:
EL PROMEDIO Y LA VARIABILIDAD SON
CONSTANTES
• EL PROMEDIO ES CONSTANTE, LA VARIABILIDAD
FLUCTÚA
• EL PROMEDIO VARIA, LA VARIABILIDAD ES
CONSTANTE
• AMBOS INDICADORES VARÍAN
• SE APLICA PARA PREDECIR LA NUEVA ESCALA DE
LA VARIANZA RELATIVA

73
CONTINUIDAD ESPACIAL
Los métodos estadísticos clásicos no hacen uso de la información
espacial presente en los datos georreferenciados con los que
habitualmente trabajamos en geociencias. La geoestadística, a
diferencia de la estadística clásica, nos ofrece una forma de
describir la continuidad espacial de los datos, que es una
característica fundamental de innumerables procesos naturales,
proveyéndonos de métodos de adaptación de las técnicas clásicas
de regresión para incluir en ellas la información disponible de la
continuidad espacial. Esta información es incorporada en los
métodos de estimación mediante alguna de las siguientes funciones:
covarianza, variograma o correlograma.
CONTINUIDAD ESPACIAL
• UNA SERIE DE PLOTEOS DE DATOS DISPERSOS (H-SCATTER PLOTS) PARA VARIAS
DISTANCIAS DE SEPARACIÓN PUEDE MOSTRAR COMO LA CONTINUIDAD ESPACIAL SE
DETERIORA CON EL AUMENTO DE LA DISTANCIA.
• TAMBIÉN SE PUEDE RESUMIR LA CONTINUIDAD ESPACIAL CALCULANDO EL ÍNDICE DE LA
FUERZA DE LA RELACIÓN APARENTE EN CADA PLOTEO DE DATOS DISPERSOS (H-SCATTER
PLOT)
• SE PLOTEA EL VALOR DE LA MUESTRA EN CADA UBICACIÓN VERSUS EL VALOR DE OTRA
UBICACIÓN CERCANA
MOMENTO DE INERCIA
Es habitual interpretar la inercia como una medida de la
dispersión de los datos respecto a un determinado punto -
muy habitualmente su centro de gravedad. En este sentido,
cuando los datos se encuentran muy dispersos entre sí su
inercia -respecto al centro de gravedad- aumenta y cuando
se encuentran poco dispersos su inercia disminuye.
La inercia es, por lo tanto, un concepto semánticamente
cercano al de varianza. En ambos casos se trata de medidas
de dispersión pero ¿qué diferencia a la varianza de la
inercia? La inercia se puede entender como una
generalización del concepto de varianza.
MOMENTO DE INERCIA
• PARA PLOTEOS DE DATOS DISPERSOS QUE SON
SIMÉTRICO ALREDEDOR DE LA LÍNEA X=Y, EL
MOMENTO DE INERCIA ALREDEDOR DE ESTA
LÍNEA PUEDE SER UTILIZADO COMO UN ÍNDICE Y
DE LA FUERZA DE LA RELACIÓN.
• LA NUBE DE LOS INDIVIDUOS ESTÁ DEFINIDA EN
UN ESPACIO DE DIMENSIÓN N Y NO SE PUEDE
VISUALIZAR CUANDO N > 3. PARA OBTENER X-Y
UNA REPRESENTACIÓN SINTÉTICA DE LOS
DATOS, LA IDEA ES PROYECTAR ESTA NUBE EN (X-Y)/2
UN SUB-ESPACIO DE DIMENSIÓN K ≤ N (EN LA (X,Y)
PRÁCTICA, SE SUELE TOMAR K = 2), ELIGIENDO
EL SUB-ESPACIO MÁS “CERCANO” A LA NUBE, A
X
SABER, EL QUE MINIMIZA SU MOMENTO DE
INERCIA.
PLOTEO DE
MOMENTO DE
INERCIA
https://www.youtube.com/watch?v=p8d1iKkeHM4

https://www.youtube.com/watch?v=jN-5i7WTx7I

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy