Oliva Vazquez B Seriesdetiempo
Oliva Vazquez B Seriesdetiempo
Oliva Vazquez B Seriesdetiempo
1
b) Otros ejemplos de modelos de volatilidad
5. Procesos No Estacionarios
7. Cointegración
2
2. Bibliografı́a
Cowpertwait, P. y Metcalfe, A. (2009). Introductory Time Series with
R. Spinger.
3
Notas de Clase: Series de Tiempo
1. Introducción 5
5. Anexo 85
5.1. El estimador de Mı́nimos Cuadrados Ordinarios y el análisis
clásico de regresión . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2. Estimación por el método de Máxima Verosimilitud (MV) . . 93
5.3. Métricas de bondad de ajuste . . . . . . . . . . . . . . . . . . 96
3
5.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 98
5.4.1. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.2. Prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6. Bibliografı́a 103
4
Capı́tulo 1
Introducción
5
6
Capı́tulo 2
Introducción al análisis de
series de tiempo
7
Figura 2.1: Indicador Global de la Actividad Económica (IGAE) Global y
para las Actividades Primarias (2008 = 100), ene-2002 - mayo-2018
8
Figura 2.2: Índice de Confianza del Consumidor (ICC): General y resultado
de ¿Cómo considera usted la situación económica del paı́s hoy en dı́a com-
parada con la de hace 12 meses? (enero 2003 = 100), ene-2002 - mayo-2018
9
Figura 2.3: Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores
y Tipo de Cambio para Solventar Obligaciones en Moneda Extranjera (Pesos
X Dólar), ene-2002 - mayo-2018
10
Figura 2.4: Índice del Índice de Precios y Cotizaciones de la Bolsa Mexica-
na de Valores e Índice del Tipo de Cambio para Solventar Obligaciones en
Moneda Extranjera (ambos, enero de 2002 = 100), ene-2002 - mayo-2018
11
Figura 2.5: Tasas de crecimiento mensuales (diferencias logarı́tmicas) de: In-
dicador Global de la Actividad Económica; Índice de Precios y Cotizaciones
de la Bolsa Mexicana de Valores y Tipo de Cambio para Solventar Obliga-
ciones en Moneda Extranjera, feb-2002 - mayo-2018
12
Ahora bien, si retomamos la definición de tasa de crecimiento (TC) de
una serie de tiempo yt entre el periodo t y t − 1 podemos obtener que:
yt − yt−1 yt
TC = = −1 (2.2)
yt−1 yt−1
De esta forma, si tomamos el logarı́tmo de la expresión de la ecuación
(2.2) obtenemos la siguiente aproximación:
yt yt
− 1 ≈ ln = ln(yt ) − ln(yt−1 ) (2.3)
yt−1 yt−1
La ecuación (2.3) es cierta cuando los valores de yt y yt−1 son muy pa-
recidos, es decir, cuando las variaciones no son tan abruptas. Otra forma
de interpretar la ecuación (2.3) es que para tasas de crecimiento pequeñas,
se puede utilizar como una buena aproximación a la diferencia logarı́tmica
mostrada en la ecuación (2.1).
En la Figuara (2.5) se reportan las diferencias logarı́tmicas del IGAE,
IPC y TDC, todos, como una media de distitntos tipos de redimientos. Es
decir, podemos decir que un capitalista promedio (suponiendo que solo puede
invertir en la actividad económica, en la bolsa o en el dólar), puede observar
que le es más redituable en función de sus preferencias.
Notése que la dinámica de las variaciones de cada una de las series es
significativamente diferente. Destaca que el TDC es una de las variables que,
en general, no muestra grandes cambios a lo largo del tiempo. No obstante, se
han observado cambios radicales, cuando menos en el año 2008. Lo anterior,
son caracteristicas que se han observado para el IPC. En cambio, el IGAE
muestra un comportamiento más estable o estacionario.
13
14
Capı́tulo 3
Elementos de Ecuaciones en
Diferencia
15
la ecuación diferencial:
dZ(t) d2 Z(t) dk Z(t)
; ; . . . ; (3.1)
dt dt2 dtk
Por otro lado, suponiendo el caso del tiempo en forma discreta, es de-
cir, con t = . . . , −2, −1, 0, 1, 2, . . ., entonces el comprtamiento de la serie de
variables dadas por Zt , la cual se puede expresar como:
∆Zt ; ∆2 Zt ; . . . ; ∆k Zt (3.2)
Observemos que una forma técnicamente más correcta es escribir las ex-
presiones anteriores como:
∆Zt ∆2 Zt ∆k Zt
; ; . . . ; (3.3)
∆t ∆t2 ∆tk
No obstante, no pasa desapercibido que ∆t = 1, por lo que resultan
equivalentes ambos conjuntos de expresiones (3.2) y (3.3).
Zt − a1 Zt−1 = a0 (3.5)
16
Donde α, β ∈ R y α, β 6= 0. Otro reesultado implı́cito en este primer
propiedad es que el operador rezago aplicado a cualquier escalar dará como
resultado el escalar, puesto que este es una constante sin importa el momento
t en el cual se encuentre la variable.
La segunda propiedad del operador es que se puede aplicar de forma
consecutiva a una misma variable. Es decir, L(Zt−1 ) = LLZt = L2 Zt , por
lo que en general tendremos: Lp Zt = Zt−p (con p ∈ Z). Ası́, en el caso de p
rezagos la propiedad de linealidad del operador rezago será:
Zt − a1 LZt = a0
(1 − a1 L)Zt = a0
1
Zt = a0 + sat1
1 − a1 L
1
Zt = a0 + sat1 (3.8)
1 − a1
Donde a1 6= 1 y t = . . . , −2, −1, 0, 1, 2, . . .. Notése que la aplicación del
operador rezago L a la constante a1 dará como resultado el valor de la misma
constante, ya que ésta no depende del momento t en el cuál observemos a
la variable Zt . En la ecuación (3.8) se adiciona un término sat1 que permite
ubicar la trayectoria inicial de la solución de la ecuación. El componente no
significa un cambio respecto de la ecuación (3.5) original, ya que si buscara-
mos reconstruir a ésta ecuación tendrı́amos:
17
conocido como el método iterativo. Plantearemos las siguientes ecuaciones
partı́culares donde suponemos la existencia del valor inicial Z0 del proceso:
Z1 = a0 + a1 Z0
Z2 = a0 + a1 Z1
= a0 + a1 (a0 + a1 Z0 )
= a0 + a0 a1 + a21 Z0
= a0 (1 + a1 ) + a21 Z0
Z3 = a0 + a1 Z 2
= a0 + a1 (a0 + a0 a1 + a21 Z0 )
= a0 + a0 a1 + a0 a21 + a31 Z0
= a0 (1 + a1 + a21 ) + a31 Z0
Zt = a0 + a1 Zt−1
= a0 (1 + a1 + a21 + . . . + at−1 t
1 ) + a1 Z0
Xt−1
= a0 ai1 + at1 Z0 (3.9)
i=0
Donde, es necesario que en la ecuación (3.9) se cumpla que |a1 | < 1 para
que la suma sea convergente –más adelante detallaremos esta afirmación–. A
este tipo de ecuaciones se les puede denominar como lineales. Esto en razón
de que ningún término de la varaible Z aparce elevado a ninguna potencia
distinta a 1. También, son de primer órden, ya que el rezago de la variable
Z es sólo de un periódo.
En adelante trabajaremos con ecuaciones en las que la variable Z se en-
cuentra rezagada en cualquiera de los siguientes casos:
18
Por lo que diremos que en adelante el curso versará sobre ecuaciones en
diferencia lineales y de cualquier órden p.
Retomando la ecuación (3.9) y considerando la parte de la suma de los
términos de ai1 , de tal forma que buscaremos dar una expresión más compre-
sible a dicho término. Definamos la siguiente expresión como:
t−1
X
St−1 = ai1 (3.11)
i=0
1 − at1
St−1 = (3.13)
1 − a1
Conjuntando éste último resultado de la ecuación (3.13) con la ecuación
(3.9) tenemos la siguiente solución por el método de iteración:
1 − at1
Zt = a0 + at1 Z0 (3.14)
1 − a1
19
en la ecuación (3.4). Está solución aún no es general, en el sentido de que
sea válida para cualquiel tipo de proceso: convergente o divergente. Dicha
convergencia o divengencia estará determinada por el paramétro a1 . No debe
pasar desapercibido que cuando t → ∞ o cuando la muestra es muy grande
(lo que es equivalente), podemos decir que la solución solo puede converger
a la siguiente expresión cuando se considera que |a1 | < 1:
1
Zt = a0 (3.15)
1 − a1
Donde claramente es necesario que |a1 | < 1. Por lo tanto, sólo faltarı́a
determinar el valor de la constante s en la ecuación (3.8) de la siguiente
forma, supongamos que observamos el proceso en el momento inicial, por lo
que es posible determinar el valor de la constante conociendo el valor inicial
del proceso como sigue:
1
Z 0 = a0 +s (3.17)
1 − a1
De la ecuación (3.17) tenemos que:
1
s = Z0 − a0 (3.18)
1 − a1
Ası́, juntando la ecuación (3.8) y ecuación (3.18) tenemos la expresión:
1 − at1
Z t = a0 + at1 Z0 (3.19)
1 − a1
No debe pasar desapercibido que está solución es la misma que la mos-
trada en la ecuación (3.14), por lo que en realidad ambas ecuaciones son una
solución general indistintamente entre las ecuaciones (3.14) y (3.19). Ambas
20
convergen a la expresión como la ecuación (3.15), con la misma condición de
convergencia |a1 | < 1. Para ilustrar estas ecuaciones veámos algunos ejemplos
al respecto.
Consideremos que tenemos un proceso Zt que es descrito por una ecuación
en diferencia lineal de primer órden dada por:
Zt = 2 + 0,9Zt−1 (3.20)
Zt = 2 − 0,5Zt−1 (3.22)
1 − (−0,5)t
Zt = 2 + (−0,5)t Z0 (3.23)
1 + 0,5
21
Tiempo Zt = 2 + 0,9Zt−1 Zt = 2 − 0,5Zt−1
0 10.00000 10.000000
1 11.00000 -3.000000
2 11.90000 -1.500000
3 12.71000 0.250000
4 13.43900 0.625000
5 14.09510 1.062500
6 14.68559 1.156250
7 15.21703 1.265625
8 15.69533 1.289062
9 16.12580 1.316406
10 16.51322 1.322266
11 16.86189 1.329102
12 17.17570 1.330566
13 17.45813 1.332275
14 17.71232 1.332642
15 17.94109 1.333069
16 18.14698 1.333160
.. .. ..
. . .
97 19.99964 1.333333
98 19.99967 1.333333
99 19.99970 1.333333
100 19.99973 1.333333
22
Figura 3.1: Evolución del proceso dado por Zt = 2 + 0,9Zt−1
23
Donde, t = . . . , −2, −1, 0, 1, 2, . . . y a1 , a2 6= 0. Reordenando la ecuación
(3.24) podemos escribir:
Zt − a1 Zt−1 − a2 Zt−2 = a0
Zt − a1 LZt − a2 L2 Zt = a0
(1 − a1 L − a2 L2 )Zt = a0 (3.25)
a1 = g1 + g2 (3.27)
a2 = −g1 g2 (3.28)
(1 − a1 L − a2 L2 ) = (1 − g1 L)(1 − g2 L)
= 1 − g1 L − g2 L + g1 g2 L2
= 1 − (g1 + g2 )L + g1 g2 L2 (3.29)
Por lo tanto, buscamos que para que el proceso sea equivalente y podamos
interpretar que la ecuación (3.26) sea una solución general deberá pasar lo
siguiente:
24
O escrito de otra forma:
(1 − g1 L)s1 g1t = (1 − g2 L)s2 g2t = 0 (3.32)
Ahora determinemos cuáles son los valores g1 y g2 para los valores a1
y a2 que nos permitan determinar si el proceso será convergente. Para ello
debemos resolver la siguiente ecuación:
(1 − g1 x)(1 − g2 x) = 0 (3.33)
Donde, claramente existen dos raı́ces: x1 = g1−1 y x2 = g2−1 . Ası́, la solución
estará dada por las raı́ces de la ecuación caracterı́stica:
1 − a1 x − a2 x 2 = 0
a2 x 2 + a1 x − 1 = 0 (3.34)
Cuya solución es: p
−a1 ± a21 + 4a2
x= (3.35)
2a2
Es importante distinguir tres casos diferentes en relación con las raı́ces
que surgen como solución de la ecuación (3.34), estos son:
Caso I. Si a21 + 4a2 > 0, la ecuación (3.34) proporcionará dos valores de
raı́ces reales y distintos, eso es x1 = g1−1 6= x2 = g2−1 . Si por ahora suponemos
que |g1 | < 1 y que |g2 | < 1, entonces tendremos que:
∞
! ∞ !
X X
(1 − g1 L)−1 (1 − g2 L)−1 a0 = g1j Lj g2j Lj a0
j=0 j=0
∞
! ∞
!
X X
= g1j g2j a0
j=0 j=0
a0
=
(1 − g1 )(1 − g2 )
a0
= (3.36)
1 − a1 − a2
Esto último es el punto de equilibrio de la ecuación (3.26); considerando
que |g1 | < 1 y que |g2 | < 1 –notemos que los demás casos son divergentes–.
De esta forma la solución de la ecuación estará dada por:
a0
lı́m Zt = (3.37)
t→∞ 1 − a1 − a2
25
Caso II. Si a21 + 4a2 < 0 en la ecuación (3.34), entonces las raı́ces seran
números complejos conjugados, es decir:
g1−1 = u + iv (3.38)
g2−1 = u − iv (3.39)
(1 − gL)2 Zt = a0
a0
Zt = + s1 g t + s2 tg t
(1 − gL)2
∞
X
= a0 (1 + i)g j + s1 g t + s2 tg t (3.43)
i=0
26
Por lo que si hacemos la primer derivada del la expresión anterior tenemos
que:
1
f 0 (g) =
(1 − g)2
X∞
= jg j−1
j=0
= 0 + g 0 + 2g 1 + 3g 2 + . . .
X∞
= (1 + j)g j
j=0
Zt = 3 + 0,9Zt−1 − 0,2Zt−2
2
(1 − 0,9L + 0,2L )Zt = 3
1 − 0,9x + 0,2x2 = 0
−0,2x2 + 0,9x − 1 = 0
27
expresiones:
3
Zt = + s1 (0,4)t + s2 (0,5)t
1 − 0,9L + 0,2L2
3
= + s1 (0,4)t + s2 (0,5)t
1 − 0,9 + 0,2
3
= + s1 (0,4)t + s2 (0,5)t
(1 − 0,4)(1 − 0,5)
Al final, la ecuación que describe la solución general será:
zt = 10 + s1 (0,4)t + s2 (0,5)t (3.44)
Para determinar los valores de s1 y s2 necesitamos obtener dos valores
iniciales de la ecuación para lo cual iniciaremos como t = 0 y luego obtenemos
el valor de t = 1, consideremos el valor de Z0 = 0 y Z1 = 50:
Z0 = 10 + s1 (0,4)0 + s2 (0,5)0
0 = 10 + s1 + s2
Z1 = 10 + s1 (0,4)1 + s2 (0,5)1
50 = 10 + 0,4s1 + 0,5s2
Por lo que la solución es: s1 = −450 y s2 = 440, de donde podemos
expresar la ecuación como:
Zt = 10 − 450(0,4)t + 440(0,5)t (3.45)
La ecuación (3.45) anterior convergerá al valor de 10 cuando t → ∞. Para
ilustrar la trayectoria de esta ecuación tomemos un cuadro similar al de los
ejemplos anteriores. En el Cuadro 3.2 y la gráfica de la Figura 3.3 mostramos
los resultados de la trayectorua para 100 periodos.
Finalmente, discutiremos la solución para las Ecuaciones Lineales en Di-
ferencia de Orden p, donde p ≥ 2. En general una ecuación de este tipo se
puede escribir como:
Zt = a0 + a1 Zt−1 + a2 Zt−2 + . . . + ap Zt−p (3.46)
Donde t = . . . , −2, −1, 0, 1, 2, . . . y ap 6= 0. La ecuación (3.46) se puede
escribir como:
Zt − a1 Zt−1 − a2 Zt−2 − . . . − ap Zt−p = a0
Zt − a1 LZt − a2 L2 Zt − . . . − ap Lp Zt = a0
(1 − a1 L − a2 L2 − . . . − ap Lp )Zt = a0 (3.47)
28
Tiempo Zt = 10 − 450(0,4)t + 440(0,5)t
0 0.00000
1 50.00000
2 48.00000
3 36.20000
4 25.98000
5 19.14200
6 15.03180
7 12.70022
8 11.42384
9 10.74141
10 10.38250
11 10.19597
12 10.09987
13 10.05069
14 10.02565
15 10.01294
16 10.00652
.. ..
. .
98 10.00000
99 10.00000
100 10.00000
101 10.00000
29
Figura 3.3: Evolución del proceso dado por Zt = −0,2Zt−2 + 0,9Zt−1 + 3
30
decir, cuando sucede que g1 = g2 = . . . = gm = g (con 1 < m ≤ p). En este
caso la solución general en la ecuación (3.50) se escribe como:
a0
Zt =
(1 − g)m (1
− gm+1 ) . . . (1 − gp )
+s1 g + s2 tg t + . . . + sm tm−1 g t + sm+1 gm+1
t t
+ . . . + sp gpt (3.54)
Definamos: ∞
1 X
f (g) = = gj (3.55)
1−g j=0
31
√
Figura 3.4: Circulo unitario en el que se cumple que: |gi | < 1 y gi gj =
√
u2 + v 2 < 1
Para ∀i 6= j y i, j = 1, 2, . . . , p. Cuando g1 = g2 = . . . = gp = g, la
condición de la ecuación (3.61) se resume a que |g| < 1. En resumen, las
condiciones descritas en las ecuaciones (3.61) y (3.62) se puden ilustrar con
un circulo unitario como el de la Figura 3.4 en que sı́ las raı́ces se ubican
dentro de éste, podemos decir que el proceso es convergente en el largo plazo.
32
3.2. Operador de rezago L
Denotemos, como se ha mencionado con anterioridad, con L al operador
de rezago, el cual nos permitirá construir una relación entre diferencias y
medias móviles como se verá más adelante en los procesos univariados AR(p),
M A(q) y, en general, ARIM A(p, d, q). Sean X, Y o Z variables con las que
denotaremos a una serie de tiempo (note que hasta el momento no hemos
definido qué es una serie de tiempo, no obstante no es necesario definirla para
hacer uso del operador).
En esta sección resumiremos algunas propiedades usadas en el capı́tulo
y en capı́tulos más adelante. Ası́, si a dicha serie le aplicamos el operador
rezago antes definido, el resultado deberá ser que cada uno de los valores de
la serie es retardado o regresado un perı́odo. Es decir:
LZt = Zt−1 (3.63)
De esta forma, si aplicamos el operador rezago L a la nueva serie de
tiempo dada por Zt−1 podemos obtener Zt−2 , haciendo uso de la ecuación
(3.63) podemos obtener:
LZt−1 = L(LZt ) = L2 Zt = Zt−2 (3.64)
Mediante una generalización podemos obtener:
Lk Zt = Zt−k (3.65)
Para k = . . . , −2, −1, 0, 1, 2, . . .. Ası́, para k = 0 obtenemos la identidad
dado que L0 Zt = Zt , de tal forma que siempre asumiremos que L0 = 1.
En otro caso, cuando k > 0 a la serie de tiempo a la cual se le aplique el
operador rezago L se le deberá aplicar un rezago de k periodos a cada uno de
los elementos de la serie. Por el contrario, cuando k < 0 el operador rezago
significa que se deberá adelantar |k| veces a cada elemento de la serie. Por
ejemplo, L−3 Zt = Zt+3 .
Las reglas descritas en lo subsecuente se mantienen indistintamene cuando
aplican para el caso de rezagar como para cuando se adelanta una serie. Como
primera propiedad tomemos a la siguiente propiedad:
Lm Zt−n = Lm (Ln Zt ) = Lm+n Zt = Zt−(n+m) (3.66)
De lo anterior podemos inferir el siguiente resultado:
∆Zt = Zt − Zt−1 = (1 − L)Zt (3.67)
33
En el caso de la diferencia de órden cuatro o cuarta diferencia se puede
expresar como:
∆4 Zt = Zt − Zt−4 = (1 − L4 )Zt (3.68)
Al respecto, vale la pena aclarar que en ocaciones se hará uso de una nota-
ción alternativa dada por: ∆k o ∆k , donde k = 1, 2, 3, . . ., indistintamente, ya
que en ambos casos se referirá a una diferencia de orden k. Esta notación re-
sulta de gran utilidad cuando se quiere comparar periodos equivalentes como,
por ejemplo, el mismo trimestre pero de un año anterior. De forma similar,
para el caso de logarı́tmos podemos escribir a la ecuación (3.68) como:
1 1
Zst = (Zt + Zt−1 + Zt−2 + Zt−3 ) = (1 + L + L2 + L3 )Zt (3.70)
4 4
Una generalización del anterior caso puede ser escrito como un polinomio
de orden p con el operador rezago L dado como:
α(L)Zt = (1 − α1 L − α2 L2 − . . . − αp Lp )Zt
= Zt − α1 Zt−1 − α2 Zt−2 − . . . − αp Zt−p (3.71)
34
y un proceso de medias móviles para la misma serie de Zt :
1 1
Zst = (1 + L1 + L2 + L3 )Zt = (Zt + Zt−1 + Zt−2 + Zt−3 ) (3.74)
4 4
De tal forma que el producto de ambos procesos se puede escribir como:
1 1
(1 − L) × (1 + L1 + L2 + L3 )Zt = (1 − L4 )Zt (3.75)
4 4
Es decir, que el producto de dos polinomios, uno de diferencias y otro
más de medias móviles, resulta en uno de diferencias pero de mayor grado,
en este caso de grado 4.
35
36
Capı́tulo 4
X1 , X2 , X3 , . . . , XT (4.1)
37
Colección que es una de las tantas posibles resultantes del proceso es-
tocástico o PGD. Eventualmente podrı́amos estar dispuestos a observar este
proceso indefinidamente, de forma tal que estemos interesados en observar
(1)
a la secuencia dada por {Xt }∞ t=1 , lo cual no dejarı́a se ser sólo una de las
tantas realizaciones o secuencias del proceso estocástico original. Tan solo
para poner un ejemplo, podrı́amos observar las siguientes realizaciones del
mismo PGD:
(2) (2) (2)
{X1 , X2 , . . . , XT }
(3) (3) (3)
{X1 , X2 , . . . , XT }
(4) (4) (4)
{X1 , X2 , . . . , XT }
..
.
(j) (j) (j)
{X1 , X2 , . . . , XT }
Donde j ∈ Z. En lo subsecuente, diremos que una serie de tiempo una rea-
lización del proceso estocástico subyacente. Considerando, en consecuencia,
al proceso estocástico con todas sus posibilidades de realización.
Para hacer más sencilla la notación no distinguiremos entre el proceso
en sı́ mismo y una de sus realizaciones, es decir, siempre escribiremos a una
serie de tiempo como la secuencia (4.2), o más precisamente como la siguiente
realización:
{X1 , X2 , . . . , XT } (4.4)
O simplemente:
X1 , X2 , . . . , XT (4.5)
El proceso estocástico de dimensión T puede ser completamente descrito
por su función de distribución multivaraida de dimensión T . No obstante, esto
no resulta ser práctico cuando se opere más adelante en el curso. Por ello, en
el curso, y en general casi todos los textos lo hacen, sólo nos enfocaremos en
sus primer y segundo momentos, es decir, en sus medias o valores esperados:
E[Xt ]
Para t = 1, 2, . . . , T ; o:
E[X1 ]
E[X2 ]
..
.
E[XT ]
38
o,
E[X1 ], E[X2 ], . . . , E[XT ]
De sus variazas:
V ar[Xt ] = E[(Xt − E[Xt ])2 ]
Para t = 1, 2, . . . , T , y de sus T (T − 1)/2 covarianzas:
Cov[Xt , Xs ] = E[(Xt − E[Xt ])(Xs − E[Xs ])]
Para t < s. Por lo tanto, en la forma matricial podemos escribir lo si-
guiente:
V ar[X1 ] Cov[X1 , X2 ] · · · Cov[X1 , XT ]
Cov[X2 , X1 ]
V ar[X2 ] · · · Cov[X2 , XT ]
.. .. . . ..
. . . .
Cov[XT , X1 ] Cov[XT , X2 ] · · · V ar[XT ]
σ12 ρ12 · · · ρ1T
ρ21 σ 2 · · · ρ2T
2
= .. (4.6)
.. . . ..
. . . .
ρT 1 ρT 2 · · · σT2
Donde es claro que en la matriz (4.6) existen T (T − 1)/2 covarianzas
distintas, ya que se cumple que Cov[Xt , Xs ] = Cov[Xs , Xt ], para t 6= s.
A menudo, esas covarianzas son denominadas como autocovarianzas pues-
to que ellas son covarianzas entre variables aleatorias pertenecientes al mismo
proceso estocástico pero en un momento t diferente. Si el proceso estocástico
tiene una distribución normal multivariada, su función de distribución estará
totalmente descrita por sus momentos de primer y segundo orden.
Ahora introduciremos el concepto de ergodicidad, el cual significa que los
momentos muestrales, los cuales son calculados en la base de una serie de
tiempo con un número finito de observaciones, en la medida que T → ∞
sus correspondientes momentos muestrales, tienden a los poblacionales, los
2
cuales definiremos como µ, para la media, y σX para la varianza.
Este concepto sólo es cierto si asumimos que, por ejemplo, el valor es-
perado y la varianza son como se dice a continuación que, para todo t =
1, 2, . . . , T , observaremos que:
E[Xt ] = µt = µ (4.7)
2
V ar[Xt ] = σX (4.8)
39
Mas formalmente, se dice que el PGD o el proceso estocástico es ergódico
en la media si: !2
T
1X
lı́m E (Xt − µ) = 0 (4.9)
T →∞ T t=1
40
Puesto que resulta poco factible asumir una estacionariedad diferente a
la débil, es adelante siempre que digamos que un proceso es estacionario se
referirá al caso débil y sólo diremos que el proceso es estacionario, sin el
apelativo de débil.
Ahora veamos un ejemplo de lo anterior. Supongamos una serie de tiempo
denotada por: {Ut }Tt=0 . Decimos que el proceso estocástico {Ut } es un proceso
estocástico puramente aleatorio o es un proceso estocástico de ruido blanco o
caminata aleatoria, si éste tiene las siguientes propiedades:
1. E[Ut ] = 0, ∀t
Tratemos de dar más claridad al ejemplo, para ello asumamos que gene-
ramos a {Ut } por medio del lanzamiento de una moneda. Donde obtenemos
una cara con una probabilidad de 0,5, en cuyo caso decimos que la variable
aleatoria Ut tomará el valor de +1, y una cruz con una probabilidad de 0,5,
en cuyo caso decimos que la variable aleatoria Ut toma el valor de −1.
Este planteamiento cumple con las propiedas enunciadas ya que:
41
1. E[Ut ] = 0,5 × −1 + 0,5 × 1 = 0, ∀t
En cuanto a la varianza:
" t
#
X
V ar[Xt ] = V ar Uj
j=1
t
X X
= V ar[Uj ] + 2 ∗ Cov[Uj , Uk ]
j=1 j6=k
t
X
= σ2
j=1
= t (4.14)
= E[U22 ] + . . . + E[Uk2 ]
E[U12 ] +
= σ + σ + . . . + σ2
2 2
= min(t, s)
42
Figura 4.1: Ejemplo de 10 trayectorias de la caminata aleatoria, cuando sólo
es posible cambios de +1 y -1
43
1. ρ(0) = 1. Es fácil demostrar que la función ρ(0) es:
E[(Xt − µ)(Xt+0 − µ)] E[(Xt − µ)2 ]
ρ(0) = = =1
E[(Xt − µ)2 ] E[(Xt − µ)2 ]
T −τ
1X
γ̂(τ ) = (Xt − µ̂)(Xt+τ − µ̂), para τ = 1, 2, . . . , T − 1 (4.18)
T t=1
44
El estimado de la ecuación (4.19) es asintóticamente insesgado. Por ejem-
plo, para el caso de un proceso de ruido blanco o caminata aleatoria, su
varianza puede ser aproximada por el valor dado 1/T . Ésta tiene, asintótica-
mente, una distribución
√ normal. Dado esto, el intervalo de confianza al 95 %
será el dado por ±2/ T , en el cual se encuentra la mayorı́a de los coeficientes
de autocorrelación estimados.
Ahora discutamos algunos ejemplos o aplicaciones. Cuando se realiza la
evaluación de la estimación de un modelo de series de tiempo es importante
saber si los residuales del modelo realmente tienen propiedades de un proceso
puramente aleatorio, en partı́cular, si ellos no están correlacionados entre sı́.
Ası́, la hipotésis a probar será:
45
estas estadı́sticas son más grandes que los correspondientes valores crı́ticos
de la distribución χ2 con m − k grados de libertad a algún grado dado de
signficancia.
Una alternativa para esta prueba es una del tipo Multiplicadores de La-
grange (o LM) desarrollada por Breusch (1978) y Godfrey (1978). La cual,
al igual que las estadı́sticas Q y Q∗ , la hipotesis nula está dada por:
H0 : Los resduales no están autocorrelacionados.
Ha : Los resuduales muestran alguna acutocorrelación de forma
autoregresiva o de medias móviles.
La prueba consiste en realizar una regresión auxiliar en la cual los resi-
duales se estiman en función de las variables explicativas del modelo original
y en los residuales mismos pero rezagados hasta el término m (regresión au-
xiliar). La prueba resulta en una estadı̀stica con una distribución χ2 con m
grados de libertad la cual está dada por la expresión:
LM = T × R2 (4.23)
46
No obstante, ello también depende de los otros momentos de la distribución,
especı́ficamente del tercer y cuarto momento. Los cuales expresan como:
47
Figura 4.2: Evolución del número de pasajeros en el Metro de la CDMX,
enero de 2000 a junio de 2019
48
Estadı́stica Coeficiente Grados de Libertad
µ̂ = T1 Tt=1 Xt
P
30,127.05 N.A.
γ̂(0) = T1 Tt=1 (Xt − µ̂)2
P
199,410,885.58 N.A.
PT −1
γ̂(1) = T1 t=1 (X − µ̂)(Xt+1 − µ̂) 197,705,267.55 N.A.
1
PT −2 t
γ̂(2) = T t=1 (Xt − µ̂)(Xt+2 − µ̂) 195,645,823.47 N.A.
PT −3
γ̂(3) = T1 t=1 (Xt − µ̂)(Xt+3 − µ̂) 193,824,139.44 N.A.
PT −1
t=1 (Xt −µ̂)(Xt+1 −µ̂) γ̂(1)
ρ̂(1) = PT
(X −µ̂)2
= γ̂(0)
0.9914 N.A.
PT −2 t=1 t
(X −µ̂)(X −µ̂) γ̂(2)
ρ̂(2) = t=1PT t (X −µ̂)t+2
2
= γ̂(0)
0.9811 N.A.
t
PT −3 t=1
(X −µ̂)(X −µ̂) γ̂(3)
ρ̂(3) = t=1PT t (X −µ̂)t+3
2
= γ̂(0)
0.972 N.A.
t=1P t
Q∗ = T 1j=1 ρ̂(j)2 193.62 1
Q∗ = T 2j=1 ρ̂(j)2
P
383.24 2
Figura 4.3: Función de Autocorrelación: 150 rezagos del IPC (ρ̂(τ )) - ver
primera columna del cuadro
49
4.2. Procesos estacionarios univariados
En esta sección se analizará el método o metodologı́a de análisis de series
de tiempo propuesto por Box y Jenkins (1970). Los modelos propuestos den-
tro de está metodologı́a o conjunto de métodos se han vuelto indispensables
para efectos de realizar pronósticos de corto plazo.
En este sentido, se analizarán los métodos más importantes en series
de tiempo: Autoregresivos (AR) y de Medias Móviles (MA). Asimismo, se
realizará un análisis de los procesos que resultan de la combinación de ambos,
conocida como ARMA, los cuales son más comúnmente usados para realizar
pronósticos.
Xt = δ + αXt−1 + Ut (4.27)
Donde δ es un término constante, Ut es un proceso puramente aleatorio
(es decir, estacionario, con media cero (0) y una varianza constante (σ 2 )),
X0 es el valor inicial de Xt . Considerando la ecuación (38) y un proceso de
sustitución sucesivo:
X1 = δ + αX0 + U1
Para X2 :
X2 = δ + αX1 + U2
= δ + α(δ + αX0 + U1 ) + U2
= δ + αδ + α2 X0 + αU1 + U2
Para X3 :
X3 = δ + αX2 + U3
= δ + α(δ + αδ + α2 X0 + αU1 + U2 ) + U3
= δ + αδ + α2 δ + α3 X0 + α2 U1 + αU2 + U3
50
Ası́, para Xt obtendrı́amos:
Xt = δ + αXt−1 + Ut
= δ + α(δ + αδ + α2 δ + . . . + αt−2 δ + αt−1 X0 + αt−2 U1 + . . . αUt−2 + Ut−1 ) + Ut
= δ + αδ + α2 δ + α3 δ + . . . + αt−1 δ + αt X0 + αt−1 U1 + . . . α2 Ut−2 + αUt−1 + Ut
= (1 + α + α2 + α3 + . . . + αt−1 )δ + αt X0 + αt−1 U1 + . . . α2 Ut−2 + αUt−1 + Ut
t−1
1 − αt t
X
= δ + α X0 + αj Ut−j (4.28)
1−α j=0
De esta forma obtenemos un proceso que depende de dos partes: una que
depende del tiempo y otra que depende de un proceso estocástico. Asimismo,
debe notarse que la condición de convergencia es: |α| < 1, por lo que cuando
t → ∞, la expresión (39) será la siguiente:
∞
1 X
Xt = δ+ αj Ut−j (4.29)
1−α j=0
Xt = δ + αLXt + Ut
Xt − αLXt = δ + Ut
(1 − αL)Xt = δ + Ut
δ 1
Xt = + Ut (4.31)
1 − αL 1 − αL
51
En esta última ecuación retomamos el siguiente término para reescribirlo
como:
1
= 1 + αL + α2 L2 + α3 L3 + . . . (4.32)
1 − αL
Xt = (1 + αL + α2 L2 + α3 L3 + . . .)δ + (1 + αL + α2 L2 + α3 L3 + . . .)Ut
= (1 + α + α2 + α3 + . . .)δ + Ut + αUt−1 + α2 Ut−2 + α3 Ut−3 + . . .
∞
δ X
Xt = + αj Ut−j (4.33)
1 − α j=0
" ∞
#
δ X
E[Xt ] = E + αj Ut−j
1 − α j=0
∞
δ X
= + αj E[Ut−j ]
1 − α j=0
δ
= =µ (4.34)
1−α
52
Respecto de la varianza podemos escribir:
V ar[Xt ] = E[(Xt − µ)2 ]
!2
∞
δ X δ
= E + αj Ut−j −
1 − α j=0 1−α
53
Comportamiento del proceso real
70
50
Xt
30
Tiempo
54
Comportamiento del proceso estimado
50
45
Xt
40
35
Tiempo
5
Pt−1
Figura 4.5: AR(1) considerando Xt = 1−0,9
+ j=0 0,9j Ut−j , y que Ut ∼
N (0, 4)
0.8
0.4
0.0
0 5 10 15 20 25 30
Rezagos
55
Funcion de Autocorrelacion teorica
0.8
Autocorrelacion
0.4
0.0
1 3 5 7 9 12 15 18 21 24 27 30
Rezagos
Por su parte, para cada una de las series de consumo de gasolina realiza-
remos la siguiente transformación:
56
Donde, Yt es una serie de tiempo, y log(.) es la función logaritmo natural.
Notése que la diferencia entre el primer y segundo caso es que la tasa de
crecimiento es mensual y anual, respectivamente.
Primero, el consumo de electricidad doméstico en su formulación de tasas
de crecimiento arroja como resultados lo siguiente:
µ̂ = −0,000127632 y σ̂ 2 = 29,05
µ̂ = 0,001338705 y σ̂ 2 = 32,23
µ̂ = 0,07038077 y σ̂ 2 = 11,22
µ̂ = 0,2071672 y σ̂ 2 = 33,90
57
Donde Ut denota un proceso puramente aleatorio con media cero (0),
varianza constante (σ 2 ) y un parametro α2 6= 0. Ası́, utilizando el operador
rezago podemos reescribir la ecuación (49) como:
Xt − α1 Xt−1 − α2 Xt−2 = δ + Ut
(1 − α1 L1 − α2 L2 )Xt = δ + Ut
Donde, podemos denotar a α(L) = (1 − α1 L1 − α2 L2 ), el cual es un
polinomio que depende del operador rezago y que es distinto de cero. De esta
forma podemos reescribir a la ecuación (49) como:
α(L)Xt = δ + Ut (4.39)
Ahora supongamos que existe el inverso multiplicativo del polinomio
α(L), el cual será denotado como: α−1 (L), el cual cumple con que,
α−1 (L)α(L) = 1
Ası́, podemos obtener:
Xt = α−1 (L)δ + α−1 (L)Ut
Si utilizamos el hecho que α−1 (L) se puede descomponer en un polinomio
de forma similar el caso de AR(1), tenomos que:
α−1 (L) = ψ0 + ψ1 L + ψ2 L2 + . . .
Por lo tanto,
1 = (1 − α1 L1 − α2 L2 )(ψ0 + ψ1 L + ψ2 L2 + . . .)
Desarrollando la ecuación tenemos:
1 = ψ0 + ψ1 L + ψ2 L2 + ψ3 L3 + ...
− α1 ψ0 L − α1 ψ1 L2 − α1 ψ2 L3 − ...
− α2 ψ0 L2 − α2 ψ1 L3 − ...
Ahora, no debe pasar desapercibido que las siguientes condiciones deben
cumplirse:
L0 : ⇒ ψ0 = 1
L: ψ1 − α1 ψ0 = 0 ⇒ ψ1 = α1
2
L : ψ2 − α1 ψ1 − α2 ψ0 = 0 ⇒ ψ2 = α12 + α2
L3 : ψ3 − α1 ψ2 − α2 ψ1 = 0 ⇒ ψ3 = α13 + 2α1 α2
58
Des esta forma podemos observar que en el lı́mite siempre obtendremos
una ecuación del tipo ψj −α1 ψj−1 −α2 ψj−2 = 0 asociada a Lj , la cual siempre
podremos resolver conociendo que las condiciones iniciales son: ψ0 = 1 y
ψ1 = α1 .
Ası́, las condiciones de estabilidad estarán dadas por las soluciones del
siguiente polinomio:
λ2 − λα1 − α2 = 0
Lo cual implica que es necesario que cada una de las raı́ces sea, en valor
absoluto, siempre menor que la unidad. Estas son las condiciones de estabi-
lidad para el proceso AR(2).
De las relaciones antes mencionadas y considerando que α−1 (L) aplicada
a una constante como δ, tendrá como resultado otra constante. De esta forma
podemos escribir que la solución del proceso AR(2) será:
∞
δ X
Xt = + ψt−j Ut−j (4.40)
1 − α1 − α2 j=0
E[Xt Xt−τ ] = E[α1 Xt−1 Xt−τ ] + E[α2 Xt−2 Xt−τ ] + E[Ut Xt−τ ] (4.42)
59
α1
γ(1) = σ2 (4.45)
(1 + α2 )[(1 − α2 )2 − α12 ]
α12 + α2 − α22
γ(2) = σ2 (4.46)
(1 + α2 )[(1 − α2 )2 − α12 ]
Recordemos que las funciones de autocorrelación se obtienen de la división
de cada unas de las funciones de covarianza (γ(τ )) por la varianza (γ(0)).
Ası́, podemos construir la siguiente equivalencia:
Retomando las series del ejemplo AR(1), a cada una de estas series se
les aplicará una metodologı́a de estimación dada por el método de Máxima
Verosimilitud (ML, por sus siglás en inglés). Antes de realizar el proceso de
estimación consideremos una transformación de diferencias logaritmicas, con
el objeto de obtener un conjunto de series de tiempo expresadas en tasas de
crecimiento y con un comportamiento parecido a un proceso estacionario.
Ası́, para cada una de las series de consumo de electricidad y del consumo
de gasolina realizaremos la siguiente transformación:
µ̂ = −0,001209241 y σ̂ 2 = 28,8
µ̂ = 0,0009654484 y σ̂ 2 = 31,79
60
Tercero, para el consumo de gasolina magna:
µ̂ = −0,02010276 y σ̂ 2 = 10,85
µ̂ = −0,005981203 y σ̂ 2 = 40,01
(1 − α1 L − α2 L2 − α3 L3 − . . . − αp Lp )Xt = δ + Ut
De forma similar que en los procesos AR(1) y AR(2), las condiciones de
estabilidad del proceso AR(p) estarán dadas por la solución de la ecuación
caracterı́stica:
Ası́, solo si el polinomio anterior tiene raı́ces cuyo valor absoluto sea menor
a uno (1) podremos decir que el proceso es convergente. Lo anterior significa
que el proceso es invertible en el siguiente sentido:
1
= ψ0 +ψ1 L+ψ2 L2 +ψ3 L3 +. . . (4.50)
1 − α1 L − α2 L2 3
− α3 L − . . . − αp L p
61
Donde, por construcción de α(L)α−1 (L) = 1 implica que ψ0 = 1. Ası́, la
solución del proceso AR(p) estará dada por:
∞
δ X
Xt = + ψj Ut−j (4.51)
1 − α1 − α2 − α3 − . . . − αp j=0
Los momentos del proceso anterior estarán dados por una media:
δ
E[Xt ] = µ = (4.52)
1 − α1 − α2 − α3 − . . . − αp
62
ρ(p) = α1 ρ(p − 1) + α2 ρ(p − 2) + . . . + αp
Lo anterior se puede expresar como un conjunto de vectores y matrices
1 ρ(1) . . . ρ(p − 1) α1
ρ(1)
ρ(2) ρ(1)
1 . . . ρ(p − 2)
α2
.. = ρ(2)
ρ(1) . . . ρ(p − 3)
α3
(4.53)
. .. .. .. ..
. . ... . .
ρ(p)
ρ(p − 1) ρ(p − 2) . . . 1 αp
De lo anterior podemos escribir la siguiente ecuación que es la solución
del proceso AR(p):
ρ = Rα (4.54)
α = R−1 ρ (4.55)
Finalmente, introduciremos el concepto de Función de Autocorrelación
Parcial (PACF, por sus siglas en inglés). Primero, dadas las condiciones de
estabilidad y que el proceso AR(p) tiene toda la información de los rezagos
en conjunto, es importante construir una metrica para distinguir el efecto de
Xt−p sobre Xt de forma individual.
Ası́, la idea es construir una metrica de la correlación que existe entre las
diferentes varibles aleatorias, si para tal efecto se ha controlado el efecto del
resto de la información. Ası́, podemos definir la ecuación como:
Xt = φk1 Xt−1 + φk2 Xt−2 + . . . + φkk Xt−k + Ut (4.56)
Donde φki es el coeficiente de la variable dada con el rezago i si el pro-
ceso tiene un órden k. Ası́, los coeficientes φkk son los coeficientes de la
autocorrelación parcial (considerando un proceso AR(k)). Observemos que
la autocorrelaicón parcial mide la correlación entre Xt y Xt−k que se man-
tiene cuando el efecto de las variables Xt−1 , Xt−2 , . . . y Xt−k−1 en Xt y Xt−k
ha sido eliminado.
Dada la expresión considerada en la ecuación (66), podemos resolver el
problema de establecer el valor de cada φki mediante:
1 ρ(1) . . . ρ(k − 1) φk1
ρ(1)
ρ(2) ρ(1)
1 . . . ρ(k − 2) φk2
.. = ρ(2)
ρ(1) . . . ρ(k − 3) φk3
(4.57)
. .. .. .. ..
. . ... . .
ρ(k)
ρ(k − 1) ρ(k − 2) . . . 1 φkk
63
Del cual se puede derivar una solución, resoviendo por el método de cra-
mer, o cualquier otro método que consideremos que permita calcular la solu-
ción de sistemas de ecuaciones.
Respecto de cómo estimar el proceso AR(p), existen diversas formas de
estimar los paramétros αk : i) por máxima verosimilitd y ii) por mı́nimos cua-
drados órdinarios. El primer caso requiere que conozcamos la distribución
del proceso aleatorio Ut . El segundo, por el contrario, no requiere el mis-
mo supuesto. No obstante, para el curso utilizaremos el método de máxima
verosimilitud.
Ahora, otra duda que queda es: cómo determinar cual es el órden p del
proceso AR(p). La manera más convencional y formal que existe para tal
efecto es utilizar los criterios de información. Ası́, el órden se elije de acuerdo
a aquel crı́terio de información que resulta ser el mı́nimo. Los criterios de
información que son más comunes son:
1. FPE (Final Prediction Error):
T
T + m 1 X (p) 2
FPE = Ût (4.58)
T − m T t=1
2. Akaike: " #
T
1 X (p) 2 2
AIC = ln Ût +m (4.59)
T t=1 T
3. Schwarz: " #
T
1 X (p)
2 ln(T )
SC = ln Ût +m (4.60)
T t=1 T
4. Hannan - Quinn:
"T
#
1 X (p) 2 2ln(ln(T ))
HQ = ln Ût +m (4.61)
T t=1 T
(p)
Donde Ût son los residuales estimados para el proceso AR(p) y m es
el número de parametros estimados: m = p + 1. Una propiedad que no se
debe perder de vista es que los criterios de información cumplen la siguiente
relación:
orden(SC) ≤ orden(HQ) ≤ orden(AIC) (4.62)
64
Figura 4.8: Función de Autocorrelación de la tasa de crecimiento mensual
del Consumo de Eléctricidad del Sector Industrial, 1982 - 2017: DLCEIt =
ln(CEIt ) − ln(CEIt−1 )
Por esta razón, durante el curso solo utilizaremos el criterio se Akaike para
determinar el órden óptimo del proceso AR(p). Veámos algunos ejemplos.
Retomemos el conjunto series que trabajamos en las sesiones pasadas,
pero ejemplifiquemos solo para el caso del consumo de energı́a eléctrica in-
dustrial (Miles de millones de watts/hora), durante el periodo de enero de
1982 a julio de 2017 y denotada como CEIt .
En las figuras 16 y 17 se muestra la Función de Autocorrelación (FAC
o ACF) y la Función de Autocorrelación Parcial (FACP o PACF), respecti-
vamente, de la serie dada por DLCEIt = ln(CEIt ) − ln(CEIt−1 ). Como se
puede observar, ambas gráficas exhiben un comportamiento diferente de la
autocorrelación. Recordemos que la FACP muestra la autocorrelación de la
variable en cada uno de sus rezagos una vez que ya se ha separado el efecto
del resto de los rezagos de las variables.
Cada una de esas gráficas permite observar el valor de la correlación
existente entre la variable en el momento t con cada uno de los rezagos.
Incluso la FACP puede ayudar a determinar el número máximo de rezagos
que se debe incluir en el proceso AR(p). No obstante, una métrica más formal
65
Figura 4.9: Función de Autocorrelación Parcial de la tasa de crecimiento
mensual del Consumo de Eléctricidad del Sector Industrial, 1982 - 2017:
DLCEIt = ln(CEIt ) − ln(CEIt−1 )
66
Figura 4.10: Residuales de un AR(12) de la serie DLCEIt
67
con el planteamiento del proceso M A(1), que se escribe como:
Xt = µ + Ut − βUt−1 (4.63)
o,
Xt − µ = (1 − βL)Ut (4.64)
En general, el proceso de medias móviles M A(q) puede ser escrito como:
Xt − µ = (1 − β1 L − β2 L2 − . . . − βq Lq )Ut (4.66)
Xt − µ = β(L)Ut (4.67)
Este proceso al igual que el caso del AR(p), los momentos pueden ser
calculados como:
E[Xt ] = µ (4.68)
68
Rezago AIC(q) Óptimo Rezago AIC(q) Óptimo
1 2,695.552 11 2,668.488
2 2,688.995 12 2,613.974
3 2,686.455 13 2,615.703
4 2,676.447 14 2,609.123
5 2,677.011 15 2,611.067
6 2,667.443 16 2,612.156
7 2,667.556 17 2,611.909
8 2,668.656 18 2,608.074 *
9 2,669.960 19 2,608.935
10 2,668.930 20 2,610.353
69
Figura 4.11: Residuales de un M A(18) de la serie DLCEIt
70
Dicho lo anterior, trabajaremos con la siguiente serie: DLCEIt = ln(CEIt )−
ln(CEIt−1 ), por lo que podemos decir que se trata de un ARIM A(p, 1, q).
Ası́, la siguiente tabla muestra los resultados de aplicar el criterio de infor-
mación a un conjunto de especificaciones de ARIM A(p, i, q):
71
Figura 4.12: Residuales de un ARM A(4, 1, 5) de la serie DLCEIt
72
Figura 4.13: Residuales de un ARM A(5, 1, 5) de la serie DLCEIt , cuando se
incorporá una dummy para controlar el efecto atı́pico de 1992
73
trataremos de analizar el caso en el que buscamos determinar relaciones entre
variables y cómo el comportamiento de una influye en las demás. Algunas
relaciones más importantes son las llamadas causalidad. En este caso anali-
zaremos el procedimiento de Granger (1969).
En adelante asumiremos que las series involucradas son debı́lmente esta-
cionarias. Ası́, las definición de causalidad de X y Y esta dada por:
Sean X y Y dos series debı́lmente estacionarias y a It un conjunto de la
información disponible hasta el momento t, decimos que:
3. X causa a Y : (X −→ Y );
4. Y causa a X: (X ←− Y ), y
74
El test de causalidad estada dado, primero, considerando la siguiente
regresión:
k1
X k2
X
k k
Yt = α0 + α11 Yt−k + α12 Xt−k + u1,t (4.78)
k=1 k=k0
1 2 k2
H0 : α12 = α12 = . . . = α12 =0 (4.79)
75
Figura 4.15: Series LT DCt = ln(T DCt ) y LIP Ct = ln(IP Ct ), 2 de enero de
1992 a 13 de octubre de 2017
Figura 4.16: Series en diferencias logarı́tmicas dadas por: DLT DCt = 100 ∗
(ln(T DCt ) − ln(T DCt−1 )) y DLIP Ct = 100 ∗ (ln(IP Ct ) − ln(IP Ct−1 )), 2 de
enero de 1992 a 13 de octubre de 2017
76
Rezagos Estadiı́stica F Significancia
4 4.4333 **
8 2.2784 *
12 3.0407 ***
16 3.1921 ***
Nota: *** significancia al 0 %, ** significancia al 0.01 %, * significancia
0.05 %
77
Donde Ai , i = 1, . . . , p son matrices cuadradas dedimensión k y Ut repre-
senta un vector de dimensión k con los residuales en el momento del tiempo
t. También se incorpora un vector de términos constantes denominado como
δ.
La ecuación (91) supone la siguiente estructura de vectores:
X1t
X2t
Xt = ..
.
Xkt
X1t−p
X2t−p
Xt−p = ..
.
Xkt−p
δ1
δ2
δ = ..
.
δk
También, la ecuación (91) supone que cada matriz Ai es de la siguiente
forma: (i) (i) (i)
a11 a12 . . . a1k
a(i) a(i) . . . a(i)
Ai = 21 22 2k
.
. .
. . . .
. . . ..
(i) (i) (i)
ak1 ak2 . . . akk
Retomando la ecuación (91) y considerando que podemos ocupar el ope-
rador rezago de forma analóga al caso del modelo AR(p), tenemos:
Xt − A1 LXt − A2 L2 Xt − . . . − Ap Lp Xt−p = δ + Ut
(Ik − A1 L − A2 L2 − . . . − Ap Lp )Xt = δ + Ut
78
A(L)Xt = δ + Ut (4.81)
Adicionalmente, requeriremos que Ut cumpla con las siguientes condicio-
nes:
1. E[Ut ] = 0
(t)
U1
U (t) h i
0 2 (t) (t) (t)
2. E[Ut Ut ] = E . U1 U2 . . . Uk
..
(t)
Uk
(t) (t) (t) (t) (t) (t)
U1 U1 U1 U2 . . . U1 Uk
U (t) U (t) U (t) U (t) (t) (t)
. . . U2 Uk
=E 2 . 1 2 2
. . .
. ..
. ... .
(t) (t) (t) (t) (t) (t)
Uk U1 Uk U2 . . . Uk Uk
σ12 ρ12 . . . ρ1k
ρ21 σ 2 . . . ρ2k
2
.. .. ..
. . ... .
ρk1 ρk2 . . . σk2
= ΣU U
(t)
U1
U (t) h i
3. E[Ut Us ] = E 2. U1(s) U2(s) . . . Uk(s)
0
..
(t)
Uk
(t) (s) (t) (s) (t) (s)
U1 U1 U1 U2 . . . U1 Uk
U (t) U (s) U (t) U (s) (t) (s)
. . . U2 Uk
=E 2 . 1 2 2
.. .. ..
. ... .
(t) (s) (t) (s) (t) (s)
Uk U1 Uk U2 . . . Uk Uk
=0
79
Es decir, los residuales Ut pueden estar correlacionados entre ellos solo en
el caso de que la iformación sea contemporanéa, pero no tienen información
en común entre residuales de otros periodos.
Al igual que en el caso del modelo o especificación AR(p) en la especifi-
cación del modelo V AR(p) existen condiciones de estabilidad. Dichas condi-
ciones están dadas por lo siguiente, definamos el siguiente polinomio:
Det[It − A1 z − A2 z 2 − . . . − Ap z p ] 6= 0 (4.82)
Donde |z| ≤ 1, lo que significa que cada una de las raı́ces del polinomio
debe ser menor a la unidad (i.e., dentro del circulo unitario).
La ecuación (92) puede ser rexpresada en una forma similar al un pro-
ceso de MA. Al respecto, de forma similar a la siguiente ecuación podemos
construir un modelo V ARM A(p, q), el cual no estudiamos es este curso. Re-
romando el primer planteamiento, podemos escribir:
ΓX (τ ) = E[(Xt )(Xt−τ )0 ]
= A1 E[(Xt−1 )(Xt−τ )0 ] + A2 E[(Xt−2 )(Xt−τ )0 ]
+ . . . + Ap E[(Xt−p )(Xt−τ )0 ] + E[(Ut (Xt−τ )0 ]
80
2. Akaike Criterion (AIC):
2
AIC(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.85)
T
2ln(ln(2))
HQ(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.86)
T
ln(T )
SC(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.87)
T
Una de las grandes ventajas que aporta el analı́sis de los modelos V AR(p)
es el analı́sis de Impulso-Respuesta. Dicho analı́sis busca cuantificar el efedto
que tiene en Xt el efecto de una innovación o cambio en los residuales de
cualquiera de las variables en un momento definido. Partamos dela ecuación
(92) y utilicemos la descomposición que empleamos en el modelo MA, de
forma que tenemos:
81
Figura 4.17: ı́ndices de Producción Industrial
82
Resumen de los Criterios de Información
Rezagos AIC HQ SC FPE
1 -0.25842276 -0.15594506 -0.00275899 0.77227968
2 -0.31287970 -0.12841980 0.14731510 0.73139870
3 -0.36552090 -0.09907890 0.29920490 0.69400910
4 -0.37061083 -0.02218669 0.49864596 0.69070007
5 -0.34907736 -0.08132893 0.72471044 0.70608598
83
Nota: *** significancia al 0 %, ** significancia al 0.01 %, * significancia
0.05 %
84
Capı́tulo 5
Anexo
y = f (x1 , x2 , . . . , xK ) + ε
= x1 β1 + x2 β2 + . . . + xK βK + ε (5.1)
donde y es la variable dependiente o explicada, el conjunto de variables
85
dado por x1 , x2 , ..., xK son las variables independientes o explicativas y de la
teorı́a tomamos la especificación descrita por f (x1 , x2 , . . . , xK ). Esta función
es comúnmente llamada la ecuación de regresión poblacional de y en x1 , x2 ,
..., xK . El término ε es una perturbación aleatoria o error de estimación.
Este error existe por varias razones, principalmente, porque no esperamos
capturar toda la influencia que existe o determina a una varaible económica
en un modelo simplista como el que generalmente se formula en el análisis
de regresión. Digamos, entonces, que existe un conjunto de información no
observable que permite la existencia del término de error. Por ejemplo, existe
una clara dificultad para obtener medidas razonables de cualidades como
habilidades o capcidades de aprendizaje de un conjunto de individuos a los
cuales, quizá, queremos medir su productividad. Por lo tanto, sólo podemos
medir el efecto de aquellas variables o información que es cuantificable. El
resto de la información la conoceremos como aquella que no es observable.
Ası́, el término de error existe a razón de dicha información.
Implı́citamente, estamos suponiendo que cada una de las observaciones en
una muestra dada por {yi , xi1 , xi2 , . . . , xiK }, para i = 1, . . . , n, fue generada
por un proceso subyacente descrito por:
86
En la mayorı́a de las veces vamos a asumir que existe una columna com-
puesta del número 1 (uno) en todas sus entradas, tal que, el paramétro β1 es
un término constante en el modelo. De esta forma la matriz anteriormente
mostrada se puede ver como:
1 x12 . . . x1K
1 x22 . . . x2K
1 x32 . . . x3K
1 X 2 . . . XK = (5.4)
.. .. ..
. . ... .
1 xn2 . . . xnK
Adicionalmente, denotaremos a Y como un vector columna de n observa-
ciones (y1 , y2 , . . ., yn , en forma de columna), y a ε como el vector columna de
n perturbaciones (ε1 , ε2 , . . ., εn , en forma de columna). El modelo descrito
en la ecuación (1) se puede escribir en su forma general como:
Y = X1 β1 + X2 β2 + . . . + XK βK + ε (5.5)
87
Ası́, los principios de regresión poblacional y regresión muestral están
dados por las fórmulas E[yi |Xi ] = X0i β y ŷi = X0i β̂, respectivamente. Donde
ŷi es el estimador de E[yi |Xi ].
Por su parte, el término de error asociado será:
εi = yi − X0i β (5.8)
si hablamos del caso poblacional o,
ei = yi − X0i β̂ (5.9)
cuando hagamos referencia al caso muestral. Es decir, nuestro estimador
de εi es ei . De lo dicho hasta ahora podemos escribir:
88
De esta forma obtenemos que las condiciones necesarias de un mı́nimo
son:
∂S(β̂)
= −2X0 Y + 2X0 Xβ̂ = 0 (5.15)
∂ β̂
X0 Xβ̂ = X0 Y (5.16)
89
x11 x12 x13 . . . x1K
x21 x22 x23 . . . x2K
X= = X1 X2 X 3 . . . X K
.. .. .. .. ..
. . . . .
xn1 xn2 xn3 . . . xnK
x11 x21 x31 . . . xn1 X01
x12
x22 x32 . . . xn2
X02
0
X = x13
x23 x33 . . . xn3 =
X03
.. .. .. .. .. ..
. . . . . .
x1K x2K x3K . . . xnK X0K
90
X01 X1 X01 X2 X01 X3 . . . X01 XK
X02 X1 X02 X2 X02 X3 . . . X02 XK
.. .. .. .. ..
. . . . .
X0K X1 X0K X2 X0K X3 0
. . . XK XK
Pn 2 Pn Pn
. . . Pni=1 xi1 xiK
P
Pn i=1 xi1 i=1 xi1 xi2
n
i=1 xi1 xi3
n
2
. . . Pni=1 xi2 xiK
P P
Pni=1 xi2 xi1 Pn i=1 xi2 i=1 xi2 xi3
n n
2
P
0 x x x x
XX= i=1 xi3 ... i=1 xi3 xiK
i=1 i3 i1 i=1 i3 i2
.. .. .. .. ..
Pn . Pn . Pn . . Pn . 2
i=1 xiK xi1 i=1 xiK xi2 i=1 xiK xi3 ... i=1 xiK
Pn Pn
. . . P ni=1 xiK
P
n i=1 x i2 Pn i=1 xi3
Pn xi2 Pn 2
. . . Pni=1 xi2 xiK
Pn i=1 xi2 i=1 xi2 xi3
Pni=1 n n
2
P
0
XX= i=1 xi3 i=1 xi3 xi2 i=1 xi3 ... i=1 xi3 xiK
.. .. .. .. ..
Pn . Pn . Pn . . Pn . 2
i=1 xiK i=1 xiK xi2 i=1 xiK xi3 ... i=1 xiK
91
Si el modelo supone la existencia de un término constante, dicho producto
se expresa como:
Pn
1n 0 1n 0 Y i=1 y i
X0 X0 Y Pn xi2 yi
2 2 Pi=1 n
0 X0 X0 Y x y
X Y = 3 Y = 3 = i3 i
i=1
.. .. ..
. . .
0 0
Pn
XK XK Y i=1 xiK yi
∂ 2 S(β̂)
= 2X0 X (5.18)
∂ β̂∂ βˆ0
92
veces, donde k = 1, . . . , τ , y que colocado en una matriz da por resultado un
arreglo X de tamaño T − τ × τ + 1.
93
Ası́, por simplicidad diremos que denotaremos a el logarı́tmo de la función
de densidad conjunta como:
εi ∼ N(0, σ 2 )
ε ∼ N(0, σ 2 In )
n n 0 2
Y Y 1 1 (Xi β−yi )
L(θ|ε) = f (εi |θ) = √ e− 2 σ2 (5.24)
i=1 i=1 2πσ 2
94
Esta última ecuación, en su forma logarı́tmica, se puede expresar como:
n
X √ 1 (yi − X0i β)2
l(θ|ε) = ln(1) − ln( 2πσ ) −2
i=1
2 σ2
n
1 (yi − X0i β)2
X 1 2
= − ln(2πσ ) −
i=1
2 2 σ2
n
(yi − X0i β)2
1X 2
= − ln(2πσ ) +
2 i=1 σ2
" n n #
0 2
1 X X (y i − X i β)
ln(2πσ 2 ) +
= − 2
2 i=1 i=1
σ
" n
#
1 1 X
= − n × ln(2πσ 2 ) + 2 (yi − X0i β)2
2 σ i=1
n 1 0
= − ln(2πσ 2 ) − εε
2 2σ 2
n 1
= − ln(2πσ 2 ) − (Y − Xβ)0 (Y − Xβ)
2 2σ 2
n 1
= − ln(2πσ 2 ) − (Y0 Y − 2Y0 Xβ + β 0 X0 Xβ) (5.25)
2 2σ 2
Establecida la función de verosimilitud, el siguiente paso consisten en la
estimación de los parámetros. Para tal efecto debemos determinar las condi-
ciones de primer orden, quedando de la siguiente forma:
∂l(θ|ε)
= −2X0 Y + 2X0 Xβ̂ = 0 (5.26)
∂ β̂
∂l(θ|ε) n 1
2
=− 2 + 2 2
(Y − Xβ̂)0 (Y − Xβ̂) = 0 (5.27)
∂ σ̂ 2σ 2(σ )
De las dos ecuaciones anteriores podemos deducir las fórmulas de nuestros
estimadores de Máxima Verosimilitud:
e0 e
σ̂ 2 = (5.29)
n
95
El procedimiento de de máxima verosimilitud es el más atractivo de los
demás procedimientos de estimación, ya que sus propiedades ası́ntoticas son
que:
Un estimador es ası́ntoticamente eficiente si éste es consistente, ası́nto-
ticamente distribuido de forma normal y posee una matriz de varianza y
covarianza que no es más grande que la matrix de varianzas y covarianzas
asociadas a cualquier otro estimador.
Si se asume que la función de densidad conjunta cumple con las condiones
de regularidad (que la primer derivada del logarı́tmo de la función de verosi-
militud es continua en todo punto, y que las condiciones de primer órden y
segundo órden son conocidas), podemos enunciar el suiguente:
Teorema. Propiedades de un Estimador de Máxima Verosimili-
tud. Bajo condiciones de regularidad, el estimador de máxima verosimilitud
posee las siguientes propiedades ası́ntoticas:
1. Consistencia: plimθ̂ = θ 0
96
De la Figura 1 podemos afirmar que la variación total de la variable
dependiente Y se puede descomponer en dos partes, es decir, la variación
total de Y se puede expresar como la suma dada por:
n
X
SST = (yi − ȳ)2
i=1
Y − Ȳ = M0 Y = M0 Xβ̂ + M0 e
Recordemos que si M0 extrae los promedios, estonces M0 e = e. Ası́
podemos verificar que el producto Y0 M0 M0 Y es igual a:
n
X
0
SST = (Y − Ȳ) (Y − Ȳ) = (yi − ȳ)2 = Y0 M0 Y
i=1
97
0 0
= β̂ X0 M0 Xβ̂ + β̂ X0 M0 e + e0 M0 Xβ̂ + e0 M0 e
Finlamente, como recordaran de clases pasadas, dijimosPn que sólo cuando
nuestra regresión inclui constante la P
suma de residuales i=1 ei = 0. De esta
forma, el promedio de residuales ( ni=1 ei )/n = 0. Es decir, que nuestra
matriz saca promedio multiplicada por el vector de residuales es igual a
M0 e = e − ē = e. Ası́:
0 0
Y0 M0 Y = β̂ X0 M0 Xβ̂ + β̂ X0 e + e0 Xβ̂ + e0 e
Por otro lado, sabemos que la solución por el método de MCO garantiza
que el producto de X0 e = e0 X = 0.
0
SST = Y0 M0 Y = β̂ X0 M0 Xβ̂ + e0 e
SST = SSR + SSE
O en palabras, la variavilidad total de Y se puede descomponer en dos:
la variavilidad originada por la regresión y la variavilidad que no puede ser
explicada, es decir, la del término de error.
Dicho esto, porponemos el siguiente coeficiente de bondad de ajuste a los
datos, el cual suele concerse como R2 :
e0 e
R2 = 1 −
Y0 M0 Y
Por último el R2 ajustado solo es:
e0 e/(n − K)
R2 = 1 −
Y0 M0 Y/(n − 1)
98
final de esta clase y el sesiones futuras. Por lo que respecta a las pruebas de
hipótesis estableceremos los siguiente.
Recordemos que nuestro modelo general de regresión está dado por la
siguiente expresión:
Y = Xβ + ε
Ahora consideremos un ejemplo, supongamos que desea plantear una re-
gresión del tipo logarı́tmica con el objeto de determinar la demanda de ta-
baco. Ası́, establece la siguiente relación:
H0 : β1 = 1 y β2 = 1
H1 : N o H0
La hipótesis nula es equivalente a escribir el siguiente sistema de ecuacio-
nes:
99
En forma reducida:
Rβ = q
Con lo cual la hipótesis original se puede escribir como:
H0 : Rβ = q
H1 : Rβ 6= q
Observemos que podemos afirmar que la hipótesis tiene dos restricciones.
Regresando a nuestro caso general:
Y = Xβ + ε
Por analogı́a podrı́amos escribir un conjunto de “J” restricciones como:
H0 : Rβ = q
H1 : N o H0
Dicho lol anterior, el restante argumento versa sobre cómo hacer uso de
estas restricciones conjuntas.
100
5.4.1. Prueba F
Cuando deseamos evaluar una hipótesis con más de una restricción se
debe ocupar la prueba F. La cual se puede escribir como:
5.4.2. Prueba t
Cuando deseamos evaluar una hipótesis con solo una restricción se debe
ocupar la prueba t. La cual se puede escribir como:
101
102
Capı́tulo 6
Bibliografı́a
Tsay, Ruey (2014). Multivariate Time Series Analysis with R and Fi-
nancial Applications. Wiley.
103