Oliva Vazquez B Seriesdetiempo

Análisis de Series de Tiempo
Benjamı́n Oliva (benjov@ciencias.unam.mx)

Semestre 2020-I, agosto 2019
1. Temario o guı́a para examen extraordina-

rio
1. Introducción al Análisis de Series de Tiempo
a) La naturaleza de los datos de series de tiempo

b) Ejemplos y aplicaciones de las series de tiempo
2. Elementos de Ecuaciones en Diferencia
a) Ecuaciones en diferencia homogéneas de primer órden y sus solu-

ciones
b) Operadores de rezago y sus representaciones
c) Representación de algunos procesos divergentes
3. Procesos Estacionarios Univariados
a) Procesos Autoregresivos AR(p)

b) Procesos de Medias Móviles M A(q)
c) Procesos ARM A(p, q) y ARIM A(p, d, q)
d ) Función de Autocorrelación, Función de Autocorrelación Parcial
y Pronósticos
4. Modelos univariados de volatilidad
a) Modelos ARCH y GARCH
1
b) Otros ejemplos de modelos de volatilidad
5. Procesos No Estacionarios
a) Definición y Formas de No Estacionariedad

b) Eliminación de la Tendencia
c) Pruebas de Raı́z Unitaria: Dickey-Fuller, Dickey-Fuller Aumenta-
da, Phillips-Perron y de Cambio Estructural
d ) Descomposición de Series de Tiempo (Filtros)
6. Procesos de Vectores Autoregresivos
a) Definición y caracterización del concepto de causalidad

b) Prueba de Causalidad
c) Definición y representación del Sistema
d ) Causalidad de Granger
e) Analı́sis de Impulso-Respuesta
f ) Modelos V AR(1), V AR(2) y V AR(p)
g) Representación de Medias Móviles
7. Cointegración
a) Definición y Propiedades del Proceso de Cointegración

b) Cointegración de Modelos de una Ecuación
c) Cointegración de Modelos de Vectores Autoregresivos
d ) Cointegración y la Teorı́a Económica
1
8. Modelos multivariados de volatilidad: M − ARCH y M − GARCH
9. Otros modelos no lineales (con rompimientos y modelos de cambio de

regimen) 2
1
Tema sujeto al avance del curso y del interés de los alumnos.
2
Tema sujeto al avance del curso y del interés de los alumnos.
2
2. Bibliografı́a
Cowpertwait, P. y Metcalfe, A. (2009). Introductory Time Series with
R. Spinger.
Guerrero Guzmán, Victor (2014). Análisis Estadı́stico y Pronóstico de

Series de Tiempo Económicas. Jit Press. 3ra Edición. (Las ediciones 1 2
del libro fueron publicadas con el tı́tulo: Análisis Estadı́stico de Series
de Tiempo Económicas). Cap: 2.
Enders, Walter (2015). Applied Econometric Time Series. 4ta Edición.

Wiley.
Wei, William (2019). Multivariate Time Series Analysis and Applica-

tions. Wiley Series in Probability ans Statistics.
3. Estructura del Examen y Evaluación

La evaluación del examen será medianteun examen escrito en formato
presencial. En el examen se indicará la ponderación de cada pregunta.
Los alumnos que se incriban al examen simepre podrna consultar dudas
por correo o de forma presencial los martes y jueves a las 7.30 PM en la sala
firmas.
3
Notas de Clase: Series de Tiempo
Benjamı́n Oliva (benjov@ciencias.unam.mx)

Omar Alfaro (omarxalpha@gmail.com)
Draft Agosto 2018

2
Índice general
1. Introducción 5
2. Introducción al análisis de series de tiempo 7

2.1. La naturaleza de los datos de series de tiempo . . . . . . . . . 7
2.2. Ejemplos y aplicaciones de las series de tiempo . . . . . . . . . 8
3. Elementos de Ecuaciones en Diferencia 15

3.1. Ecuaciones en Diferencia para procesos deterministas . . . . . 15
3.1.1. Ecuaciones Lineales de Primer Orden . . . . . . . . . . 16
3.1.2. Ecuaciones Lineales de Segundo Orden y de orden su-
perior . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Operador de rezago L . . . . . . . . . . . . . . . . . . . . . . . 33
4. Modelos de Series de Tiempo Estacionarias 37

4.1. Definición de ergodicidad y estacionariedad, y la función de
autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2. Procesos estacionarios univariados . . . . . . . . . . . . . . . . 50
4.2.1. Procesos Autoregresivos . . . . . . . . . . . . . . . . . 50
4.3. Causalidad de Granger . . . . . . . . . . . . . . . . . . . . . . 72
4.4. Procesos de Vectores Autoregresivos . . . . . . . . . . . . . . . 77
4.5. Procesos No Estacionarios: Pruebas de Raı́ces Unitarias . . . . 84
4.5.1. ADF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5. Anexo 85
5.1. El estimador de Mı́nimos Cuadrados Ordinarios y el análisis
clásico de regresión . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2. Estimación por el método de Máxima Verosimilitud (MV) . . 93
5.3. Métricas de bondad de ajuste . . . . . . . . . . . . . . . . . . 96
3
5.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 98
5.4.1. Prueba F . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.2. Prueba t . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6. Bibliografı́a 103
4
Capı́tulo 1
Introducción
Estas notas son un resumen, una sı́ntesis comparativa y, en algunos casos,

una interpretación propia de los libros de texto de Cowpertwait y Metcalfe
(2009); Enders (2015); Guerrero-Guzmán (2014); Kirchgassner, Wolters y
Hassler (2012); Tsay (2014), y Wei (2019). En algunos casos se incorporá
información adicional para efectos de dar contexto al tema analizado.
El objetivo de este documento es proporcionar un conjunto de apuntes
que sirva de apoyo para la clase, por ello no deben considerarse como notas
exhaustivas o como un sustituto de la clase y las seciones de laboratorio.
Asimismo, es deseable que los alumnos puedan aportar sus observaciones
y correcciones a estas notas–observaciones que siempre seran bienvenidas y
agradecidas.
En estas notas se estudian los temas que tı́picamente son incluidos como
parte del análisis de series de tiempo, los cuales son:
1. Modelos univaraidos: AR(p), MA(q), ARMA(p, q) y ARIMA(p, d, q);
2. Pruebas de raı́z unitaria;
3. Modelos multivariados: Vectores Autoregresivos (VAR) y Cointegra-

ción;
4. Modelación de errores estándar con heterocedasticidad y autocorrela-

ción: ARCH(r), GARCH(n), y
5
6
Capı́tulo 2
Introducción al análisis de
series de tiempo
2.1. La naturaleza de los datos de series de

tiempo
El análisis de series de tiempo tiene muchas aplicaciones en diversos cam-
pos de la ciencia. Por ejemplo, en la economı́a continuamente se está expuesto
a observaciones de los mercados financieros, indicadores de empleo, ı́ndices o
indicadores del nivel de producción, ı́ndices de precios, etc. En otros campos
de las ciencias sociales se emplea el análisis de series de tiempo para analizar
la evolución de la población, los nacimientos, o el número de personas con
matriculas escolares. Finalmente, en las ciencias exactas se pueden encontrar
casos como los de un epidemiólogo que puede estar interesado en el número
de casos de influenza observados en algún perı́odo de tiempo dado y si a éstos
se les puede asociar con algún tipo de estacionalidad.
La primera aproximación que se suele tener a las series de tiempo es
mediante el exámen de datos puestos en una gráfica, en la cual uno de los
ejes es el tiempo. No obstante, en este tipo de exámenes existen dos enfoques.
Por un lado, existe el efoque de la importancia del tiempo, el cual consiete
en reconocer cómo lo que sucede hoy es afectado por lo que pasó ayer –
o, en general, en periodos pasados–, o cómo lo que pasa hoy afectará los
eventos futuros. Por otro lado, existe el enfoque del análisis frecuentista o de
frecuencia, mediante el cual se busca reconocer la importancia que tiene para
los investigadores los ciclos: estacionales, de crisis económicas, etc.
7
Figura 2.1: Indicador Global de la Actividad Económica (IGAE) Global y
para las Actividades Primarias (2008 = 100), ene-2002 - mayo-2018
2.2. Ejemplos y aplicaciones de las series de

tiempo
Un primer ejemplo que puede ilustrar la presencia de los dos tipos de
enfoques antes mencionadas es la Figura 2.1.1 En ésta figura se muestra la
evolución del Indicador Global de la Actividad Económica (IGAE) en su
versión global o del total de la economı́a y en su versión únicamente para las
actividades primarias entre enero de 2002 y mayo de 2018.
Como se puede observar, el IGAE del total de la economı́a muestra, prin-
cipalmente, que el enfoque del tiempo es más relevante. Es decir, que existe
cierta persistencia en el indicador, lo que significa que la economı́a crece en
razón del crecimiento reportado en periódos pasados. No obstante, lo que no
podemos reconocer es que los efentos futuros tienen un efecto en el desem-
peño de la economı́a hoy dı́a. Ası́, no es común observar cambios abruptos
del indicador.
1
Todas las Gráficas mostradas en este Capı́tulo se elaboraron con el código y datos
contenidos en la carpeta de Drive en la subcarpeta Laboratorio dentro de la carpeta
Capitulo 2.
8
Figura 2.2: Índice de Confianza del Consumidor (ICC): General y resultado
de ¿Cómo considera usted la situación económica del paı́s hoy en dı́a com-
parada con la de hace 12 meses? (enero 2003 = 100), ene-2002 - mayo-2018
Por el contrario, el IGAE de las actividades primarias muestra una pre-

sencia significativa de la importancia de la frecuencia. No pasa desapercibi-
do que existen muchos ciclos en la evolución del indicador. Algo que suena
común en las actividades primarias, cuya producción depende de eventos que
son ciclı́cos como el clima. Otro factor que puede influir en el indicador son
elementos de demanda, más que los de oferta. Por ejemplo, el consumo de
alimentos tı́picos de algunas temporadas del año.
Como segundo ejemplo, en la Figura 2.2 se ilustra la evolución reciente
del Índice de Confianza del Consumidor (ICC) en dos de sus versiones: el
primero refiere el ı́ndice global y el segundo considerando la confianza de los
consumidores cuando éstos consideran la situación actual en la economı́a en
relación el año anterior.
Debe destacarse que el ICC mide las expectativas de los consumidores en
razón de la información pasada y de la esperada, segun dichos consumidores.
Ası́, es probable que las dos series de tiempo exiban un gran peso para los
eventos pasados, pero a la vez, un componente –probablemente, menor– del
componente de frecuencia. Esto último, en razón de que los consumidores
suelen considerar en sus expectativas de consumo los periódos ciclı́cos de la
9
Figura 2.3: Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores
y Tipo de Cambio para Solventar Obligaciones en Moneda Extranjera (Pesos
X Dólar), ene-2002 - mayo-2018
economı́a: temporadas navideñas, pagos de colegiaturas, etc. Este sengundo

ejemplo, tambien ilustra qué la confianza del consumidor no necesariamente
esta directamente correlacionada con el desempeño de la economı́a.
Como tercer ejemplo se muestra la evolución de dos series. La Figura 2.3
ilustra el comportamiento reciente de dos indicadores que son referencia para
los inversionistas. Por un lado, se ubica el Índice de Precios y Cotizaciones
de la BMV (IPC), el cuál refleja el valor de las acciones de empresas que
cotizan en la BMV y el vólumen de acciones comercializadas, en conjunto.
De esta forma, se ha interpretado que el IPC refleja el rendimiento del capital
promedio invertido en las empresas que cotizan en la BMV.
Por otro lado, en la Figura 2.3 se presenta la evolución del Tipo de Cambio
(TDC); indicador financiero que se suele utilizar como medio de reserva de
valor. Esto, en razón de que el TDC es conocido como un instrumento que en
momentos de crisis toma valores contraciclicos de la economı̀a mexicana. No
obstante, ambos indicadores no son comparables. Para hacerlos comparbles
en la Figura 2.4 se presentan en versión ı́ndice con una base en el primer mes
de la muestra.
En la perspectiva de la Figura 2.4 se puede apreciar que el TDC no es tan
10
Figura 2.4: Índice del Índice de Precios y Cotizaciones de la Bolsa Mexica-
na de Valores e Índice del Tipo de Cambio para Solventar Obligaciones en
Moneda Extranjera (ambos, enero de 2002 = 100), ene-2002 - mayo-2018
rentable, ya que una inversión en la BMV mediante el IPC, en el largo plazo,

muestra más redimientos. Asimismo, la Figura 2.4 ilustra que en ambas series
se observa un dominio de la condición de tiempo y no uno de frecuencia. Es
decir, tanto el IPC como el TDC no responden a condiciones como ciclos
o temporadas que si son observables en actividades económicas como las
primarias.
Finalmente, la Figura 2.5 ilustra un caracterı́stica que también resulta de
gran interés en el analı́sis de series de tiempo: los datos de alta frecuencia y
de comportamiento no regular. Como se puede observar, en al Figura 2.5 se
muestran las diferencias logarı́tmicas de las series de IGAE de la actividad
total, el IPC y el TDC.
Dichas diferencia se pueden interpretar como una tasa de crecimiento
de las series por las siguientes razones. Consideremos una serie de tiempo
dada por yt , cuya versión logarı́tmica es ln(yt ). De esta forma, la diferencia
logarı́tmica esta dada por la ecuación (2.1):

yt
∆ln(yt ) = ln(yt ) − ln(yt−1 ) = ln (2.1)
yt−1
11
Figura 2.5: Tasas de crecimiento mensuales (diferencias logarı́tmicas) de: In-
dicador Global de la Actividad Económica; Índice de Precios y Cotizaciones
de la Bolsa Mexicana de Valores y Tipo de Cambio para Solventar Obliga-
ciones en Moneda Extranjera, feb-2002 - mayo-2018
12
Ahora bien, si retomamos la definición de tasa de crecimiento (TC) de
una serie de tiempo yt entre el periodo t y t − 1 podemos obtener que:
yt − yt−1 yt
TC = = −1 (2.2)
yt−1 yt−1
De esta forma, si tomamos el logarı́tmo de la expresión de la ecuación
(2.2) obtenemos la siguiente aproximación:

yt yt
− 1 ≈ ln = ln(yt ) − ln(yt−1 ) (2.3)
yt−1 yt−1
La ecuación (2.3) es cierta cuando los valores de yt y yt−1 son muy pa-
recidos, es decir, cuando las variaciones no son tan abruptas. Otra forma
de interpretar la ecuación (2.3) es que para tasas de crecimiento pequeñas,
se puede utilizar como una buena aproximación a la diferencia logarı́tmica
mostrada en la ecuación (2.1).
En la Figuara (2.5) se reportan las diferencias logarı́tmicas del IGAE,
IPC y TDC, todos, como una media de distitntos tipos de redimientos. Es
decir, podemos decir que un capitalista promedio (suponiendo que solo puede
invertir en la actividad económica, en la bolsa o en el dólar), puede observar
que le es más redituable en función de sus preferencias.
Notése que la dinámica de las variaciones de cada una de las series es
significativamente diferente. Destaca que el TDC es una de las variables que,
en general, no muestra grandes cambios a lo largo del tiempo. No obstante, se
han observado cambios radicales, cuando menos en el año 2008. Lo anterior,
son caracteristicas que se han observado para el IPC. En cambio, el IGAE
muestra un comportamiento más estable o estacionario.
13
14
Capı́tulo 3
Elementos de Ecuaciones en
Diferencia
3.1. Ecuaciones en Diferencia para procesos

deterministas
En el capı́tulo previo se hizó una introducción al concepto de series de
tiempo. En este Capı́tulo se pretende desarrollar la construcción de los proce-
sos generadores de datos de las series de tiempo. En un sentido más formal, se
expondrá que las series de tiempo se pueden considerar como una secuencia
de variables aleatorias.
Para tales efectos, se desarrollará una introducción al concepto de ecua-
ciones en diferencia. Ası́, las preguntas que se pretende responder son:
1. ¿Cuál es la solución de la ecuación en diferencia que se estudia?
2. ¿Cuáles son las condiciones para que un proceso estocástico, represen-

tado mediante una ecuación en diferencia, llegue a alcanzar un punto
de equilibrio en el largo plazo?
El término de ecuación en diferencia sirve para denominar un proceso

similar o equivalente dentro de las ecuaciones diferenciales, dentro del cual
se consideran a un conjunto de variables que están en función del tiempo.
Ası́, si consideramos al tiempo como una variable continua, es decir, consi-
deramos una variable Z(t), podemos expresar las siguientes expresiones para
15
la ecuación diferencial:
dZ(t) d2 Z(t) dk Z(t)
; ; . . . ; (3.1)
dt dt2 dtk
Por otro lado, suponiendo el caso del tiempo en forma discreta, es de-
cir, con t = . . . , −2, −1, 0, 1, 2, . . ., entonces el comprtamiento de la serie de
variables dadas por Zt , la cual se puede expresar como:
∆Zt ; ∆2 Zt ; . . . ; ∆k Zt (3.2)
Observemos que una forma técnicamente más correcta es escribir las ex-
presiones anteriores como:
∆Zt ∆2 Zt ∆k Zt
; ; . . . ; (3.3)
∆t ∆t2 ∆tk
No obstante, no pasa desapercibido que ∆t = 1, por lo que resultan
equivalentes ambos conjuntos de expresiones (3.2) y (3.3).
3.1.1. Ecuaciones Lineales de Primer Orden

El primer caso que se suele estudiar en relación a Ecuaciones en Diferencia
es el de las Ecuaciones Lineales en Diferencia de Primer Orden. Al respecto,
al igual que en el caso continúo, las variaciones de la variable Zt se pueden
expresar como se ilustra en el siguiente ejemplo. Consideremos la siguiente
ecuación:
Zt = a0 + a1 Zt−1 (3.4)
Donde, t = . . . , −2, −1, 0, 1, 2, . . ., y a0 y a1 6= 0 son números reales
constantes. De (3.4) podememos despejar la variable Zt−1 y obtener una
forma de ecuación en diferencia:
Zt − a1 Zt−1 = a0 (3.5)
Ahora denotemos a LZt = Zt−1 , es decir, mediante el operador L se puede

rezagar una variable dada. En general, podemos decir que el operador tiene
dos propiedades, la primera es que es lineal en el sentido de que abre sumas
y saca escalares como se muestra en la siguiente expresión para el caso de un
(1) rezago:
L(αZt + β) = αZt−1 + β (3.6)
16
Donde α, β ∈ R y α, β 6= 0. Otro reesultado implı́cito en este primer
propiedad es que el operador rezago aplicado a cualquier escalar dará como
resultado el escalar, puesto que este es una constante sin importa el momento
t en el cual se encuentre la variable.
La segunda propiedad del operador es que se puede aplicar de forma
consecutiva a una misma variable. Es decir, L(Zt−1 ) = LLZt = L2 Zt , por
lo que en general tendremos: Lp Zt = Zt−p (con p ∈ Z). Ası́, en el caso de p
rezagos la propiedad de linealidad del operador rezago será:
Lp (αZt + β) = αZt−p + β (3.7)
Dicho lo anterio podemos escribir la solución general de (3.5) como:
Zt − a1 LZt = a0
(1 − a1 L)Zt = a0
1
Zt = a0 + sat1
1 − a1 L
1
Zt = a0 + sat1 (3.8)
1 − a1
Donde a1 6= 1 y t = . . . , −2, −1, 0, 1, 2, . . .. Notése que la aplicación del
operador rezago L a la constante a1 dará como resultado el valor de la misma
constante, ya que ésta no depende del momento t en el cuál observemos a
la variable Zt . En la ecuación (3.8) se adiciona un término sat1 que permite
ubicar la trayectoria inicial de la solución de la ecuación. El componente no
significa un cambio respecto de la ecuación (3.5) original, ya que si buscara-
mos reconstruir a ésta ecuación tendrı́amos:
(1 − a1 L)sat1 = sat1 − a1 sLat1

= sat1 − a1 sat−1
1
= sat1 − sat1
= 0
La ecuación (3.8) se suele interpretar como la solución de largo plazo.

Ahora demotraremos por qué es cierta la ecuación y discutiremos algunas
condiciones que se deben observar en esta solución para que sea una solución
convergente. No obstante, primero discutiremos un método indirecto e incom-
pleto para demostrar el resultado, dicho método es conocido como el método
17
conocido como el método iterativo. Plantearemos las siguientes ecuaciones
partı́culares donde suponemos la existencia del valor inicial Z0 del proceso:
Z1 = a0 + a1 Z0
Z2 = a0 + a1 Z1
= a0 + a1 (a0 + a1 Z0 )
= a0 + a0 a1 + a21 Z0
= a0 (1 + a1 ) + a21 Z0
Z3 = a0 + a1 Z 2
= a0 + a1 (a0 + a0 a1 + a21 Z0 )
= a0 + a0 a1 + a0 a21 + a31 Z0
= a0 (1 + a1 + a21 ) + a31 Z0
De lo anterior se puede inferir que el método iterativo convergerá hacia

una expresión como la siguiente en el momento t:
Zt = a0 + a1 Zt−1
= a0 (1 + a1 + a21 + . . . + at−1 t
1 ) + a1 Z0
Xt−1
= a0 ai1 + at1 Z0 (3.9)
i=0
Donde, es necesario que en la ecuación (3.9) se cumpla que |a1 | < 1 para
que la suma sea convergente –más adelante detallaremos esta afirmación–. A
este tipo de ecuaciones se les puede denominar como lineales. Esto en razón
de que ningún término de la varaible Z aparce elevado a ninguna potencia
distinta a 1. También, son de primer órden, ya que el rezago de la variable
Z es sólo de un periódo.
En adelante trabajaremos con ecuaciones en las que la variable Z se en-
cuentra rezagada en cualquiera de los siguientes casos:
Zt , Zt−1 , Zt−2 , Zt−3 , . . . , Zt−p , . . . (3.10)
18
Por lo que diremos que en adelante el curso versará sobre ecuaciones en
diferencia lineales y de cualquier órden p.
Retomando la ecuación (3.9) y considerando la parte de la suma de los
términos de ai1 , de tal forma que buscaremos dar una expresión más compre-
sible a dicho término. Definamos la siguiente expresión como:
t−1
X
St−1 = ai1 (3.11)
i=0
Por lo tanto, St estarı́a dado por la siguiente expresión:

t−1
X
St = a1 ai1
i=0
= a1 (1 + a1 + a21 + . . . + at−1
1 )
2 3 t
= a1 + a1 + a1 + . . . + a1
= a1 St−1 (3.12)
Tomando los dos resultados de las ecuaciones (3.11) y (3.12) anteriores,

podemos expresar que si a St−1 le restamos St , y desarrollando ambos lados
de la ecuación anterior podemos obtener:
St−1 − a1 St−1 = St−1 − St

(1 − a1 )St−1 = (1 + a1 + a21 + . . . + at−1 2 3 t
1 ) − (a1 + a1 + a1 + . . . + a1 )
(1 − a1 )St−1 = 1 − at1
Ası́, podemos concluir que:
1 − at1
St−1 = (3.13)
1 − a1
Conjuntando éste último resultado de la ecuación (3.13) con la ecuación
(3.9) tenemos la siguiente solución por el método de iteración:
1 − at1

Zt = a0 + at1 Z0 (3.14)
1 − a1
De esta forma la ecuación (3.14) es una solición para la ecuación (3.9),

que es una ecuación de un proceso de una Ecuación en Diferencia plantenado
19
en la ecuación (3.4). Está solución aún no es general, en el sentido de que
sea válida para cualquiel tipo de proceso: convergente o divergente. Dicha
convergencia o divengencia estará determinada por el paramétro a1 . No debe
pasar desapercibido que cuando t → ∞ o cuando la muestra es muy grande
(lo que es equivalente), podemos decir que la solución solo puede converger
a la siguiente expresión cuando se considera que |a1 | < 1:

1
Zt = a0 (3.15)
1 − a1
Retomemos ahora el caso general descrito en la ecuación (3.8) y deter-

minemos una solución general en la cual a1 6= 1 y t = . . . , −2, −1, 0, 1, 2, . . ..
Para ello observemos que el siguiente componente en la ecuación mencionada
se puede interpretar como la suma infinita de términos descritos como:
1
= 1 + a1 + a21 + . . . + at1 + . . .
1 − a1
X∞
= ai1 (3.16)
i=0
Donde claramente es necesario que |a1 | < 1. Por lo tanto, sólo faltarı́a
determinar el valor de la constante s en la ecuación (3.8) de la siguiente
forma, supongamos que observamos el proceso en el momento inicial, por lo
que es posible determinar el valor de la constante conociendo el valor inicial
del proceso como sigue:
1
Z 0 = a0 +s (3.17)
1 − a1
De la ecuación (3.17) tenemos que:
1
s = Z0 − a0 (3.18)
1 − a1
Ası́, juntando la ecuación (3.8) y ecuación (3.18) tenemos la expresión:
1 − at1
Z t = a0 + at1 Z0 (3.19)
1 − a1
No debe pasar desapercibido que está solución es la misma que la mos-
trada en la ecuación (3.14), por lo que en realidad ambas ecuaciones son una
solución general indistintamente entre las ecuaciones (3.14) y (3.19). Ambas
20
convergen a la expresión como la ecuación (3.15), con la misma condición de
convergencia |a1 | < 1. Para ilustrar estas ecuaciones veámos algunos ejemplos
al respecto.
Consideremos que tenemos un proceso Zt que es descrito por una ecuación
en diferencia lineal de primer órden dada por:
Zt = 2 + 0,9Zt−1 (3.20)
Siguiendo la expresión mostrada en la ecuación (3.19), obtenemos la ex-

presión:
1 − 0,9t

Zt = 2 + 0,9t Z0 (3.21)
1 − 0,9
Donde asumiremos que el valor inicial es Z0 = 10 y que la expresión debe
converger al valor de 20, cuando t es muy grande o tiende a infinito. De forma
similar tomemos otro ejemplo, en el cual asumimos la siguiente expresión:
Zt = 2 − 0,5Zt−1 (3.22)
Siguiendo la expresión mostrada en la ecuación (3.19), obtenemos:
1 − (−0,5)t

Zt = 2 + (−0,5)t Z0 (3.23)
1 + 0,5
Donde asumiremos que el valor inicial es Z0 = 10 y que la ecuación

converge al valor de 1,3333333 . . ., cuando t es muy grande o tiende a infinito.
Ahora simulemos el comportamiento de ambos procesos y estableceremos los
resultados del Cuadro 3.1. Notemos que el segundo proceso converge de una
forma más rapida que el primero. El Cuadro 3.1 se ilustra en las siguientes
dos gráficas (3.1 y 3.2).
3.1.2. Ecuaciones Lineales de Segundo Orden y de or-

den superior
Como un segundo caso a estudiar se ubica el caso de las Ecuaciones
Lineales en Diferencia de Segundo Orden y de orden superior. Primero, sea
una ecuación como la siguiente, la cual es lineal y de segundo orden, ya que
tiene asociado un término de Zt rezagado dos periódos:
Zt = a0 + a1 Zt−1 + a2 Zt−2 (3.24)
21
Tiempo Zt = 2 + 0,9Zt−1 Zt = 2 − 0,5Zt−1
0 10.00000 10.000000
1 11.00000 -3.000000
2 11.90000 -1.500000
3 12.71000 0.250000
4 13.43900 0.625000
5 14.09510 1.062500
6 14.68559 1.156250
7 15.21703 1.265625
8 15.69533 1.289062
9 16.12580 1.316406
10 16.51322 1.322266
11 16.86189 1.329102
12 17.17570 1.330566
13 17.45813 1.332275
14 17.71232 1.332642
15 17.94109 1.333069
16 18.14698 1.333160
.. .. ..
. . .
97 19.99964 1.333333
98 19.99967 1.333333
99 19.99970 1.333333
100 19.99973 1.333333
Cuadro 3.1: Dos ejemplos de procesos de Ecuaciones Lineales de Primer Or-

den convengentes
22
Figura 3.1: Evolución del proceso dado por Zt = 2 + 0,9Zt−1
Figura 3.2: Evolución del proceso dado por Zt = 2 − 0,5Zt−1
23
Donde, t = . . . , −2, −1, 0, 1, 2, . . . y a1 , a2 6= 0. Reordenando la ecuación
(3.24) podemos escribir:
Zt − a1 Zt−1 − a2 Zt−2 = a0
Zt − a1 LZt − a2 L2 Zt = a0
(1 − a1 L − a2 L2 )Zt = a0 (3.25)
Ası́, la solución general propuesta para la ecuación (3.25) es la siguiente,

la cual es una forma analóga a una Ecuación Lineal en Diferencia de Primer
Orden:
a0
Zt = + s1 g1t + s2 g2t (3.26)
1 − a1 − a2
En donde s1 y s2 son constantes que se determinan mediante dos con-
diciones iniciales –por lo que requerimos de dos condiciones iniciales–. Los
valores de g1 y g2 están relacionados con los coeficientes a1 y a2 , de esta
forma:
a1 = g1 + g2 (3.27)
a2 = −g1 g2 (3.28)
Lo anterior surge del siguiente procedimiento, retomando que siempre es

posible descomponer una ecuación cuadrática en dos expresiones como:
(1 − a1 L − a2 L2 ) = (1 − g1 L)(1 − g2 L)
= 1 − g1 L − g2 L + g1 g2 L2
= 1 − (g1 + g2 )L + g1 g2 L2 (3.29)
Donde se observa la equivalencia mostrada en las ecuaciones (3.28) y

(3.28). Ası́, considerando la ecuación (3.26) tenemos que:
(1 − a1 L − a2 L2 )Zt = (1 − g1 L)(1 − g2 L)Zt

= a0 + (1 − g1 L)(1 − g2 L)s1 g1t
+(1 − g1 L)(1 − g2 L)s2 g2t (3.30)
Por lo tanto, buscamos que para que el proceso sea equivalente y podamos
interpretar que la ecuación (3.26) sea una solución general deberá pasar lo
siguiente:
(1 − g1 L)(1 − g2 L)s1 g1t + (1 − g1 L)(1 − g2 L)s2 g2t = 0 (3.31)
24
O escrito de otra forma:
(1 − g1 L)s1 g1t = (1 − g2 L)s2 g2t = 0 (3.32)
Ahora determinemos cuáles son los valores g1 y g2 para los valores a1
y a2 que nos permitan determinar si el proceso será convergente. Para ello
debemos resolver la siguiente ecuación:
(1 − g1 x)(1 − g2 x) = 0 (3.33)
Donde, claramente existen dos raı́ces: x1 = g1−1 y x2 = g2−1 . Ası́, la solución
estará dada por las raı́ces de la ecuación caracterı́stica:
1 − a1 x − a2 x 2 = 0
a2 x 2 + a1 x − 1 = 0 (3.34)
Cuya solución es: p
−a1 ± a21 + 4a2
x= (3.35)
2a2
Es importante distinguir tres casos diferentes en relación con las raı́ces
que surgen como solución de la ecuación (3.34), estos son:
Caso I. Si a21 + 4a2 > 0, la ecuación (3.34) proporcionará dos valores de
raı́ces reales y distintos, eso es x1 = g1−1 6= x2 = g2−1 . Si por ahora suponemos
que |g1 | < 1 y que |g2 | < 1, entonces tendremos que:
∞
! ∞ !
X X
(1 − g1 L)−1 (1 − g2 L)−1 a0 = g1j Lj g2j Lj a0
j=0 j=0
∞
! ∞
!
X X
= g1j g2j a0
j=0 j=0
a0
=
(1 − g1 )(1 − g2 )
a0
= (3.36)
1 − a1 − a2
Esto último es el punto de equilibrio de la ecuación (3.26); considerando
que |g1 | < 1 y que |g2 | < 1 –notemos que los demás casos son divergentes–.
De esta forma la solución de la ecuación estará dada por:
a0
lı́m Zt = (3.37)
t→∞ 1 − a1 − a2
25
Caso II. Si a21 + 4a2 < 0 en la ecuación (3.34), entonces las raı́ces seran
números complejos conjugados, es decir:
g1−1 = u + iv (3.38)
g2−1 = u − iv (3.39)
Dichas raı́ces las podemos escribir en coordenadas polares como:
g1−1 = reiθ = r(cos(θ) + isen(θ)) (3.40)

g2−1 = re−iθ = r(cos(θ) − isen(θ)) (3.41)
√
Donde: r = u2 + v 2 , a esta expresión también se le conoce como modulo.
√
Alternativamente, podemos escribir que r = g1 g2 . La única condición es
que r < 1 para que el proceso descrito en la ecuación (3.26) sea convergente.
Al igual que en el Caso I, el punto de equilibrio de la ecuación se deberı́a
ubicar al rededor (3.37), siempre que r < 1, por lo que el factor que determina
la convergencia es el modulo, ya que si el modulo es mayor a 1, el proceso
será divergente, pero si es menor a 1 convergerá a (3.37).
Caso III. Ahora revisemos el caso en el que a21 + 4a2 = 0, de esta forma
las raı́ces serán identicas:
−a1
g = g1−1 = g2−1 = (3.42)
2a2
Ası́, el punto de equilibrio será dado por la solución descrita como:
(1 − gL)2 Zt = a0
a0
Zt = + s1 g t + s2 tg t
(1 − gL)2
∞
X
= a0 (1 + i)g j + s1 g t + s2 tg t (3.43)
i=0
Donde al expresión amnterior es resultado de considerar el siguiente pro-

cedimiento, sea:
∞
1 X
f (g) = = gj
(1 − g) j=0
26
Por lo que si hacemos la primer derivada del la expresión anterior tenemos
que:
1
f 0 (g) =
(1 − g)2
X∞
= jg j−1
j=0
= 0 + g 0 + 2g 1 + 3g 2 + . . .
X∞
= (1 + j)g j
j=0
Ahora veámos un ejemplo de una Ecuación Lineal en Diferencia de Se-

gundo Orden. Supongamos la ecuación y el desarrollo siguientes:
Zt = 3 + 0,9Zt−1 − 0,2Zt−2
2
(1 − 0,9L + 0,2L )Zt = 3
La solución dada por una ecuación similar a la expresión (3.34), ob-

tendrı́amos la solución dada por las ecuaciones equivalentes a:
1 − 0,9x + 0,2x2 = 0
−0,2x2 + 0,9x − 1 = 0
De donde las raı́ces del polinomio caracterı́stico x1 = g1−1 y x2 = g2−1 se

obtienen de la expresión dada por:
p
−0,9 ± 0,81 + (4)(−0,2)
x =
(2)(−0,2)
0,9 ± 0,1
=
0,4
Dado que el componente a21 + 4a2 es positivo, obtendremos dos raı́ces

reales. Las raı́ces estarán dadas por x1 = 2,5 y x2 = 2,0, de lo cual podemos
determinar que g1 = 0,4 y g2 = 0,5. De esta forma tenemos que |g1 | < 1
y |g2 | < 1, ası́ la ecuación converge a la expresión dada por las siguientes
27
expresiones:
3
Zt = + s1 (0,4)t + s2 (0,5)t
1 − 0,9L + 0,2L2
3
= + s1 (0,4)t + s2 (0,5)t
1 − 0,9 + 0,2
3
= + s1 (0,4)t + s2 (0,5)t
(1 − 0,4)(1 − 0,5)
Al final, la ecuación que describe la solución general será:
zt = 10 + s1 (0,4)t + s2 (0,5)t (3.44)
Para determinar los valores de s1 y s2 necesitamos obtener dos valores
iniciales de la ecuación para lo cual iniciaremos como t = 0 y luego obtenemos
el valor de t = 1, consideremos el valor de Z0 = 0 y Z1 = 50:
Z0 = 10 + s1 (0,4)0 + s2 (0,5)0
0 = 10 + s1 + s2
Z1 = 10 + s1 (0,4)1 + s2 (0,5)1
50 = 10 + 0,4s1 + 0,5s2
Por lo que la solución es: s1 = −450 y s2 = 440, de donde podemos
expresar la ecuación como:
Zt = 10 − 450(0,4)t + 440(0,5)t (3.45)
La ecuación (3.45) anterior convergerá al valor de 10 cuando t → ∞. Para
ilustrar la trayectoria de esta ecuación tomemos un cuadro similar al de los
ejemplos anteriores. En el Cuadro 3.2 y la gráfica de la Figura 3.3 mostramos
los resultados de la trayectorua para 100 periodos.
Finalmente, discutiremos la solución para las Ecuaciones Lineales en Di-
ferencia de Orden p, donde p ≥ 2. En general una ecuación de este tipo se
puede escribir como:
Zt = a0 + a1 Zt−1 + a2 Zt−2 + . . . + ap Zt−p (3.46)
Donde t = . . . , −2, −1, 0, 1, 2, . . . y ap 6= 0. La ecuación (3.46) se puede
escribir como:
Zt − a1 Zt−1 − a2 Zt−2 − . . . − ap Zt−p = a0
Zt − a1 LZt − a2 L2 Zt − . . . − ap Lp Zt = a0
(1 − a1 L − a2 L2 − . . . − ap Lp )Zt = a0 (3.47)
28
Tiempo Zt = 10 − 450(0,4)t + 440(0,5)t
0 0.00000
1 50.00000
2 48.00000
3 36.20000
4 25.98000
5 19.14200
6 15.03180
7 12.70022
8 11.42384
9 10.74141
10 10.38250
11 10.19597
12 10.09987
13 10.05069
14 10.02565
15 10.01294
16 10.00652
.. ..
. .
98 10.00000
99 10.00000
100 10.00000
101 10.00000
Cuadro 3.2: Un ejemplo de proceso de Ecuación de Segundo Orden conven-

gente
29
Figura 3.3: Evolución del proceso dado por Zt = −0,2Zt−2 + 0,9Zt−1 + 3
Por el teorema fundamental del álgebra es posible escribir a la ecuación

(3.47) como:
(1 − g1 L)(1 − g1 L) . . . (1 − gp L)Zt = a0 (3.48)
Utilizando la ecuación (3.47) y la ecuación (3.48) tenemos que la solución
general de una ecuación como la descrita en (3.46) se puede escribir como:
a0
Zt = + s1 g1t + s2 g2t + . . . + sp gpt (3.49)
1 − a1 − a2 − . . . − ap
a0
Zt = + s1 g1t + s2 g2t + . . . + sp gpt (3.50)
(1 − g1 )(1 − g1 ) . . . (1 − gp )
Donde s1 , s2 , ..., sp son cosntantes que se determinan utilizando p valores
partı́culares de Zt , y la solución general descrita en las ecuaciones (3.50) y
(3.50) implica encontrar p raı́ces: x1 = g1−1 , x2 = g2−1 , ..., xp = gp−1 de los
siguientes polinomios equivalentes:
(1 − g1 )(1 − g1 ) . . . (1 − gp ) = 0 (3.51)
1 − a1 x − a2 x 2 − . . . − ap x p = 0 (3.52)
ap x p + . . . + a2 x 2 + a1 x − 1 = 0 (3.53)
Antes de plantear la solución general, analicemos una solución patı́cular
cuando un conjunto de las p raı́ces, digamos un total de m, son iguales, es
30
decir, cuando sucede que g1 = g2 = . . . = gm = g (con 1 < m ≤ p). En este
caso la solución general en la ecuación (3.50) se escribe como:
a0
Zt =
(1 − g)m (1
− gm+1 ) . . . (1 − gp )
+s1 g + s2 tg t + . . . + sm tm−1 g t + sm+1 gm+1
t t
+ . . . + sp gpt (3.54)
Definamos: ∞
1 X
f (g) = = gj (3.55)
1−g j=0
Si retomamos el método descrito parráfos arriba tenemos las siguientes

expresiones. Cuando m = 2:
∞ ∞
0 1 X
j−1
X
f (g) = 2
= jg = (1 + j)g j
(1 − g) j=0 j=0
En el otro extremo, cuando m = p:

∞
(p−1) p−1 X (p − 1 + j)(p − 2 + j) . . . (2 + j)(1 + j)
f (g) = = gj
(1 − g)p j=0
(p − 1)!
(3.56)
Ası́, en el extremo cuando m = p la solución general podrı́a estar dada
por:
∞
X (p − 1 + j)(p − 2 + j) . . . (2 + j)(1 + j)
Zt = a0 gj
j=0
(p − 1)!
p
X
t
+g si ti−1 (3.57)
i=0
Donde |g| < 1, t = . . . , −2, −1, 0, 1, 2, . . .. PAra finalizar esta sección,

plantearemos la expresión de polinomio caracterı́stico que nos permitirá hacer
el análisis de convergencia de los procesos. Ası́, la ecuación (3.53) se puede
escribir como:
(x−1 )p − a1 (x−1 )p−1 − a2 (x−1 )p−1 − . . . − ap = 0 (3.58)
La ecuación (3.58) permite interpretar las raı́ces del polinomio carac-

terı́stico de forma directa ya que x−1
1 = g1 , x−1
2 = g2 , ..., x−1
p = gp . Ası́,
31
√
Figura 3.4: Circulo unitario en el que se cumple que: |gi | < 1 y gi gj =
√
u2 + v 2 < 1
siempre que p ≥ 1 en la ecuación (3.46), diremos que el proceso descrito en

esa ecuación dará como resultado un proceso convergente si se cumplen las
dos condiciones (3.60) y (3.60):
|ap | < 1 (3.59)

a1 + a2 + . . . + ap < 1 (3.60)
Alternativamente, cuando las raı́ces son reales lo anterior es equivalente

a la expresión (3.61):
|gi | < 1 (3.61)
Para ∀i = 1, 2, . . . , p. Cuando la raı́ces son imaginarias, las dos condiciones

(3.60) y (3.60) son equivalentes a la expresión (3.62):
√ √
gi gj = u2 + v 2 < 1 (3.62)
Para ∀i 6= j y i, j = 1, 2, . . . , p. Cuando g1 = g2 = . . . = gp = g, la
condición de la ecuación (3.61) se resume a que |g| < 1. En resumen, las
condiciones descritas en las ecuaciones (3.61) y (3.62) se puden ilustrar con
un circulo unitario como el de la Figura 3.4 en que sı́ las raı́ces se ubican
dentro de éste, podemos decir que el proceso es convergente en el largo plazo.
32
3.2. Operador de rezago L
Denotemos, como se ha mencionado con anterioridad, con L al operador
de rezago, el cual nos permitirá construir una relación entre diferencias y
medias móviles como se verá más adelante en los procesos univariados AR(p),
M A(q) y, en general, ARIM A(p, d, q). Sean X, Y o Z variables con las que
denotaremos a una serie de tiempo (note que hasta el momento no hemos
definido qué es una serie de tiempo, no obstante no es necesario definirla para
hacer uso del operador).
En esta sección resumiremos algunas propiedades usadas en el capı́tulo
y en capı́tulos más adelante. Ası́, si a dicha serie le aplicamos el operador
rezago antes definido, el resultado deberá ser que cada uno de los valores de
la serie es retardado o regresado un perı́odo. Es decir:
LZt = Zt−1 (3.63)
De esta forma, si aplicamos el operador rezago L a la nueva serie de
tiempo dada por Zt−1 podemos obtener Zt−2 , haciendo uso de la ecuación
(3.63) podemos obtener:
LZt−1 = L(LZt ) = L2 Zt = Zt−2 (3.64)
Mediante una generalización podemos obtener:
Lk Zt = Zt−k (3.65)
Para k = . . . , −2, −1, 0, 1, 2, . . .. Ası́, para k = 0 obtenemos la identidad
dado que L0 Zt = Zt , de tal forma que siempre asumiremos que L0 = 1.
En otro caso, cuando k > 0 a la serie de tiempo a la cual se le aplique el
operador rezago L se le deberá aplicar un rezago de k periodos a cada uno de
los elementos de la serie. Por el contrario, cuando k < 0 el operador rezago
significa que se deberá adelantar |k| veces a cada elemento de la serie. Por
ejemplo, L−3 Zt = Zt+3 .
Las reglas descritas en lo subsecuente se mantienen indistintamene cuando
aplican para el caso de rezagar como para cuando se adelanta una serie. Como
primera propiedad tomemos a la siguiente propiedad:
Lm Zt−n = Lm (Ln Zt ) = Lm+n Zt = Zt−(n+m) (3.66)
De lo anterior podemos inferir el siguiente resultado:
∆Zt = Zt − Zt−1 = (1 − L)Zt (3.67)
33
En el caso de la diferencia de órden cuatro o cuarta diferencia se puede
expresar como:
∆4 Zt = Zt − Zt−4 = (1 − L4 )Zt (3.68)
Al respecto, vale la pena aclarar que en ocaciones se hará uso de una nota-
ción alternativa dada por: ∆k o ∆k , donde k = 1, 2, 3, . . ., indistintamente, ya
que en ambos casos se referirá a una diferencia de orden k. Esta notación re-
sulta de gran utilidad cuando se quiere comparar periodos equivalentes como,
por ejemplo, el mismo trimestre pero de un año anterior. De forma similar,
para el caso de logarı́tmos podemos escribir a la ecuación (3.68) como:
∆4 ln(Zt ) = ∆4 ln(Zt ) = ln(Zt ) − ln(Zt−4 ) = (1 − L4 )ln(Zt ) (3.69)
Para el caso de una serie de tiempo que se le ha transformado mediante

medias móviles, digamos de 4 periodos, podemos escribirla como:
1 1
Zst = (Zt + Zt−1 + Zt−2 + Zt−3 ) = (1 + L + L2 + L3 )Zt (3.70)
4 4
Una generalización del anterior caso puede ser escrito como un polinomio
de orden p con el operador rezago L dado como:
α(L)Zt = (1 − α1 L − α2 L2 − . . . − αp Lp )Zt
= Zt − α1 Zt−1 − α2 Zt−2 − . . . − αp Zt−p (3.71)
Donde αi puede ser remplazada por cualquier constante ai , con i =

1, 2, 3, . . ., para escribir ecuaciones como las anteriores. Adicionalmente, po-
demos decir que la ecuación (3.71) es una generalización del caso de medias
móviles, el cual admite una poderación distinta para cada uno de los elemen-
tos rezagados.
Existe la posibilidad de operar más de un polinomio a la vez. Para múlti-
ples polinomios (digamos, los polinomios α(L) y β(L)) podemos escribir el
siguiente resultado:
α(L)β(L) = β(L)α(L) (3.72)
Tales polinomios del operador rezago también son lladamos filtros lineales.
A manera de ejemplo tomemos el siguiente caso de diferencias para una serie
de Zt :
∆Zt = (1 − L)Zt = Zt − Zt−1 (3.73)
34
y un proceso de medias móviles para la misma serie de Zt :
1 1
Zst = (1 + L1 + L2 + L3 )Zt = (Zt + Zt−1 + Zt−2 + Zt−3 ) (3.74)
4 4
De tal forma que el producto de ambos procesos se puede escribir como:
1 1
(1 − L) × (1 + L1 + L2 + L3 )Zt = (1 − L4 )Zt (3.75)
4 4
Es decir, que el producto de dos polinomios, uno de diferencias y otro
más de medias móviles, resulta en uno de diferencias pero de mayor grado,
en este caso de grado 4.
35
36
Capı́tulo 4
Modelos de Series de Tiempo

Estacionarias
4.1. Definición de ergodicidad y estacionarie-

dad, y la función de autocorrelación
A partir de esta sección introduciremos mayor formalidad matemática al
análisis, por ello cambiaremos de notación y se ocupará a Xt en lugar de
Zt . Con Xt denotaremos a una serie de tiempo, ya que con Zt la utilizamos
para denotar a una variable, sin que ella fuera necesariamente una serie de
tiempo. Asimismo, iniciaremos por establecer una serie de definiciones. De
está forma, definiremos a una serie de tiempo como un vector de variables
aleatorias de dimensión T , dado como:
X1 , X2 , X3 , . . . , XT (4.1)
Todas consideradas por su correspondiente distribución multivariada, es

decri, cada una de las Xt (t = 1, 2, . . . , T ) es una variable aleatoria. También
podemos denotarla como:
{Xt }Tt=1 (4.2)
Es decir, definiremos a una serie de tiempo como una realización de un
proceso estocástico –o un Proceso Generador de Datos (PGD). Consideremos
una muestra de los múlples posibles resultados de muestras de tamaño T , la
colección dada por:
(1) (1) (1)
{X1 , X2 , . . . , XT } (4.3)
37
Colección que es una de las tantas posibles resultantes del proceso es-
tocástico o PGD. Eventualmente podrı́amos estar dispuestos a observar este
proceso indefinidamente, de forma tal que estemos interesados en observar
(1)
a la secuencia dada por {Xt }∞ t=1 , lo cual no dejarı́a se ser sólo una de las
tantas realizaciones o secuencias del proceso estocástico original. Tan solo
para poner un ejemplo, podrı́amos observar las siguientes realizaciones del
mismo PGD:
(2) (2) (2)
{X1 , X2 , . . . , XT }
(3) (3) (3)
{X1 , X2 , . . . , XT }
(4) (4) (4)
{X1 , X2 , . . . , XT }
..
.
(j) (j) (j)
{X1 , X2 , . . . , XT }
Donde j ∈ Z. En lo subsecuente, diremos que una serie de tiempo una rea-
lización del proceso estocástico subyacente. Considerando, en consecuencia,
al proceso estocástico con todas sus posibilidades de realización.
Para hacer más sencilla la notación no distinguiremos entre el proceso
en sı́ mismo y una de sus realizaciones, es decir, siempre escribiremos a una
serie de tiempo como la secuencia (4.2), o más precisamente como la siguiente
realización:
{X1 , X2 , . . . , XT } (4.4)
O simplemente:
X1 , X2 , . . . , XT (4.5)
El proceso estocástico de dimensión T puede ser completamente descrito
por su función de distribución multivaraida de dimensión T . No obstante, esto
no resulta ser práctico cuando se opere más adelante en el curso. Por ello, en
el curso, y en general casi todos los textos lo hacen, sólo nos enfocaremos en
sus primer y segundo momentos, es decir, en sus medias o valores esperados:
E[Xt ]
Para t = 1, 2, . . . , T ; o:  
E[X1 ]

 E[X2 ] 

 .. 
 . 
E[XT ]
38
o,
E[X1 ], E[X2 ], . . . , E[XT ]
De sus variazas:
V ar[Xt ] = E[(Xt − E[Xt ])2 ]
Para t = 1, 2, . . . , T , y de sus T (T − 1)/2 covarianzas:
Cov[Xt , Xs ] = E[(Xt − E[Xt ])(Xs − E[Xs ])]
Para t < s. Por lo tanto, en la forma matricial podemos escribir lo si-
guiente:
 
V ar[X1 ] Cov[X1 , X2 ] · · · Cov[X1 , XT ]
 Cov[X2 , X1 ]
 V ar[X2 ] · · · Cov[X2 , XT ] 

 .. .. . . .. 
 . . . . 
Cov[XT , X1 ] Cov[XT , X2 ] · · · V ar[XT ]
 
σ12 ρ12 · · · ρ1T
 ρ21 σ 2 · · · ρ2T 
2
=  .. (4.6)
 
.. . . .. 
 . . . . 
ρT 1 ρT 2 · · · σT2
Donde es claro que en la matriz (4.6) existen T (T − 1)/2 covarianzas
distintas, ya que se cumple que Cov[Xt , Xs ] = Cov[Xs , Xt ], para t 6= s.
A menudo, esas covarianzas son denominadas como autocovarianzas pues-
to que ellas son covarianzas entre variables aleatorias pertenecientes al mismo
proceso estocástico pero en un momento t diferente. Si el proceso estocástico
tiene una distribución normal multivariada, su función de distribución estará
totalmente descrita por sus momentos de primer y segundo orden.
Ahora introduciremos el concepto de ergodicidad, el cual significa que los
momentos muestrales, los cuales son calculados en la base de una serie de
tiempo con un número finito de observaciones, en la medida que T → ∞
sus correspondientes momentos muestrales, tienden a los poblacionales, los
2
cuales definiremos como µ, para la media, y σX para la varianza.
Este concepto sólo es cierto si asumimos que, por ejemplo, el valor es-
perado y la varianza son como se dice a continuación que, para todo t =
1, 2, . . . , T , observaremos que:
E[Xt ] = µt = µ (4.7)
2
V ar[Xt ] = σX (4.8)
39
Mas formalmente, se dice que el PGD o el proceso estocástico es ergódico
en la media si:  !2 
T
1X
lı́m E  (Xt − µ)  = 0 (4.9)
T →∞ T t=1
y ergódico en la varianza si:

 !2 
T
1 X
lı́m E  (Xt − µ)2 − σX
2 =0 (4.10)
T →∞ T t=1
Estas condiciones se les conoce como propiedades de consistencia para las

variables aleatorias. Sin embargo, éstas no pueden ser probadas. Por ello se
les denomina como un supuesto que pueden cumplir algunas de las series.
Más importante aún: un proceso estocástico que tiende a estar en
equilibrio estadı́stico en un orden ergódico, es estacionario.
Podemos distinguir dos tipos de estacionariedad. Si asumimos que la fun-
ción común de distribución del proceso estocástico no cambia a lo largo del
tiempo, se dice que el proceso es estrictamente estacionario. Como este con-
cepto es dificil de aplicar en la práctica, solo consideraremos a la estaciona-
riedad débil o estacionariedad en segundos momentos.
Definiremos a la estacionariedad por sus momentos del correspondiente
proceso estocástico dado por {Xt }:
1. Estacionariedad en media: Un proceso estocástico es estacionario en
media si E[Xt ] = µt = µ es constante para todo t.
2. Estacionariedad en varianza: Un proceso estocástico es estacionario en
varianza si V ar[Xt ] = E[(Xt − µt )2 ] = σX
2
= γ(0) es constante y finita
para todo t.
3. Estacionariedad en covarianza: Un proceso estocástico es estacionario
en covarianza si Cov[Xt , Xs ] = E[(Xt − µt )(Xs − µs )] = γ(|s − t|) es sólo
una función del tiempo de distancia entre las dos variables aleatorias y
no depende del tiempo denotado por t (no depende de la información
contemporánea).
4. Estacionariedad débil : Como la estacionariedad en varianza resulta de
forma inmediata de la estacionariedad en covarianza cuando se asume
que s = t, un proceso estocástico es débilmente estacionario cuando es
estacionario en media y covarianza.
40
Puesto que resulta poco factible asumir una estacionariedad diferente a
la débil, es adelante siempre que digamos que un proceso es estacionario se
referirá al caso débil y sólo diremos que el proceso es estacionario, sin el
apelativo de débil.
Ahora veamos un ejemplo de lo anterior. Supongamos una serie de tiempo
denotada por: {Ut }Tt=0 . Decimos que el proceso estocástico {Ut } es un proceso
estocástico puramente aleatorio o es un proceso estocástico de ruido blanco o
caminata aleatoria, si éste tiene las siguientes propiedades:
1. E[Ut ] = 0, ∀t
2. V ar[Ut ] = E[(Ut − µt )2 ] = E[(Ut − µ)2 ] = E[(Ut )2 ] = σ 2 , ∀t
3. Cov[Ut , Us ] = E[(Ut −µt )(Us −µs )] = E[(Ut −µ)(Us −µ)] = E[Ut Us ] = 0,

∀t 6= s.
En palabras. Un proceso Ut es un ruido blanco si su valor promedio es

cero (0), tiene una varianza finita y constante, y además no le importa la
historia pasada, ası́ su valor presente no se ve influenciado por sus valores
pasados no importando respecto de que periodo se tome referencia.
En apariencia, por sus propiedades, este proceso es débilmente estaciona-
rio –o simplemente, estacionario–. Todas las variables aleatorias tienen una
media de cero, una varianza σ 2 y no existe correlación entre ellas.
Ahora supongamos que definimos un nuevo proceso estocástico {Xt } co-
mo:
U0 para t = 0
Xt = (4.11)
Xt−1 + Ut para t = 1, 2, 3, . . .
Donde {Ut } es un proceso puramente aleatorio. Este proceso estocástico,
o caminata aleatoria sin tendencia (ajuste - drift), puede ser re-escrito como:
t
X
Xt = Uj (4.12)
j=0
Tratemos de dar más claridad al ejemplo, para ello asumamos que gene-
ramos a {Ut } por medio del lanzamiento de una moneda. Donde obtenemos
una cara con una probabilidad de 0,5, en cuyo caso decimos que la variable
aleatoria Ut tomará el valor de +1, y una cruz con una probabilidad de 0,5,
en cuyo caso decimos que la variable aleatoria Ut toma el valor de −1.
Este planteamiento cumple con las propiedas enunciadas ya que:
41
1. E[Ut ] = 0,5 × −1 + 0,5 × 1 = 0, ∀t
2. V ar[Ut ] = E[(Ut − 0)2 ] = 21 ((−1)2 + (1)2 ) = 1, ∀t
3. Cov[Ut , Us ] = E[(Ut − 0)(Us − 0)] = E[Ut ]E[Us ] = 0, ∀t 6= s.
Retomando a nuestro proceso Xt , diremos que el caso de X0 = 0, para

t = 0. Si verificamos cúales son sus primeros y segundos momentos de {Xt }
tenemos: " t #
X Xt
E[Xt ] = E Uj = E[Uj ] = 0 (4.13)
j=1 j=1
En cuanto a la varianza:
" t
#
X
V ar[Xt ] = V ar Uj
j=1
t
X X
= V ar[Uj ] + 2 ∗ Cov[Uj , Uk ]
j=1 j6=k
t
X
= σ2
j=1
= t (4.14)
Lo anterior, dado que hemos supuesto que en la caminata aleatoria todas

la variables aleatorias son independientes, es decir, Cov[Ut , Us ] = E[Ut Us ] =
0. Por su parte, la covarianza del proceso estocástico se puede ver como:
" t ! s
!#
X X
Cov[Xt , Xs ] = E Uj − 0 Ui − 0
j=1 i=1
= E[(U1 + U2 + . . . + Ut )(U1 + U2 + . . . + Us )]
Xt X s
= E[Uj Ui ]
j=1 i=1
= E[U22 ] + . . . + E[Uk2 ]
E[U12 ] +
= σ + σ + . . . + σ2
2 2
= min(t, s)
42
Figura 4.1: Ejemplo de 10 trayectorias de la caminata aleatoria, cuando sólo
es posible cambios de +1 y -1
Ası́, el proceso estocástico dado por la caminata alaeatoria sin un termino

de ajuste es estacionario en media, pero no en varianza o en covarianza, y
consecuentemente, en general no estacionario, condición que contraria al caso
del proceso simple descrito en Ut .
Es facil ver que muchas de las posibilidades de relización de este proceso
estocástico (series de tiempo) pueden tomar cualquiera de las rutas conside-
radas en el Figura 4.1.
Para ampliar la discusión, es posible calcular la fuerza o intensidad de la
dependencia de las vaiables aleatorias dentro de un proceso estocástico, ello
mediante el uso de las autocovarianzas. Cuando las covarianzas son normali-
zadas respecto de la varianza, el resultado es un término que es independiente
de las unidad de medida aplicada, y se conoce como la función de autocorre-
lación.
Para procesos estacionarios, dicha función de autocorrelación esta dada
por:
E[(Xt − µ)(Xt+τ − µ)] γ(τ )
ρ(τ ) = 2
= (4.15)
E[(Xt − µ) ] γ(0)
Donde τ = . . . , −2, −1, 0, 1, 2, . . .. Dicha función tiene las siguientes pro-
piedades:
43
1. ρ(0) = 1. Es fácil demostrar que la función ρ(0) es:
E[(Xt − µ)(Xt+0 − µ)] E[(Xt − µ)2 ]
ρ(0) = = =1
E[(Xt − µ)2 ] E[(Xt − µ)2 ]
2. ρ(τ ) = ρ(−τ ). Partiendo de la definción de ρ(τ ) podemos ver que la

distancia que existe entre t y t + τ es τ , de esta forma la autocorre-
lación de la variable X entre los periodos antes señalados deberı́a ser
la misma para el caso en que ρ(−τ ). Partamos de la ecuación para ver
más claramente:
E[(Xt − µ)(Xt+τ − µ)] E[(Xt − µ)(Xt−τ − µ)]
ρ(τ ) = 2
= = ρ(−τ )
E[(Xt − µ) ] E[(Xt − µ)2 ]
3. |ρ(τ )| ≤ 1, para todo τ .

Derivado de las propiedades 1 y 2 antes descritas se puede concluir que
sólo es necesario conocer la función de autocorrelación para el caso de τ =
1, 2, 3, . . ., ya que de estos casos podemos derivar los valores de la función de
autocorrelación complementarios de τ = . . . , −3, −2, −1.
Partiendo de los supuestos de ergodicidad en relación a la media, varianza
y covarianzas de un proceso estacionario, podemos estimar dichos paramétros
con las siguientes formulaciones o propuestas de estimadores puntuales:
T
1X
µ̂ = Xt (4.16)
T t=1
T
1X
γ̂(0) = (Xt − µ̂)2 = σ̂ 2 (4.17)
T t=1
T −τ
1X
γ̂(τ ) = (Xt − µ̂)(Xt+τ − µ̂), para τ = 1, 2, . . . , T − 1 (4.18)
T t=1
No hacemos la demostración en estas notas –serı́a deseable que el alumno

revisará la afimación– pero estos últimos son estimadores consistentes de µ,
γ(0) y γ(τ ). Por su parte, un estimador consistente de la función de autoco-
rrelación estará dado por:
PT −τ
(Xt − µ̂)(Xt+τ − µ̂) γ̂(τ )
ρ̂(τ ) = t=1 PT = , para τ = 1, 2, . . . , T − 1 (4.19)
t=1 (X t − µ̂)2 γ̂(0)
44
El estimado de la ecuación (4.19) es asintóticamente insesgado. Por ejem-
plo, para el caso de un proceso de ruido blanco o caminata aleatoria, su
varianza puede ser aproximada por el valor dado 1/T . Ésta tiene, asintótica-
mente, una distribución
√ normal. Dado esto, el intervalo de confianza al 95 %
será el dado por ±2/ T , en el cual se encuentra la mayorı́a de los coeficientes
de autocorrelación estimados.
Ahora discutamos algunos ejemplos o aplicaciones. Cuando se realiza la
evaluación de la estimación de un modelo de series de tiempo es importante
saber si los residuales del modelo realmente tienen propiedades de un proceso
puramente aleatorio, en partı́cular, si ellos no están correlacionados entre sı́.
Ası́, la hipotésis a probar será:
H0 : ρ(τ ) = 0, para todo τ = 1, 2, . . . , m y m < T (4.20)
Esta expresión se puede interpretar como una prueba respecto de si la

correlación entre la información de periodos atrás es cero con la informa-
ción contemporánea. Para hacer una pruena global de la hipotésis de sı́ un
número m de coeficientes de autocovarianzas son cero Box y Pierce (1970)
desarrollarón la siguiente estadı́stica:
m
X
∗
Q =T ρ̂(j)2 (4.21)
j=1
Bajo la hipotésis nula esta estadı́stica se distribulle asintóticamente como

una chi cuadrado (χ2 ) con m − k grados de libertad y con k que representa
al número de paramétros estimados.
Haciendo una aplicación estricta de la distribución de esta estadı́stica,
sabemos que esta se mantiene asintóticamente. Greta, Ljung y Box (1978)
propusieron la siguiente modificación de la estadı́stica para muestras pe-
queñas:
m
X ρ̂(j)2
Q = T (T + 2) (4.22)
j=1
T −j
La cual también se distribulle asintóticamente como χ2 con m − k grados

de libertad.
También es intuitivamente claro que la hipótesis nula de no autocorre-
lación de residuales deberı́a ser rechazada si alguno de los valores ρ̂(j) es
muy grande, es decir, si Q o Q∗ es muy grande. O más precisamente, si
45
estas estadı́sticas son más grandes que los correspondientes valores crı́ticos
de la distribución χ2 con m − k grados de libertad a algún grado dado de
signficancia.
Una alternativa para esta prueba es una del tipo Multiplicadores de La-
grange (o LM) desarrollada por Breusch (1978) y Godfrey (1978). La cual,
al igual que las estadı́sticas Q y Q∗ , la hipotesis nula está dada por:
H0 : Los resduales no están autocorrelacionados.
Ha : Los resuduales muestran alguna acutocorrelación de forma
autoregresiva o de medias móviles.
La prueba consiste en realizar una regresión auxiliar en la cual los resi-
duales se estiman en función de las variables explicativas del modelo original
y en los residuales mismos pero rezagados hasta el término m (regresión au-
xiliar). La prueba resulta en una estadı̀stica con una distribución χ2 con m
grados de libertad la cual está dada por la expresión:
LM = T × R2 (4.23)
Donde R2 es el resultante de la regresión auxiliar y T es el número de

observaciones totales.
En comparación con una prueba Durbin - Watson que es comúnmen-
te usada en la econometrı́a tradicional, para probar autocorrelación de los
residuales, las estadı́sticas Q, Q∗ y LM tienen las siguientes ventajas:
1. Permiten corroborar la existencia de autocorrelación para cualquier
orden, y no solo para un primer orden (es decir, para cualquier valor
de τ = 1, 2, 3, . . .);
2. Los resultados se mantienen aún y cuando exista una probable variable
endógena en forma rezagada, y
3. No depende del orden o la forma en que se acomoden las observaciones,
algo que es muy probalble que ocurra en la econometrı́a tradicional.
El hecho de los residuales no estén autocorrelacionados no implica que
estos sean independientes y normalmente distribuidos. La ausencia de au-
tocorrelación no implica una independencia estocástica si las variables son
normalmente distribuidas.
A menudo se asume que estos residuales están distribuidos normalmente,
ya que la mayorı́a de las pruebas estadı́sticas tienen este supuesto detrás.
46
No obstante, ello también depende de los otros momentos de la distribución,
especı́ficamente del tercer y cuarto momento. Los cuales expresan como:
E[(Xt − E[Xt ])i ], i = 3, 4
El tercer momento es necesario para determinar el sesgo, el cual esta dado

como:
1 Tt=1 (Xt − µ̂)3
P
Ŝ = p (4.24)
T γ̂(0)3
Para distribuciones simetricas (como en el caso de la distribución normal)
el valor teórico para el sesgo es cero.
La curtosis, la cual esta dada en función del cuarto momento, se puede
expresar como:
1 Tt=1 (Xt − µ̂)4
P
K̂ = (4.25)
T γ̂(0)2
Para el caso de una distribución normal, esta estadı́stica toma el valor de
3. Valores más grandes que 3 indican que la distribución tienen colas anchas.
En tales casos se ubican a los datos financieros.
Usando el valor de las estadı́sticas para medir el sesgo y la curtosis, S y
K, respectivamente, Jarque y Bera (1980) propusieron una prueba de norma-
lidad, la cual puede ser aplicada a series de tiempo en niveles o en diferencias
indistintamente. Dicha prueba se expresa como:

T 1 2
JB = Ŝ + (K̂ − 3) (4.26)
6 4
La cual tiene una distribución χ2 con 2 grados de libertad y donde T es el

tamaño de la muestra. La hipótesis de que las observaciones están distribuidas
de forma normal se rechaza si los valores de la estadı́stica de prueba es más
grande que los correspondientes valores criticos en tablas.
Veamos un ejemplo para ilustrar el uso de la función de autocorrelación.
Tomemos como variable al número de pasajeros transportados por el sistema
de transporte del metro de la CDMX. 1 Los datos empleados fueron tomados
del INEGI y son una serie de tiempo en el periodo que va de enero de 2000
a junio de 2019, es decir, 234 observaciones. Como se puede apreciar en la
Figura 4.2, el número de pasajeros por mes ha oscilado significativamente a
1
Los datos y algoritmo está disponible en la capeta de Drive y corresponde a la Clase3.
47
Figura 4.2: Evolución del número de pasajeros en el Metro de la CDMX,
enero de 2000 a junio de 2019
lo largo de tiempo. Incluso podemos observar un cambio estructural de la

serie entre 2011 y 2012. Asimismo, podemos ubicar una caida atı́pica que
ocurrió en septiembre de 2017.
A esta serie de tiempo le calculamos los pincipales estadı́sticos hasta ahora

estudiados y obtenemos el Cuadro 4.1. En dicho cuadro se destaca que se
muestra la función de autocirrelación para los tres primeros rezagos. Para
mayor detalle, en la Figura 11 se muestra la función de autocorrelaciòn, en
donde las bandas descritas por las lı́neas azules son el intervalo de confianza
desntro de las cuales no se puede rechazar la hipotésis nula de que H0 : ρ̂(p) =
0, para todo p = 1, 2, . . . , T .
48
Estadı́stica Coeficiente Grados de Libertad
µ̂ = T1 Tt=1 Xt
P
30,127.05 N.A.
γ̂(0) = T1 Tt=1 (Xt − µ̂)2
P
199,410,885.58 N.A.
PT −1
γ̂(1) = T1 t=1 (X − µ̂)(Xt+1 − µ̂) 197,705,267.55 N.A.
1
PT −2 t
γ̂(2) = T t=1 (Xt − µ̂)(Xt+2 − µ̂) 195,645,823.47 N.A.
PT −3
γ̂(3) = T1 t=1 (Xt − µ̂)(Xt+3 − µ̂) 193,824,139.44 N.A.
PT −1
t=1 (Xt −µ̂)(Xt+1 −µ̂) γ̂(1)
ρ̂(1) = PT
(X −µ̂)2
= γ̂(0)
0.9914 N.A.
PT −2 t=1 t
(X −µ̂)(X −µ̂) γ̂(2)
ρ̂(2) = t=1PT t (X −µ̂)t+2
2
= γ̂(0)
0.9811 N.A.
t
PT −3 t=1
(X −µ̂)(X −µ̂) γ̂(3)
ρ̂(3) = t=1PT t (X −µ̂)t+3
2
= γ̂(0)
0.972 N.A.
t=1P t
Q∗ = T 1j=1 ρ̂(j)2 193.62 1
Q∗ = T 2j=1 ρ̂(j)2
P
383.24 2
Cuadro 4.1: Estadı́sticas descriptivas del IPC dela BMV
Figura 4.3: Función de Autocorrelación: 150 rezagos del IPC (ρ̂(τ )) - ver
primera columna del cuadro
49
4.2. Procesos estacionarios univariados
En esta sección se analizará el método o metodologı́a de análisis de series
de tiempo propuesto por Box y Jenkins (1970). Los modelos propuestos den-
tro de está metodologı́a o conjunto de métodos se han vuelto indispensables
para efectos de realizar pronósticos de corto plazo.
En este sentido, se analizarán los métodos más importantes en series
de tiempo: Autoregresivos (AR) y de Medias Móviles (MA). Asimismo, se
realizará un análisis de los procesos que resultan de la combinación de ambos,
conocida como ARMA, los cuales son más comúnmente usados para realizar
pronósticos.
4.2.1. Procesos Autoregresivos

Los procesos autoregresivos tienen su origen en el trabajo de Cochrane y
Orcutt de 1949, mediante el cual analizaron los residuales de una regresión
clásica como un proceso autoregresivo.
Como primer caso analizaremos al proceso autoregresivo de primer órden,
AR(1), el cual podemos definir como una ecuación en diferencia estocástica
de primer órden.:
Xt = δ + αXt−1 + Ut (4.27)
Donde δ es un término constante, Ut es un proceso puramente aleatorio
(es decir, estacionario, con media cero (0) y una varianza constante (σ 2 )),
X0 es el valor inicial de Xt . Considerando la ecuación (38) y un proceso de
sustitución sucesivo:
X1 = δ + αX0 + U1
Para X2 :
X2 = δ + αX1 + U2
= δ + α(δ + αX0 + U1 ) + U2
= δ + αδ + α2 X0 + αU1 + U2
Para X3 :
X3 = δ + αX2 + U3
= δ + α(δ + αδ + α2 X0 + αU1 + U2 ) + U3
= δ + αδ + α2 δ + α3 X0 + α2 U1 + αU2 + U3
50
Ası́, para Xt obtendrı́amos:
Xt = δ + αXt−1 + Ut
= δ + α(δ + αδ + α2 δ + . . . + αt−2 δ + αt−1 X0 + αt−2 U1 + . . . αUt−2 + Ut−1 ) + Ut
= δ + αδ + α2 δ + α3 δ + . . . + αt−1 δ + αt X0 + αt−1 U1 + . . . α2 Ut−2 + αUt−1 + Ut
= (1 + α + α2 + α3 + . . . + αt−1 )δ + αt X0 + αt−1 U1 + . . . α2 Ut−2 + αUt−1 + Ut
t−1
1 − αt t
X
= δ + α X0 + αj Ut−j (4.28)
1−α j=0
De esta forma obtenemos un proceso que depende de dos partes: una que
depende del tiempo y otra que depende de un proceso estocástico. Asimismo,
debe notarse que la condición de convergencia es: |α| < 1, por lo que cuando
t → ∞, la expresión (39) será la siguiente:
∞
1 X
Xt = δ+ αj Ut−j (4.29)
1−α j=0
De esta forma desaparece la parte dependiente del tiempo y únicamente

prevalece la parte que es dependiente del proceso estocástico. Esta es la
solución del proceso AR(1), la cual depende del proceso estocástico. Notemos,
además, que esta solución implica que la variable o la serie de tiempo Xt es
tambien un proceso estocástico que hereda las propiedades de Ut . Ası́, Xt es
un proceso estocástico estacionario, como demostraremos más adelante.
Observemos que la ecuación (40) se puede reescribir si consideramos la
formulación que en la literatura se denomina como de Wold, en la cual se
define que ψj = αj y se considera el caso en el cual |α| < 1, de esta forma:
∞ ∞
X X 1
ψj2 = α2j = (4.30)
j=0 j=0
1 − α2
Alternativamente, podemos escribir el proceso AR(1) mediante el uso del

operador rezago:
Xt = δ + αLXt + Ut
Xt − αLXt = δ + Ut
(1 − αL)Xt = δ + Ut
δ 1
Xt = + Ut (4.31)
1 − αL 1 − αL
51
En esta última ecuación retomamos el siguiente término para reescribirlo
como:
1
= 1 + αL + α2 L2 + α3 L3 + . . . (4.32)
1 − αL
Tomando la ecuación (43) y sustituyendola en la ecuación (42), obtenemos

la siguiente expresión:
Xt = (1 + αL + α2 L2 + α3 L3 + . . .)δ + (1 + αL + α2 L2 + α3 L3 + . . .)Ut
= (1 + α + α2 + α3 + . . .)δ + Ut + αUt−1 + α2 Ut−2 + α3 Ut−3 + . . .
∞
δ X
Xt = + αj Ut−j (4.33)
1 − α j=0
Donde la condición de convergencia y estabilidad del proceso es que |α| <

1. Por lo que, hemos demostrado que mediante el uso del operador de rezagos
es posible llegar al mismo resultado que obtuvimos mediante el procedimiento
de sustituciones iterativas.
Ahora obtendremos los momentos que describen al proceso estocástico. De
esta forma debemos obtener la media y la varianza de Xt . Para los siguientes
resultados debemos recordar que: E[Ut ] = 0 para todo t, V ar[Ut ] = σ 2 para
todo t y Cov[Ut , Us ] = 0 para todo t 6= s:
" ∞
#
δ X
E[Xt ] = E + αj Ut−j
1 − α j=0
∞
δ X
= + αj E[Ut−j ]
1 − α j=0
δ
= =µ (4.34)
1−α
52
Respecto de la varianza podemos escribir:
V ar[Xt ] = E[(Xt − µ)2 ]
 !2 
∞
δ X δ
= E + αj Ut−j − 
1 − α j=0 1−α
= E[(Ut + αUt−1 + α2 Ut−2 + α3 Ut−3 + . . .)2 ]

= E[Ut2 + α2 Ut−12
+ α4 Ut−2
2
+ α6 Ut−3
2
+ ...
2
+2αUt Ut−1 + 2α Ut Ut−2 + . . .]
= E[Ut2 ] + α2 E[Ut−1
2
] + α4 E[Ut−2
2
] + α6 E[Ut−3
2
] + ...
2 2 2 4 2 6 2
= σ + α σ + α σ + α σ + ...
= σ 2 (1 + α2 + α4 + α6 + . . .)
1
= σ2 = γ(0) (4.35)
1 − α2
En conclusión, podemos decir que E[Ut , Us ] = σ 2 , para t = s, y E[Ut , Us ] =
0, para cualquier otro caso.
Finalmente, la covarianza se puede calcular como:
Cov(Xt , Xt−τ ) = E[(Xt − µ)(Xt−τ − µ)]
" ∞
! ∞
!#
δ X δ δ X δ
= E + αj Ut−j − + αj Ut−τ −j −
1 − α j=0 1−α 1 − α j=0 1−α
= ατ E[Ut−τ2 2
+ αUt−τ 2 2 3 2
−1 + α Ut−τ −2 + α Ut−τ −3 + . . .]
1
= ατ σ 2 = γ(τ ) (4.36)
1 − α2
Notése que con estos resultados de las ecuaciones (46) y (47) podemos
construir la función de autocorrelación:
γ(τ )
ρ(τ ) =
γ(0)
= ατ (4.37)
Donde τ = 1, 2, 3, . . . y |α| < 1. Este último resultado significa que cuando
el proceso Autoregresivo es de órden 1 (AR(1)) la función de autocorrelación
teóricamente es igual al parametro α elevado al número de rezagos consi-
derados. No obstante, puede suceder que la autocorrelación observada sea
ligeramente distinta.
53
Comportamiento del proceso real
70
50
Xt
30
0 200 400 600 800 1000
Tiempo
Figura 4.4: AR(1) considerando Xt = 5 + 0,9Xt−1 + Ut ; X0 = 50, y que

Ut ∼ N (0, 4)
Ahora veámos algunos ejemplos. En el primero mostraremos el analı́sis

de un proceso constrı́do considerando un proceso puramente aleatorio como
componente Ut . Por su parte, en el segundo ejemplo se aplicará la técnica a
una serie de tiempo de una variable económica.
Consideremos un proceso dado por la forma del P∞AR(1): Xt = δ + αXt−1 +
δ j
Ut , cuya solución esta dad por: Xt = 1−α + j=0 α Ut−j . En especifico,
digamos que el proceso es como se señala en las siguietes gráficas. La gráfica
12 ilustra el comportamiento de una serie considerando el procedimiento
iterativo de construcción. La figura 13 ilustra el proceso o trayectoria de la
solución de la serie de tiempo. Finalmente, las gráficas 14 y 15 muestran el
correlograma calculado considerando el resultado real y el teórico.
Consideremos una aplicación a manera de ejemplo. Tomemos cuatro series
de tiempo tomadas del Banco de Información Económica (BIE) del INEGI,
dichas variables son:
1. Consumo de energı́a eléctrica doméstico (Miles de millones de watts/hora),
durante el periodo de enero de 1982 a julio de 2017 y denotada como
CEDt ;
2. Consumo de energı́a eléctrica industrial (Miles de millones de watts/hora),
durante el periodo de enero de 1982 a julio de 2017 y denotada como
CEIt ;
54
Comportamiento del proceso estimado
50
45
Xt
40
35
0 200 400 600 800 1000
Tiempo
5
Pt−1
Figura 4.5: AR(1) considerando Xt = 1−0,9
+ j=0 0,9j Ut−j , y que Ut ∼
N (0, 4)
Funcion de Autocorrelacion real

Autocorrelacion
0.8
0.4
0.0
0 5 10 15 20 25 30
Rezagos
Figura 4.6: AR(1) considerando una función de autocorrelación dada por:

ρ(τ ) = γ(τ
γ(0)
)
55
Funcion de Autocorrelacion teorica
0.8
Autocorrelacion
0.4
0.0
1 3 5 7 9 12 15 18 21 24 27 30
Rezagos
Figura 4.7: AR(1) considerando una función de autocorrelación dada por:

ρ(τ ) = ατ
3. Volumen de las ventas de Gasolina Magna (Miles de barriles diarios

promedio), durante el periodo de enero de 2006 a julio de 2017 y deno-
tada como GM agnat , y
4. Volumen de las ventas Gasolina Premium (Miles de barriles diarios pro-
medio), durante el periodo de enero de 2006 a julio de 2017 y denotada
como GP remt .
A cada una de estas series se les aplicará una metodologı́a de estimación
dada por el método de Máxima Verosimilitud (ML, por sus siglás en inglés).
Antes de realizar el proceso de estimación consideremos una transformación
de diferencias logaritmicas, con el objeto de obtener un conjunto de series de
tiempo expresadas en tasas de crecimiento y con un comportamiento parecido
a un proceso estacionario.
Ası́, para cada una de las series de consumo de electricidad realizaremos
la siguiente transformación:
DmLYt = log(Yt ) − log(Yt−1 )
Por su parte, para cada una de las series de consumo de gasolina realiza-
remos la siguiente transformación:
DaLYt = log(Yt ) − log(Yt−12 )
56
Donde, Yt es una serie de tiempo, y log(.) es la función logaritmo natural.
Notése que la diferencia entre el primer y segundo caso es que la tasa de
crecimiento es mensual y anual, respectivamente.
Primero, el consumo de electricidad doméstico en su formulación de tasas
de crecimiento arroja como resultados lo siguiente:
DmLCEDt = −0,3672 + 0,317DmLCEDt−1 + Ût

(0,3819) (0,046)
µ̂ = −0,000127632 y σ̂ 2 = 29,05
Segundo, para el caso del consumo de lectricidad en el sector industrial:
DmLCEIt = −0,2956 − 0,1184DmLCEIt−1 + Ût

(0,2460) (0,0481)
µ̂ = 0,001338705 y σ̂ 2 = 32,23
Tercero, para el consumo de gasolina magna:
DaLGM agt = −0,9217 + 0,7590DaLGM agt−1 + Ût

(1,2060) (0,0578)
µ̂ = 0,07038077 y σ̂ 2 = 11,22
Finalmente, para el caso de la gasolina premium:
DaLGP remt = 1,094 + 1,000DaLGP remt−1 + Ût

(22070,936) (0,0000)
µ̂ = 0,2071672 y σ̂ 2 = 33,90
Una vez analizado el caso de AR(1) analizaremos el caso del AR(2). La

ecuación generalizada del proceso autoregresivo de órden 2 (o denotado como
AR(2)) puede ser escrito como:
Xt = δ + α1 Xt−1 + α2 Xt−2 + Ut (4.38)
57
Donde Ut denota un proceso puramente aleatorio con media cero (0),
varianza constante (σ 2 ) y un parametro α2 6= 0. Ası́, utilizando el operador
rezago podemos reescribir la ecuación (49) como:
Xt − α1 Xt−1 − α2 Xt−2 = δ + Ut
(1 − α1 L1 − α2 L2 )Xt = δ + Ut
Donde, podemos denotar a α(L) = (1 − α1 L1 − α2 L2 ), el cual es un
polinomio que depende del operador rezago y que es distinto de cero. De esta
forma podemos reescribir a la ecuación (49) como:
α(L)Xt = δ + Ut (4.39)
Ahora supongamos que existe el inverso multiplicativo del polinomio
α(L), el cual será denotado como: α−1 (L), el cual cumple con que,
α−1 (L)α(L) = 1
Ası́, podemos obtener:
Xt = α−1 (L)δ + α−1 (L)Ut
Si utilizamos el hecho que α−1 (L) se puede descomponer en un polinomio
de forma similar el caso de AR(1), tenomos que:
α−1 (L) = ψ0 + ψ1 L + ψ2 L2 + . . .
Por lo tanto,
1 = (1 − α1 L1 − α2 L2 )(ψ0 + ψ1 L + ψ2 L2 + . . .)
Desarrollando la ecuación tenemos:
1 = ψ0 + ψ1 L + ψ2 L2 + ψ3 L3 + ...
− α1 ψ0 L − α1 ψ1 L2 − α1 ψ2 L3 − ...
− α2 ψ0 L2 − α2 ψ1 L3 − ...
Ahora, no debe pasar desapercibido que las siguientes condiciones deben
cumplirse:
L0 : ⇒ ψ0 = 1
L: ψ1 − α1 ψ0 = 0 ⇒ ψ1 = α1
2
L : ψ2 − α1 ψ1 − α2 ψ0 = 0 ⇒ ψ2 = α12 + α2
L3 : ψ3 − α1 ψ2 − α2 ψ1 = 0 ⇒ ψ3 = α13 + 2α1 α2
58
Des esta forma podemos observar que en el lı́mite siempre obtendremos
una ecuación del tipo ψj −α1 ψj−1 −α2 ψj−2 = 0 asociada a Lj , la cual siempre
podremos resolver conociendo que las condiciones iniciales son: ψ0 = 1 y
ψ1 = α1 .
Ası́, las condiciones de estabilidad estarán dadas por las soluciones del
siguiente polinomio:
λ2 − λα1 − α2 = 0
Lo cual implica que es necesario que cada una de las raı́ces sea, en valor
absoluto, siempre menor que la unidad. Estas son las condiciones de estabi-
lidad para el proceso AR(2).
De las relaciones antes mencionadas y considerando que α−1 (L) aplicada
a una constante como δ, tendrá como resultado otra constante. De esta forma
podemos escribir que la solución del proceso AR(2) será:
∞
δ X
Xt = + ψt−j Ut−j (4.40)
1 − α1 − α2 j=0
Donde ψ0 = 1. Al igual que en el caso del AR(1), debemos calcular lo

momentos del AR(2):
δ
E[Xt ] = µ = (4.41)
1 − α1 − α2
Para determinar la varianza recordemos las siguientes relaciones:
E[Xt Xt−τ ] = E[α1 Xt−1 Xt−τ ] + E[α2 Xt−2 Xt−τ ] + E[Ut Xt−τ ] (4.42)
De la cual podemos derivar:

τ = 0 : γ(0) = α1 γ(1) + α2 γ(2) + σ 2
τ = 1 : γ(1) = α1 γ(0) + α2 γ(1) + 0
τ = 2 : γ(2) = α1 γ(1) + α2 γ(0) + 0
Ası́, en general:
γ(τ ) = α1 γ(τ − 1) + α2 γ(τ − 2) (4.43)
Realizando la sustitución recursiva obtenemos:

1 − α2
V ar[Xt ] = γ(0) = 2 2
σ2 (4.44)
(1 + α2 )[(1 − α2 ) − α1 ]
59
α1
γ(1) = σ2 (4.45)
(1 + α2 )[(1 − α2 )2 − α12 ]
α12 + α2 − α22
γ(2) = σ2 (4.46)
(1 + α2 )[(1 − α2 )2 − α12 ]
Recordemos que las funciones de autocorrelación se obtienen de la división
de cada unas de las funciones de covarianza (γ(τ )) por la varianza (γ(0)).
Ası́, podemos construir la siguiente equivalencia:
ρ(τ ) − α1 ρ(τ − 1) − α2 ρ(τ − 2) = 0 (4.47)
Retomando las series del ejemplo AR(1), a cada una de estas series se
les aplicará una metodologı́a de estimación dada por el método de Máxima
Verosimilitud (ML, por sus siglás en inglés). Antes de realizar el proceso de
estimación consideremos una transformación de diferencias logaritmicas, con
el objeto de obtener un conjunto de series de tiempo expresadas en tasas de
crecimiento y con un comportamiento parecido a un proceso estacionario.
Ası́, para cada una de las series de consumo de electricidad y del consumo
de gasolina realizaremos la siguiente transformación:
DmLYt = log(Yt ) − log(Yt−1 )
Donde, Yt es una serie de tiempo, y log(.) es la función logaritmo natural.

Notése que ambas series se expresaran en tasa de crecimiento mensual.
Primero, el consumo de electricidad doméstico en su formulación de tasas
de crecimiento arroja como resultados lo siguiente:
DmLCEDt = −0,3701 + 0,2882DmLCEDt−1 + 0,0915DmLCEDt−2 + Ût

(0,4185) (0,0483) (0,0483)
µ̂ = −0,001209241 y σ̂ 2 = 28,8
Segundo, para el caso del consumo de lectricidad en el sector industrial:
DmLCEIt = −0,2949 − 0,1049DmLCEIt−1 + 0,1170DmLCEIt−2 + Ût

(0,2764) (0,0481) (0,0481)
µ̂ = 0,0009654484 y σ̂ 2 = 31,79
60
Tercero, para el consumo de gasolina magna:
DmLGM agt = −0,1026 − 0,8398DmLGM agt−1 − 0,4360DmLGM agt−2 + Ût

(0,1239) (0,0767) (0,0764)
µ̂ = −0,02010276 y σ̂ 2 = 10,85
Finalmente, para el caso de la gasolina premium:
DmLGP remt = −0,1237 − 0,3254DmLGP remt−1 − 0,1034DmLGP remt−2 + Ût

(0,3778) (0,0846) (0,0843)
µ̂ = −0,005981203 y σ̂ 2 = 40,01
Un proceso AR(p) puede ser descrito por la siguiente ecuación en dife-

rencia estocástica:
Xt = δ + α1 Xt−1 + α2 Xt−2 + α3 Xt−3 + . . . + +αp Xt−p + Ut (4.48)
Donde αp 6= 0, y Ut es un proceso aleatorio con media cero (0) y varianza

constante (σ 2 ). Al respecto, usando el operador rezago (Lk ) obtenemos la
siguiente expresión:
(1 − α1 L − α2 L2 − α3 L3 − . . . − αp Lp )Xt = δ + Ut
De forma similar que en los procesos AR(1) y AR(2), las condiciones de
estabilidad del proceso AR(p) estarán dadas por la solución de la ecuación
caracterı́stica:
λp − α1 λp−1 − α2 λp−2 − α3 λp−3 − . . . − αp = 0 (4.49)
Ası́, solo si el polinomio anterior tiene raı́ces cuyo valor absoluto sea menor
a uno (1) podremos decir que el proceso es convergente. Lo anterior significa
que el proceso es invertible en el siguiente sentido:
1
= ψ0 +ψ1 L+ψ2 L2 +ψ3 L3 +. . . (4.50)
1 − α1 L − α2 L2 3
− α3 L − . . . − αp L p
61
Donde, por construcción de α(L)α−1 (L) = 1 implica que ψ0 = 1. Ası́, la
solución del proceso AR(p) estará dada por:
∞
δ X
Xt = + ψj Ut−j (4.51)
1 − α1 − α2 − α3 − . . . − αp j=0
Los momentos del proceso anterior estarán dados por una media:
δ
E[Xt ] = µ = (4.52)
1 − α1 − α2 − α3 − . . . − αp
Para determinar la varianza del proceso, sin pérdida de generalidad, pode-

mos definir una ecuación: γ(τ ) = E[Xt−τ Xt ], la cual (omitiendo la constante,
ya que su correlación con cuaquier variable es cero (0)) puede ser escrita co-
mo: γ(τ ) = E[Xt−τ α1 Xt−1 + α2 Xt−2 + α3 Xt−3 + . . . + +αp Xt−p + Ut ], para
τ = 0, 1, 2, . . . , p. De lo anterior obtenemos el siguiente conjunto de ecuacio-
nes:
γ(0) = α1 γ(1) + α2 γ(2) + . . . + αp γ(p) + σ 2

γ(1) = α1 γ(0) + α2 γ(1) + . . . + αp γ(p − 1)
..
.
γ(p) = α1 γ(p − 1) + α2 γ(p − 2) + . . . + αp γ(0)
De esta forma, la ecuación general es:
γ(p) − α1 γ(τ − 1) + α2 γ(τ − 2) + . . . + αp γ(τ − p) = 0

Dividiendo cada una de las ecuaciones por γ(0), se obtiene la siguiente
ecuación:
ρ(p) − α1 ρ(τ − 1) + α2 ρ(τ − 2) + . . . + αp ρ(τ − p) = 0

Ası́, podemos escribir el siguiente sistema de ecuaciones:
ρ(1) = α1 + α2 ρ(1) + α3 ρ(2) + . . . + αp ρ(p − 1)

ρ(2) = α1 ρ(1) + α2 + α3 ρ(1) + . . . + αp ρ(p − 2)
..
.
62
ρ(p) = α1 ρ(p − 1) + α2 ρ(p − 2) + . . . + αp
Lo anterior se puede expresar como un conjunto de vectores y matrices
  
  1 ρ(1) . . . ρ(p − 1) α1
ρ(1)
 ρ(2)   ρ(1)
 1 . . . ρ(p − 2) 
  α2 
 
 ..  =  ρ(2)
   ρ(1) . . . ρ(p − 3) 
  α3 
 
(4.53)
 .   .. .. ..   .. 
 . . ... .  . 
ρ(p)
ρ(p − 1) ρ(p − 2) . . . 1 αp
De lo anterior podemos escribir la siguiente ecuación que es la solución
del proceso AR(p):
ρ = Rα (4.54)
α = R−1 ρ (4.55)
Finalmente, introduciremos el concepto de Función de Autocorrelación
Parcial (PACF, por sus siglas en inglés). Primero, dadas las condiciones de
estabilidad y que el proceso AR(p) tiene toda la información de los rezagos
en conjunto, es importante construir una metrica para distinguir el efecto de
Xt−p sobre Xt de forma individual.
Ası́, la idea es construir una metrica de la correlación que existe entre las
diferentes varibles aleatorias, si para tal efecto se ha controlado el efecto del
resto de la información. Ası́, podemos definir la ecuación como:
Xt = φk1 Xt−1 + φk2 Xt−2 + . . . + φkk Xt−k + Ut (4.56)
Donde φki es el coeficiente de la variable dada con el rezago i si el pro-
ceso tiene un órden k. Ası́, los coeficientes φkk son los coeficientes de la
autocorrelación parcial (considerando un proceso AR(k)). Observemos que
la autocorrelaicón parcial mide la correlación entre Xt y Xt−k que se man-
tiene cuando el efecto de las variables Xt−1 , Xt−2 , . . . y Xt−k−1 en Xt y Xt−k
ha sido eliminado.
Dada la expresión considerada en la ecuación (66), podemos resolver el
problema de establecer el valor de cada φki mediante:
  
  1 ρ(1) . . . ρ(k − 1) φk1
ρ(1)
 ρ(2)   ρ(1)
 1 . . . ρ(k − 2)    φk2 
 
 ..  =  ρ(2)
   ρ(1) . . . ρ(k − 3)    φk3 
 
(4.57)
 .   .. .. ..   .. 
 . . ... .  . 
ρ(k)
ρ(k − 1) ρ(k − 2) . . . 1 φkk
63
Del cual se puede derivar una solución, resoviendo por el método de cra-
mer, o cualquier otro método que consideremos que permita calcular la solu-
ción de sistemas de ecuaciones.
Respecto de cómo estimar el proceso AR(p), existen diversas formas de
estimar los paramétros αk : i) por máxima verosimilitd y ii) por mı́nimos cua-
drados órdinarios. El primer caso requiere que conozcamos la distribución
del proceso aleatorio Ut . El segundo, por el contrario, no requiere el mis-
mo supuesto. No obstante, para el curso utilizaremos el método de máxima
verosimilitud.
Ahora, otra duda que queda es: cómo determinar cual es el órden p del
proceso AR(p). La manera más convencional y formal que existe para tal
efecto es utilizar los criterios de información. Ası́, el órden se elije de acuerdo
a aquel crı́terio de información que resulta ser el mı́nimo. Los criterios de
información que son más comunes son:
1. FPE (Final Prediction Error):
T
T + m 1 X (p) 2
FPE = Ût (4.58)
T − m T t=1
2. Akaike: " #
T
1 X (p) 2 2
AIC = ln Ût +m (4.59)
T t=1 T
3. Schwarz: " #
T
1 X (p)
2 ln(T )
SC = ln Ût +m (4.60)
T t=1 T
4. Hannan - Quinn:
"T
#
1 X (p) 2 2ln(ln(T ))
HQ = ln Ût +m (4.61)
T t=1 T
(p)
Donde Ût son los residuales estimados para el proceso AR(p) y m es
el número de parametros estimados: m = p + 1. Una propiedad que no se
debe perder de vista es que los criterios de información cumplen la siguiente
relación:
orden(SC) ≤ orden(HQ) ≤ orden(AIC) (4.62)
64
Figura 4.8: Función de Autocorrelación de la tasa de crecimiento mensual
del Consumo de Eléctricidad del Sector Industrial, 1982 - 2017: DLCEIt =
ln(CEIt ) − ln(CEIt−1 )
Por esta razón, durante el curso solo utilizaremos el criterio se Akaike para
determinar el órden óptimo del proceso AR(p). Veámos algunos ejemplos.
Retomemos el conjunto series que trabajamos en las sesiones pasadas,
pero ejemplifiquemos solo para el caso del consumo de energı́a eléctrica in-
dustrial (Miles de millones de watts/hora), durante el periodo de enero de
1982 a julio de 2017 y denotada como CEIt .
En las figuras 16 y 17 se muestra la Función de Autocorrelación (FAC
o ACF) y la Función de Autocorrelación Parcial (FACP o PACF), respecti-
vamente, de la serie dada por DLCEIt = ln(CEIt ) − ln(CEIt−1 ). Como se
puede observar, ambas gráficas exhiben un comportamiento diferente de la
autocorrelación. Recordemos que la FACP muestra la autocorrelación de la
variable en cada uno de sus rezagos una vez que ya se ha separado el efecto
del resto de los rezagos de las variables.
Cada una de esas gráficas permite observar el valor de la correlación
existente entre la variable en el momento t con cada uno de los rezagos.
Incluso la FACP puede ayudar a determinar el número máximo de rezagos
que se debe incluir en el proceso AR(p). No obstante, una métrica más formal
65
Figura 4.9: Función de Autocorrelación Parcial de la tasa de crecimiento
mensual del Consumo de Eléctricidad del Sector Industrial, 1982 - 2017:
DLCEIt = ln(CEIt ) − ln(CEIt−1 )
es el uso de los criterios de información.

Al respecto, a continuación se muestra la tabla de criterios de Akaike que
resultan de aplicar dicho criterio a los residuales resultantes de cada procero
AR(1), AR(1), . . ., AR(p). En la tercera columna de la tabla se señala el valor
del criterio de información que resulta ser el mı́nimo de todos los posibles
entre el rezago 1 hasta el p; que en este caso resulta ser 12.
Rezago AC(p) Óptimo Rezago AC(p) Óptimo

1 2,694.4 11 2,642.7
2 2,690.5 12 2,555.1 *
3 2,692.2 13 2,556.7
4 2,674.8 14 2,558.3
5 2,676.7 15 2,560.0
6 2,656.7 16 2,562.0
7 2,657.2 17 2,563.3
8 2,650.3 18 2,561.4
9 2,641.5 19 2,563.2
10 2,642.4 20 2,563.4
66
Figura 4.10: Residuales de un AR(12) de la serie DLCEIt
Dados los resultados de la tabla anterior, podemos concluir que el proceso

que genera los residuales más pequeños es un proceso AR(12). A continua-
ción, se muestran los coeficientes y la gráfica 18 que muestra a los residuales
asociados.
DLCEIt = −0,1203DLCEIt−1 + 0,0217DLCEIt−2 − 0,0532DLCEIt−3

(0,0434) (0,0439) (0.0439)
−0,1335DLCEIt−4 − 0,0613DLCEIt−5 − 0,1275DLCEIt−6
(0,0437) (0,0439) (0.0437)
−0,0352DLCEIt−7 − 0,0826DLCEIt−8 − 0,0950DLCEIt−9
(0,0440) (0,0440) (0.0439)
+0,0248DLCEIt−10 − 0,0010DLCEIt−11 + 0,4383DLCEIt−12
(0,0441) (0,0441) (0.0435)
−0,2715 µ̂ = −0,01272948
(0,1844) σ̂ 2 = 21.89
Una vez planteado el proceso generalizado de AR(p), iniciamos el plantea-

miento de los proeceso de medias móviles, denotados como M A(q). Iniciemos
67
con el planteamiento del proceso M A(1), que se escribe como:
Xt = µ + Ut − βUt−1 (4.63)
o,
Xt − µ = (1 − βL)Ut (4.64)
En general, el proceso de medias móviles M A(q) puede ser escrito como:
Xt = µ + Ut − β1 Ut−1 − β2 Ut−2 − . . . − βq Ut−q (4.65)
De la ecuación (76), utilizando el operador rezago, podemos rescribir el

proceso como:
Xt − µ = (1 − β1 L − β2 L2 − . . . − βq Lq )Ut (4.66)
El cual podemos escribir como:
Xt − µ = β(L)Ut (4.67)
Este proceso al igual que el caso del AR(p), los momentos pueden ser
calculados como:
E[Xt ] = µ (4.68)
V ar[Xt ] = E[(Xt − µ)2 ]

= E[(Ut − β1 Ut−1 − β2 Ut−2 − . . . − βq Ut−q )2 ]
= (1 + β12 + β22 + . . . + βq2 )σ 2 (4.69)
Cov[Xt , Xt+τ ] = E[(Xt − µ)(Xt+τ − µ)] (4.70)

Ahora veamos un ejemplo del proceso M A(q), retomamos la serie de
las diferencias logaritmicas del consumo de eléctricidad del sector industrial
(DLCEIt ). Al igual que en el caso del proceso AR(p), aplicaremos el criterio
de información de Akaike para el caso de un proceso M A(q) para determi-
nar el número óptimo de componentes de medias móviles. De esta forma
obtenemos el siguiente cuadro.
68
Rezago AIC(q) Óptimo Rezago AIC(q) Óptimo
1 2,695.552 11 2,668.488
2 2,688.995 12 2,613.974
3 2,686.455 13 2,615.703
4 2,676.447 14 2,609.123
5 2,677.011 15 2,611.067
6 2,667.443 16 2,612.156
7 2,667.556 17 2,611.909
8 2,668.656 18 2,608.074 *
9 2,669.960 19 2,608.935
10 2,668.930 20 2,610.353
Dado el resultado de la tabla anterior, se puede afirmar que si solo consi-

deramos un proceso de medias móviles, el órden que minimiza los residuales
es un proceso M A(18). A continuación, se muestran los coeficientes y las des-
ciaciones estándar de dichso coeficientes, ası́ como la gráfica de los residuales
asociados.
DLCEIt = −0,1314Ut−1 + 0,0643Ut−2 − 0,0600Ut−3

(0,0485) (0,0493) (0.0478)
−0,1302Ut−4 − 0,0113Ut−5 − 0,0891Ut−6
(0,0489) (0,0528) (0.0512)
+0,0347Ut−7 − 0,0811Ut−8 − 0,0858Ut−9
(0,0523) (0,0556) (0.0503)
−0,0366Ut−10 − 0,0577Ut−11 + 0,3741Ut−12
(0,0494) (0,0538) (0.0403)
+0,0012Ut−13 + 0,1664Ut−14 − 0,0304Ut−15
(0,0596) (0,0581) (0.0593)
−0,0685Ut−16 − 0,0674Ut−17 − 0,1136Ut−18
(0,0643) (0,0587) (0.0469)
−0,2797 µ̂ = −0,009373457
(0,1621) σ̂ 2 = 24.14
Finalmente, para cerrar esta sección veámos el caso de la especificación

ARM A(p, q) o ARIM A(p, i, q). La diferencia entre el primero y el segundo
es las veces que su tuvo que diferenciar la serie, registro que se lleva en el
ı́ndice i de los paramétros del ARIM A(p, i, q).
69
Figura 4.11: Residuales de un M A(18) de la serie DLCEIt
La especificación general puede ser descrita por la siguiente ecuación:
Xt = δ + α1 Xt−1 + α2 Xt−2 + . . . + αp Xt−p

+ Ut − β1 Ut−1 − β2 Ut−2 − . . . − βq Ut−q (4.71)
Mediante el suso del operador rezago se puede escribir:
(1 − α1 L − α2 L2 − . . . − αp Lp )Xt = δ + (1 − β1 L − β2 L2 − . . . − βq Lq )Ut (4.72)
Lo que se puede simplificar como:
α(L)Xt = δ + β(L)Ut (4.73)
La solución entonces puede ser escrita como:
Xt = α(L)−1 δ + α(L)−1 β(L)Ut (4.74)
Con una media:

δ
E[Xt ] = (4.75)
1 − α1 − α2 − . . . − αp
70
Dicho lo anterior, trabajaremos con la siguiente serie: DLCEIt = ln(CEIt )−
ln(CEIt−1 ), por lo que podemos decir que se trata de un ARIM A(p, 1, q).
Ası́, la siguiente tabla muestra los resultados de aplicar el criterio de infor-
mación a un conjunto de especificaciones de ARIM A(p, i, q):
Rezago p Componente q AIC(p, q) Óptimo

1 1 2,693.585
1 2 2,689.825
1 3 2,673.104
1 4 2,673.287
1 5 2,675.196
2 1 2,692.458
2 2 2,688.364
2 3 2,614.943
2 4 2,672.957
2 5 2,674.957
3 1 2,673.093
3 2 2,614.934
3 3 2,616.740
3 4 2,674.097
3 5 2,613.674
4 1 2,663.155
4 2 2,660.038
4 3 2,612.965
4 4 2,558.591
4 5 2,551.736 *
5 1 2,665.052
5 2 2,662.018
5 3 2,605.391
5 4 2,552.678
5 5 2,566.008
De acuerdo con lo anterior, el modelo que minimiza los residuales es una

ARIM A(4, 1, 5). Ası́, en lo siguiente se muestra el resultado de la estimación
y la gráfica de los residuales.
71
Figura 4.12: Residuales de un ARM A(4, 1, 5) de la serie DLCEIt
DLCEIt = −0,0030DLCEIt−1 + 0,9977DLCEIt−2 − 0,0028DLCEIt−3

(0,0021) (0,0036) (0.0022)
−0,9975DLCEIt−4 − 0,1211Ut−1 − 1,0211Ut−2
(0,0022) (0,0541) (0.0150)
+0,1473Ut−3 + 0,9760Ut−4 − 0,1510Ut−5
(0,0562) (0,0198) (0.0524)
−0,2785 µ̂ = −0,003296848
(0,1860) σ̂ 2 = 21.6
Antes de concluir la sección, se mostrará los resultados de un ARIM A(5, 1, 5),
el cual muestra el mı́nimo del criterio de información de Akaike cuando se
incorporá una dummy mediante la cual se corrige un cambio estructural de-
tectado en 1992.
No obstante, si realizamos el pronóstico con un ARM A(4, 1, 5), obtene-
mos el resultado mostrado en la Figura 22.
4.3. Causalidad de Granger

Hasta ahora hemos supuesto que una serie puede ser explicada única-
mente con la información contenida en ella misma. No obstante, en adelante
72
Figura 4.13: Residuales de un ARM A(5, 1, 5) de la serie DLCEIt , cuando se
incorporá una dummy para controlar el efecto atı́pico de 1992
Figura 4.14: Pronóstico obtenido mediante el uso de un proceso

ARM A(4, 1, 5) de la serie DLCEIt
73
trataremos de analizar el caso en el que buscamos determinar relaciones entre
variables y cómo el comportamiento de una influye en las demás. Algunas
relaciones más importantes son las llamadas causalidad. En este caso anali-
zaremos el procedimiento de Granger (1969).
En adelante asumiremos que las series involucradas son debı́lmente esta-
cionarias. Ası́, las definición de causalidad de X y Y esta dada por:
Sean X y Y dos series debı́lmente estacionarias y a It un conjunto de la
información disponible hasta el momento t, decimos que:
1. Existe Causalidad de Granger: X causa a Y si y solo si, una regresión

lineal da como resultado que:
σ 2 (Yt+1 |It ) < σ 2 (Yt+1 |It − Xt )
2. Existe Causalidad de Granger Instantanéa: X causa de forma instan-

tanéa a Y si y solo si, una regresión lineal da como resultado:
σ 2 (Yt+1 |{It , Xt+1 }) < σ 2 (Yt+1 |It )
De acuerdo a la definición anterior, existen 8 diferentes posibilidades de

relaciones causales entre las dos series:
1. X y Y son independientes: (X, Y );
2. Existe solo causalidad instantanéa: (X − Y );
3. X causa a Y : (X −→ Y );
4. Y causa a X: (X ←− Y ), y
5. Ambas series se causan: (X ←→ Y ).
Por lo anterior, representaremos mediante una AR lo siguiente:

Yt α11 (L) α12 (L) Yt v
A(L) = = t (4.76)
Xt α21 (L) α22 (L) Xt ut
O en su versión MA,

Yt vt β11 (L) β12 (L) vt
= β(L) = (4.77)
Xt ut β21 (L) β22 (L) ut
74
El test de causalidad estada dado, primero, considerando la siguiente
regresión:
k1
X k2
X
k k
Yt = α0 + α11 Yt−k + α12 Xt−k + u1,t (4.78)
k=1 k=k0
De esta forma el test se establece con una prueba F (similar a la definiada

en el anexo de las notas), en la cual se prueba la siguiente hipótesis nula:
1 2 k2
H0 : α12 = α12 = . . . = α12 =0 (4.79)
Ahora veámos un ejemplo. Consideremos como variables analizadas al

Tipo de Cambio (T DCt ) y al Índice de Precios y Cotizaciones de la BMV
(IP Ct ) en frecuancia dı́aria, pero solo para dı́as bancarios, es decir, solo para
los dı́as en que abrieron los servicios bancarios para determinar cotización de
cada una de estas variables.
El periodo de los datos corresponde al comprendido entre el 2 de enero de
1992 y el 13 de octubre de 2017, lo que significa un total de 6,481 observacio-
nes. Las figuras 23 y 24 muestran el comportamiento de las series en niveles
logaritmicas y en diferencias logaritmicas porcentuales, es decir, LT DCt =
ln(T DCt ), LIP Ct = ln(IP Ct ), DLT DCt = 100 ∗ (ln(T DCt ) − ln(T DCt−1 ))
y DLIP Ct = 100 ∗ (ln(IP Ct ) − ln(IP Ct−1 )), respectivamente.
En el siguiente cuadro se muestra el resultado de aplicar el test de Granger
a diferentes especificaciones, con rezagos 4, 8, 12 y 16. En cada una de las
pruebas se compara el modelo considerado como regresor a la variable que
es candidata de causar, respecto del modelo si considerar a dicha variable.
DLT DCt causa a DLIP Ct

Rezagos Estadiı́stica F Significancia
4 60.452 ***
8 31.884 ***
12 21.893 ***
16 16.899 ***
Nota: *** significancia al 0 %, ** significancia al 0.01 %, * significancia
0.05 %
DLIP Ct causa a DLT DCt
75
Figura 4.15: Series LT DCt = ln(T DCt ) y LIP Ct = ln(IP Ct ), 2 de enero de
1992 a 13 de octubre de 2017
Figura 4.16: Series en diferencias logarı́tmicas dadas por: DLT DCt = 100 ∗
(ln(T DCt ) − ln(T DCt−1 )) y DLIP Ct = 100 ∗ (ln(IP Ct ) − ln(IP Ct−1 )), 2 de
enero de 1992 a 13 de octubre de 2017
76
Rezagos Estadiı́stica F Significancia
4 4.4333 **
8 2.2784 *
12 3.0407 ***
16 3.1921 ***
0.05 %
4.4. Procesos de Vectores Autoregresivos

En esta sección ampliaremos la discusión planteada en el apartado ante-
rior. En el sentido de que la sección pasada se limito al analı́sis de causalidad
entres dos variables, que si bien es posible extenderlo a más variables es un
procedimiento fundado en casos particulares por las siguientes razones.
El procediento de causalidad de Granger supone que es posible identificar
un sistema de ecuaciones que debe conformarse una vez que se ha identificado
el sentido de la causalidad. Ası́, el proceso anterior necesita del conocimiento
previo de las relaciones que existen entre las varibles.
Adicionalmente, no resuleve el problema más general qué esta relacionado
con cómo identificar la causalidad cuando se tine múltiples variables con
múltiples sentidos de causalidad. En esta sección analizaremos una mejor
aproximación al probelma de cómo identificar la causalidad múltiple. Por lo
tanto, como mécanismo para solucionar el problema planteado, analizaremos
el caso de un Sistema de Vectores Autoregresivos (VAR).
El primer supuesto del que partiremos es que existe algún grado de en-
dogenidad entre las variables considerdas en el analı́sis. Adicionalmente, el
segundo supuesto que estableceremos es que requerimos que las varaibles que
tengamos consideradas sean estacionarias.
Por lo anterior diremos que un VAR es un procedimiento que sigue mon-
tado en el supuesto de que las variables consideredas son estacionarias, sin
que hasta el momento hallamos podido establecer un mécanismo de detección
de dicha estacionariedad.
Ahora bien, iniciaremos con el establecimiento de la representación del
proceso. Digamos que tenemos un proceso X estacionario de dimensión k.
De esta forma la expresión reducida del modelo o el proceso estará dado por:
Xt = δ + A1 Xt−1 + A2 Xt−2 + . . . + Ap Xt−p + Ut (4.80)
77
Donde Ai , i = 1, . . . , p son matrices cuadradas dedimensión k y Ut repre-
senta un vector de dimensión k con los residuales en el momento del tiempo
t. También se incorpora un vector de términos constantes denominado como
δ.
La ecuación (91) supone la siguiente estructura de vectores:
 
X1t
X2t 
Xt =  .. 
 
 . 
Xkt
 
X1t−p
X2t−p 
Xt−p =  .. 
 
 . 
Xkt−p
 
δ1
 δ2 
δ =  .. 
 
.
δk
También, la ecuación (91) supone que cada matriz Ai es de la siguiente
forma:  (i) (i) (i) 
a11 a12 . . . a1k
a(i) a(i) . . . a(i) 
Ai =  21 22 2k 

.
. .
. . . . 
 . . . .. 
(i) (i) (i)
ak1 ak2 . . . akk
Retomando la ecuación (91) y considerando que podemos ocupar el ope-
rador rezago de forma analóga al caso del modelo AR(p), tenemos:
Xt − A1 Xt−1 − A2 Xt−2 − . . . − Ap Xt−p = δ + Ut
Xt − A1 LXt − A2 L2 Xt − . . . − Ap Lp Xt−p = δ + Ut
(Ik − A1 L − A2 L2 − . . . − Ap Lp )Xt = δ + Ut
78
A(L)Xt = δ + Ut (4.81)
Adicionalmente, requeriremos que Ut cumpla con las siguientes condicio-
nes:
1. E[Ut ] = 0
 (t)  
U1
U (t)  h i
0  2  (t) (t) (t) 
2. E[Ut Ut ] = E  .  U1 U2 . . . Uk 
 ..  
(t)
Uk
 (t) (t) (t) (t) (t) (t) 
U1 U1 U1 U2 . . . U1 Uk
U (t) U (t) U (t) U (t) (t) (t)
. . . U2 Uk 
=E 2 . 1 2 2
 
 . . .
. .. 
. ... . 
(t) (t) (t) (t) (t) (t)
Uk U1 Uk U2 . . . Uk Uk
 
σ12 ρ12 . . . ρ1k
ρ21 σ 2 . . . ρ2k 
 2 
 .. .. .. 
 . . ... . 
ρk1 ρk2 . . . σk2
= ΣU U
 (t)  
U1
U (t)  h i
3. E[Ut Us ] = E  2.  U1(s) U2(s) . . . Uk(s) 
0   
 ..  
(t)
Uk
 (t) (s) (t) (s) (t) (s) 
U1 U1 U1 U2 . . . U1 Uk
U (t) U (s) U (t) U (s) (t) (s)
. . . U2 Uk 
=E 2 . 1 2 2
 
.. .. .. 
 . ... . 
(t) (s) (t) (s) (t) (s)
Uk U1 Uk U2 . . . Uk Uk
=0
Lo anterior, para el caso en que t 6= s.
79
Es decir, los residuales Ut pueden estar correlacionados entre ellos solo en
el caso de que la iformación sea contemporanéa, pero no tienen información
en común entre residuales de otros periodos.
Al igual que en el caso del modelo o especificación AR(p) en la especifi-
cación del modelo V AR(p) existen condiciones de estabilidad. Dichas condi-
ciones están dadas por lo siguiente, definamos el siguiente polinomio:
Det[It − A1 z − A2 z 2 − . . . − Ap z p ] 6= 0 (4.82)
Donde |z| ≤ 1, lo que significa que cada una de las raı́ces del polinomio
debe ser menor a la unidad (i.e., dentro del circulo unitario).
La ecuación (92) puede ser rexpresada en una forma similar al un pro-
ceso de MA. Al respecto, de forma similar a la siguiente ecuación podemos
construir un modelo V ARM A(p, q), el cual no estudiamos es este curso. Re-
romando el primer planteamiento, podemos escribir:
Xt = A−1 (L)δ + A−1 (L)Ut

= µ + β(L)Ut
Por el lado de las matrices que representan la autocovarianza, estás re-

sultan de resolver lo siguiente:
ΓX (τ ) = E[(Xt − µ)(Xt−τ − µ)0 ] (4.83)
Ahora, sin pérdida de generalidad digamos que la especificación V AR(p)

no tiene constante, por lo que δ = 0, lo que implica que µ = 0. De esta forma
las matrices de autocovarianza resultan de:
ΓX (τ ) = E[(Xt )(Xt−τ )0 ]
= A1 E[(Xt−1 )(Xt−τ )0 ] + A2 E[(Xt−2 )(Xt−τ )0 ]
+ . . . + Ap E[(Xt−p )(Xt−τ )0 ] + E[(Ut (Xt−τ )0 ]
Finalmente, y previo a exponer algunos ejemplos, requerimos de una

métrica que nos permita determinar el número de rezagos óptimo del V AR(p).
Ası́, establecemos criterios de información similares a los del AR(p):
1. Final Prediction Error (FPE):
k
T + kp + 1
F P E(p) = |ΣU U (p)| (4.84)
T − kp − 1
80
2. Akaike Criterion (AIC):
2
AIC(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.85)
T
3. Hannan - Quinn Criterion (HQ):
2ln(ln(2))
HQ(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.86)
T
4. Schwartz Criterion (SC):
ln(T )
SC(p) = ln|ΣU U (p)| + (k + pk 2 ) (4.87)
T
Una de las grandes ventajas que aporta el analı́sis de los modelos V AR(p)
es el analı́sis de Impulso-Respuesta. Dicho analı́sis busca cuantificar el efedto
que tiene en Xt el efecto de una innovación o cambio en los residuales de
cualquiera de las variables en un momento definido. Partamos dela ecuación
(92) y utilicemos la descomposición que empleamos en el modelo MA, de
forma que tenemos:
Xt = A−1 (L)δ + A−1 (L)Ut

= µ + β(L)Ut
= µ + Ψ0 Ut + Ψ1 Ut−1 + Ψ2 Ut−2 + Ψ3 Ut−3 + . . .
Donde Ψ0 = I y cada una de las Ψi = −Bi , i = 1, 2, . . .. De esta forma

se verifica el efecto que tiene en Xt cada las innovaciones pasadas.
Ahora veámos algunos ejemplos. Consideremos los ı́ndices de producción
industrial (IPI) de México, Estados Unidos, Canadá y Alemania. de esta
forma, la Figura 25 muestra la evolución entre 1992 y 2017 del IPI para
dichos paı́ses.
Ahora bien, dado que uno de los principales supuestos de los modelos VAR
es que las series son estacionarias, tomaremos las diferencias logaritmicas de
dichos ı́ndices. De esta forma, en la Figura 26 se muestra la evolución de la
diferencia de cada una de las variables.
Dicho lo anterior, a continuación mostraremos la tabla que resume el valor
de los distintos criterios de información. Del cual se concluye que el número
óptimo de residuales es 4 (según el crietrio AIC y el FPE).
81
Figura 4.17: ı́ndices de Producción Industrial
Figura 4.18: Series en diferencias logarı́tmicas dadas por: DLXt = 100 ∗

(ln(Xt ) − ln(Xt−1 )) enero de 1992 a septiembre de 2017
82
Resumen de los Criterios de Información
Rezagos AIC HQ SC FPE
1 -0.25842276 -0.15594506 -0.00275899 0.77227968
2 -0.31287970 -0.12841980 0.14731510 0.73139870
3 -0.36552090 -0.09907890 0.29920490 0.69400910
4 -0.37061083 -0.02218669 0.49864596 0.69070007
5 -0.34907736 -0.08132893 0.72471044 0.70608598
De esta forma, se estimó un V AR(4), los resultados del mismo se repotar-

tan en cada unos de los siguientes cuadros, en los que se reporta el resultado
de cada una de las ecuaciones. Primero mostraremos los resutlados de las
raı́ces del polinomio caracteristico, seguido de un caudro para la ecuación
del IPI de México (por simplicidad se omiten las otras tres ecuaciones del
V AR(4)).
Raı́ces del polinomio caracterı́stico de un V AR(4)

0.8793 0.7046 0.7046 0.6773 0.6773 0.6567 0.6567 0.6162
0.6162 0.6072 0.6072 0.5965 0.5327 0.5253 0.5253 0.2033
V AR(4): Ecuación IP ItM EX

Variable Coeficiente Error Estándar t p-value
δ M EX 0.057623 0.068715 0.839 0.4024
M EX
IP It−1 0.035601 0.060038 0.593 0.5537
EU A
IP It−1 0.079788 0.123903 0.644 0.5201
CAN
IP It−1 0.108060 0.074792 1.445 0.1497
GER
IP It−1 -0.005768 0.047708 -0.121 0.9039
M EX
IP It−2 -0.015056 0.059633 -0.252 0.8009
EU A
IP It−2 -0.080877 0.123600 -0.654 0.5134
CAN
IP It−2 -0.177866 0.075916 -2.343 0.0199*
GER
IP It−2 0.056679 0.049002 1.157 0.2484
M EX
IP It−3 0.003636 0.059222 0.061 0.9511
EU A
IP It−3 0.279955 0.124260 2.253 0.0251*
CAN
IP It−3 0.027083 0.076655 0.353 0.7241
GER
IP It−3 -0.030983 0.049352 -0.628 0.5307
M EX
IP It−4 0.153800 0.059370 2.591 0.0101*
EU A
IP It−4 0.125002 0.123845 1.009 0.3137
CAN
IP It−4 -0.103973 0.076120 -1.366 0.1731
GER
IP It−4 0.050144 0.047729 1.051 0.2944
83
0.05 %
Finalmente, las pruebas de diagnóstico se resumen en el siguiente cuadro.
Pruebas de diagnóstico sobre los residuales del V AR(4)

Estadı́stica (rezagos) Coeficiente p-value Conclusión
2
Correlación Serial (χ (8)) 92.484 0.01143 No existe autocorrelación serial
2
Normalidad - JB (χ ) 3780.7 0.0000 Los residuales no son normales
ARCH (χ2 (4)) 756.47 0.0000 Los residuales no son homocedásticos
4.5. Procesos No Estacionarios: Pruebas de

Raı́ces Unitarias
4.5.1. ADF
84
Capı́tulo 5
Anexo
5.1. El estimador de Mı́nimos Cuadrados Or-

dinarios y el análisis clásico de regresión
El estimador de Mı́nimos Cuadrados Ordinarios (MCO) es el estimador
básico en econometrı́a o, propiamente dicho, en el análisis de regresión. Esta
sección cubre las propiedades finitas del estimador de MCO, mismas que
son validas para cualquier tamaño de muestra dado. El material cubierto es
totalmente estándar.
Cualquier estudio econométrico inicia con un conjunto de proposiciones
sobre algún fenómeno de la economı́a. Algunos ejemplos familiares son las
ecuaciones de demanda, las funciones de producción y algunos otros modelos
macroeconómicos. Ası́, la investigación empı́rica provee las estimaciones de
los parámetros desconocidos en el modelo. La teorı́a especifica un conjunto
de relaciones determinı́sticas sobre las variables.
Dichas relaciones sulen estudiarse mediante el análisis de regresión múlti-
ple, el cual permite el estudio de la relación entre una variable dependiente
y otras más denominadas variables independientes. En adelante, en general
diremos que la forma de representar la relación entre la variable dependiente
y las variables independientes, tendrá la siguiente notación:
y = f (x1 , x2 , . . . , xK ) + ε
= x1 β1 + x2 β2 + . . . + xK βK + ε (5.1)
donde y es la variable dependiente o explicada, el conjunto de variables
85
dado por x1 , x2 , ..., xK son las variables independientes o explicativas y de la
teorı́a tomamos la especificación descrita por f (x1 , x2 , . . . , xK ). Esta función
es comúnmente llamada la ecuación de regresión poblacional de y en x1 , x2 ,
..., xK . El término ε es una perturbación aleatoria o error de estimación.
Este error existe por varias razones, principalmente, porque no esperamos
capturar toda la influencia que existe o determina a una varaible económica
en un modelo simplista como el que generalmente se formula en el análisis
de regresión. Digamos, entonces, que existe un conjunto de información no
observable que permite la existencia del término de error. Por ejemplo, existe
una clara dificultad para obtener medidas razonables de cualidades como
habilidades o capcidades de aprendizaje de un conjunto de individuos a los
cuales, quizá, queremos medir su productividad. Por lo tanto, sólo podemos
medir el efecto de aquellas variables o información que es cuantificable. El
resto de la información la conoceremos como aquella que no es observable.
Ası́, el término de error existe a razón de dicha información.
Implı́citamente, estamos suponiendo que cada una de las observaciones en
una muestra dada por {yi , xi1 , xi2 , . . . , xiK }, para i = 1, . . . , n, fue generada
por un proceso subyacente descrito por:
yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi (5.2)
Es decir, el valor observado de yi es igual a la suma de dos partes: una

parte determinı́stica, xi1 β1 +xi2 β2 +. . .+xiK βK , y una parte aleatoria, εi . Di-
cho esto, el objetivo del análisis de regresión radica en estimar los parámetros
desconocidos del modelo (β1 , β2 , . . ., βK ), validar la proposiciones teóricas
usando los datos disponibles y predecir el valor de la variable yi mediante el
uso del modelo estimado.
Sea Xk el vector columna de n observaciones de la variable xk , donde
k = 1, . . . , K, y que colocado en una matriz da por resultado un arreglo X
de tamaño n × K. Es decir, cada una de las columnas de la siguiente matriz
representa todas las observaciones de cada una de las variables:
 
x11 x12 . . . x1K

 x21 x22 . . . x2K 

x31 x32 . . . x3K

X1 X2 . . . XK = (5.3)
 

 .. .. .. 
 . . ... . 
xn1 xn2 . . . xnK
86
En la mayorı́a de las veces vamos a asumir que existe una columna com-
puesta del número 1 (uno) en todas sus entradas, tal que, el paramétro β1 es
un término constante en el modelo. De esta forma la matriz anteriormente
mostrada se puede ver como:
 
1 x12 . . . x1K
 1 x22 . . . x2K 
  1 x32 . . . x3K 

1 X 2 . . . XK =   (5.4)
 .. .. .. 
 . . ... . 
1 xn2 . . . xnK
Adicionalmente, denotaremos a Y como un vector columna de n observa-
ciones (y1 , y2 , . . ., yn , en forma de columna), y a ε como el vector columna de
n perturbaciones (ε1 , ε2 , . . ., εn , en forma de columna). El modelo descrito
en la ecuación (1) se puede escribir en su forma general como:
Y = X1 β1 + X2 β2 + . . . + XK βK + ε (5.5)
Ecuación que podemos rescribir como:

 
β1
 β2 
Y= X1 X 2 . . . X K  + ε = Xβ + ε (5.6)
 
 ..
 . 
βK
Adicionalmente, de ahora en delante diremos que la regresión lineal dada
por yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi , se podrá escribir como:
yi = (xi1 , xi2 , . . . , xiK )(β1 , β2 , . . . , βK )0 + ε = X0i β + εi (5.7)

Ası́, los parámetros desconocidos, β, de la relación estocástica dada por
yi = X0i β + εi son el objeto de la estimación. En este sentido distingamos
que β y εi son, respectivamente, el conjumto de los parámetros y el término
de error de la población, y que, por lo tanto, denotaremos a las estimaciones
relsultantes de una muestra como β̂ y ei . Es decir, siempre que no poda-
mos adquirir o conocer la iformación de todos los elementos de la población,
nuestras aproximaciones muestrales se denotarán de forma distinta a las que
refieran a la población.
87
Ası́, los principios de regresión poblacional y regresión muestral están
dados por las fórmulas E[yi |Xi ] = X0i β y ŷi = X0i β̂, respectivamente. Donde
ŷi es el estimador de E[yi |Xi ].
Por su parte, el término de error asociado será:
εi = yi − X0i β (5.8)
si hablamos del caso poblacional o,
ei = yi − X0i β̂ (5.9)
cuando hagamos referencia al caso muestral. Es decir, nuestro estimador
de εi es ei . De lo dicho hasta ahora podemos escribir:
yi = X0i β + εi = X0i β̂ + ei (5.10)

Intuitivamente, la ecuación (36) significa que siempre que poseamos una
muestra de los elementos de la población, podremos explicar una parte de la
variable dependiente, no su totalidad. En este sentido, el análisis de regresión
consiste en un proceso de ajuste a la variable dependiente. Está es la idea
que da origen al R2 y otras medidas de bondad de ajuste, mismas que más
adelante en el curso analizaremos.
Regresando a la discusión central de esta sección, el método de MCO,
en consecuencia, resulta en encontrar la combinación de parámetros β̂ que
permita minimizar la suma de los residuales al cuadrado dada por:
n
X n
X
e2i = (yi − X0i β̂)2 (5.11)
i=1 i=1
donde β̂ denota el vector de estimadores β̂1 , . . ., β̂K . En términos matri-

ciales, dado que (e1 , e2 , . . . , en )0 (e1 , e2 , . . . , en ) = e0 e, el problema del método
de MCO consiste en:
M inimizarβ̂ S(β̂) = M inimizarβ̂ e0 e (5.12)
= M inimizarβ̂ (Y − Xβ̂)0 (Y − Xβ̂) (5.13)

Expandiendo la expresión e0 e obtenemos:
0
e0 e = Y0 Y − 2Y0 Xβ̂ + β̂ X0 Xβ̂ (5.14)
88
De esta forma obtenemos que las condiciones necesarias de un mı́nimo
son:
∂S(β̂)
= −2X0 Y + 2X0 Xβ̂ = 0 (5.15)
∂ β̂
De ecuación anterior obtenemos para la solución del problema del mı́nimo

a las ecuaciones siguientes conocidas como ecuaciones normales dadas por:
X0 Xβ̂ = X0 Y (5.16)
Notemos que dichas ecuaciones normales son en realidad un sistema de

ecuaciones de K variables o incógnitas. Por un lado, recordemos que X es
una matriz de dimensión n × K, con lo cual X0 es de dimensión K × n. Ası́,
el producto X0 X dará como resultado una matriz cuadrada de dimensión
K × K. Por otro lado, sabemos que Y es un vector de tamaño n × 1, con
lo cual el producto X0 Y da como resultado un vector de dimención K × 1.
En conclusión, el sistema de ecuaciones normales consiste en K ecuaciones
con K incógnitas (β̂1 , . . . , β̂K ). Ante este hecho, existen múltiples formas
mediante las cuales se puede solucionar dicho sistema, sin embargo en nuesto
caso seguiremos el siguiente procedimiento.
Si la inversa de la matriz X0 X existe (recuerde que el procedimiento de
MCO tradicional supone que X es de rango completo), la solución esta dada
por la siguiente expresión:
β̂ = (X0 X)−1 X0 Y (5.17)
Esta expresión, a pesar de ser en apariencia compleja se puede ver como

un conjunto de sumas. En general hemos supuesto que nuestra regresión a
estimar esta descrita por la eccuación: yi = xi1 β1 + xi2 β2 + . . . + xiK βK + εi ,
de esta forma tenemos K variables independientes es nuestra regresión.
Ahora bien, si denotamos a Xk como el vector columna formado por todas
las observaciones de la muestra (i = 1, 2, . . . , n) para la variable k, podemos
decir que la matriz X que contiene todas las variable independientes se forma
por la concatenación de cada uno de los K vectores columna. Dicho esto,
podemos ver que las matrices X y X0 se pueden expresar como:
89
 
x11 x12 x13 . . . x1K
 x21 x22 x23 . . . x2K 
X=  = X1 X2 X 3 . . . X K
 
.. .. .. .. ..
 . . . . . 
xn1 xn2 xn3 . . . xnK
   
x11 x21 x31 . . . xn1 X01
 x12
 x22 x32 . . . xn2  
  X02 

0
X =  x13
 x23 x33 . . . xn3 =
  X03 

 .. .. .. .. ..   .. 
 . . . . .   . 
x1K x2K x3K . . . xnK X0K
Si suponemos que nuestra regresión tiene una constante, la especificación

serı́a: yi = β1 + xi2 β2 + . . . + xiK βK + εi , con unas matrices X y X0 dadas:
 
1 x12 x13 . . . x1K
 1 x22 x23 . . . x2K 
X =  .. .. ..  = 1n X2 X3 . . . XK
 
.. ..
 . . . . . 
1 xn2 xn3 . . . xnK
   
1 1 1 ... 1 1n 0
 x12 x22 x32 . . . xn2   X0 
   2 
  0 
X0 =  x13 x23 x33 . . . xn3  =  X3 

 .. .. .. .. ..   .. 
 . . . . .   . 
x1K x2K x3K . . . xnK X0K
Donde 1n es un vector columna compuesto de 1’s (unos). Retomando (14),

desarrollemos cada uno de los casos anteriores, ası́ obtenemos lo siguiente
para el caso general:
 
X01
 X0 
 2 
 0 
X0 X =  X3  X1 X 2 X3 . . . XK

 .. 
 . 
X0K
90
 
X01 X1 X01 X2 X01 X3 . . . X01 XK

 X02 X1 X02 X2 X02 X3 . . . X02 XK 

 .. .. .. .. .. 
 . . . . . 
X0K X1 X0K X2 X0K X3 0
. . . XK XK
Por lo tanto, obtenemos que:
Pn 2 Pn Pn
. . . Pni=1 xi1 xiK
 P 
Pn i=1 xi1 i=1 xi1 xi2
n
i=1 xi1 xi3
n
2
. . . Pni=1 xi2 xiK
P P
Pni=1 xi2 xi1 Pn i=1 xi2 i=1 xi2 xi3
 
 n n

2
P
0 x x x x
XX= i=1 xi3 ... i=1 xi3 xiK
 
i=1 i3 i1 i=1 i3 i2 
 .. .. .. .. .. 
Pn . Pn . Pn . . Pn . 2
 
i=1 xiK xi1 i=1 xiK xi2 i=1 xiK xi3 ... i=1 xiK
Por otro lado, cuando supongamos que existe un término constante:
Pn Pn
. . . P ni=1 xiK
 P 
n i=1 x i2 Pn i=1 xi3
 Pn xi2 Pn 2
. . . Pni=1 xi2 xiK
Pn i=1 xi2 i=1 xi2 xi3

 Pni=1 n n

2
P
0
XX= i=1 xi3 i=1 xi3 xi2 i=1 xi3 ... i=1 xi3 xiK
 

 .. .. .. .. .. 
Pn . Pn . Pn . . Pn . 2
 
i=1 xiK i=1 xiK xi2 i=1 xiK xi3 ... i=1 xiK
Adicionalmente, el producto X0 Y, en el caso general, se puede expresar

como:
     Pn 
X01 X01 Y i=1 x i1 y i
 X0   X0 Y   Pn xi2 yi 
 2   2   Pi=1 n

 0   0
X0 Y =  X3  Y =  X3 Y  =  x y
  i3 i

i=1 
 ..   ..   .. 
 .   .   . 
0 0
Pn
XK XK Y i=1 xiK yi
91
Si el modelo supone la existencia de un término constante, dicho producto
se expresa como:
     Pn 
1n 0 1n 0 Y i=1 y i
 X0   X0 Y   Pn xi2 yi 
 2   2   Pi=1 n

0  X0   X0 Y   x y
X Y =  3 Y =  3  =  i3 i

i=1 
 ..   ..   .. 
 .   .   . 
0 0
Pn
XK XK Y i=1 xiK yi
Finalmente, para que esta solución dada para el procedimiento de MCO

sea un mı́nimo debemos buscar las condiciones de segundo orden:
∂ 2 S(β̂)
= 2X0 X (5.18)
∂ β̂∂ βˆ0
donde la matriz X0 X debe ser positiva definida para que la solución de

MCO sea un mı́nimo. Sea q = c0 X0 Xc para algún vector c distinto de cero.
Entonces:
n
X
0
q=vv= vi2 , donde v = Xc
i=1
Ası́, q es positivo. Si v fuera cero, entonces existe una combinación lineal

de las columnas de X que da como resultado cero, lo cual contradice el
supuesto de que X es de rango completo. En todos los casos, si X es de
rango completo, entonces la solución del método de MCO, β̂, es la única que
mı́nimiza la suma de los residuales al cuadrado.
Finalmente, no debemos perder de vista que lo aqui espresado tiene un
objeto, mostrar como este procedimiento de MCO es valido cuando supone-
mos regresiones del tipo:
yt = β0 + yt−1 β1 + . . . + yt−τ βτ + εt (5.19)

Donde t = 0, 1, 2, . . . , T es un ı́ndice del tiempo, la variable dependiente
es yt y las variables independientes son la misma variable independiente,
pero en forma rezagada. Ası́, podemos definir un vector columna Yt−k el
vector columna de T observaciones de la variable dependiente rezagada k
92
veces, donde k = 1, . . . , τ , y que colocado en una matriz da por resultado un
arreglo X de tamaño T − τ × τ + 1.
5.2. Estimación por el método de Máxima

Verosimilitud (MV)
Ahora analicemos otro método de estimación que tiene más uso en se-
ries de tiempo: MV. Iniciemos con algo de notación. La función de densidad
de probabilidad de una variable aleatoria y, condicional en un conjunto de
parámetros, θ, la denotaremos como f (y|θ). Dicha función identifica el me-
canismo generador de datos subyacente a la muestra observable y al mismo
tiempo prove una descripción matemática de los datos que el proceso gene-
rará.
Por otro lado, la función de densidad conjunta de n observaciones in-
dependientes e idénticamente distribuidas (i.i.d) está dada por el siguiente
producto de las funciones de densidad individuales:
n
Y
f (y1 , y2 , . . . , yn |θ) = f (yi |θ) = L(θ|y) (5.20)
i=1
A esta función de densidad conjunta se le conoce como Función de

Verosimilitud, la cual se define como una función del vector de parámetros,
θ, donde y indica la familia de observaciones en la muestra de datos. Notemos
que la función de densidad conjunta la hemos escrito como una función de los
datos observados condicional en los parámetros a estimar. Sin embargo, por
otro lado también hemos dicho que la función de verosimilitud, aquella que es
ı́dentica a la función de densidad conjunta, es una función de los parámetros
condicional en los datos observados. Aunque ambas funciones son la misma
cabe hace enfası́s de que en la segunda buscamos aquellos parámetros que
máximizan la función de verosimilitud condicional en los datos observados.
Ahora bien, el procedimiento de máxima verosimilitud, por simplicidad,
se estima aplicando la función logarı́tmo natural a L(θ|y). Derivado de que
la función logarı́tmo natural es monótona, ésta preserva el orden y con ello
el valorque máximiza a la función. De esta forma escribiremos que la función
será: n n
Y X
ln(L(θ|y)) = ln( f (yi |θ)) = ln(f (yi |θ)) (5.21)
i=1 i=1
93
Ası́, por simplicidad diremos que denotaremos a el logarı́tmo de la función
de densidad conjunta como:
ln(L(θ|y)) = l(θ|y) (5.22)
Dicho lo anterior, el objetivo de esta sección es mostrar el procedimiento

de estimación de Máxima Verosimilitud aplicado a una regresión lineal. Re-
tomemos la idea de que en nuestra ecuación de regresión lineal: yi = X0i β + εi
para i = 1, . . . , n, el término de error εi se distribuye como una normal con
media cero y varianza constante, σ 2 :
εi ∼ N(0, σ 2 )
Asimismo, en genral hemos dicho que, visto como vector, el término de

error tiene una distribución de la forma:
ε ∼ N(0, σ 2 In )
Obsérvese que la forma de la varianza del término de error: V ar[ε|X] =

σ 2 In , implica que la distribución de cada una de las εi es independiente, de
tel forma que la función de densidad esta dada por:
2
1 1 (εi −0)
f (εi |θ) = √ e− 2 σ2
2πσ 2
Sustituyendo la definición del término de error obetenemos la siguiente

expresión:
1 (X0 β−y )2
− 12 i 2 i
f (εi |θ) = √ e σ (5.23)
2πσ 2
Donde el vector θ se compone de el vector β y σ 2 .

Por lo tanto, la función de verosimilitud asociada a este caso está dada
por la siguiente expresión:
n n 0 2
Y Y 1 1 (Xi β−yi )
L(θ|ε) = f (εi |θ) = √ e− 2 σ2 (5.24)
i=1 i=1 2πσ 2
94
Esta última ecuación, en su forma logarı́tmica, se puede expresar como:
n
X √ 1 (yi − X0i β)2

l(θ|ε) = ln(1) − ln( 2πσ ) −2
i=1
2 σ2
n
1 (yi − X0i β)2

X 1 2
= − ln(2πσ ) −
i=1
2 2 σ2
n
(yi − X0i β)2

1X 2
= − ln(2πσ ) +
2 i=1 σ2
" n n #
0 2
1 X X (y i − X i β)
ln(2πσ 2 ) +

= − 2
2 i=1 i=1
σ
" n
#
1 1 X
= − n × ln(2πσ 2 ) + 2 (yi − X0i β)2

2 σ i=1
n 1 0
= − ln(2πσ 2 ) − εε
2 2σ 2
n 1
= − ln(2πσ 2 ) − (Y − Xβ)0 (Y − Xβ)
2 2σ 2
n 1
= − ln(2πσ 2 ) − (Y0 Y − 2Y0 Xβ + β 0 X0 Xβ) (5.25)
2 2σ 2
Establecida la función de verosimilitud, el siguiente paso consisten en la
estimación de los parámetros. Para tal efecto debemos determinar las condi-
ciones de primer orden, quedando de la siguiente forma:
∂l(θ|ε)
= −2X0 Y + 2X0 Xβ̂ = 0 (5.26)
∂ β̂
∂l(θ|ε) n 1
2
=− 2 + 2 2
(Y − Xβ̂)0 (Y − Xβ̂) = 0 (5.27)
∂ σ̂ 2σ 2(σ )
De las dos ecuaciones anteriores podemos deducir las fórmulas de nuestros
estimadores de Máxima Verosimilitud:
β̂ = (X0 X)−1 X0 Y (5.28)
e0 e
σ̂ 2 = (5.29)
n
95
El procedimiento de de máxima verosimilitud es el más atractivo de los
demás procedimientos de estimación, ya que sus propiedades ası́ntoticas son
que:
Un estimador es ası́ntoticamente eficiente si éste es consistente, ası́nto-
ticamente distribuido de forma normal y posee una matriz de varianza y
covarianza que no es más grande que la matrix de varianzas y covarianzas
asociadas a cualquier otro estimador.
Si se asume que la función de densidad conjunta cumple con las condiones
de regularidad (que la primer derivada del logarı́tmo de la función de verosi-
militud es continua en todo punto, y que las condiciones de primer órden y
segundo órden son conocidas), podemos enunciar el suiguente:
Teorema. Propiedades de un Estimador de Máxima Verosimili-
tud. Bajo condiciones de regularidad, el estimador de máxima verosimilitud
posee las siguientes propiedades ası́ntoticas:
1. Consistencia: plimθ̂ = θ 0
2. Normalidad ası́ntotica: θ̂ ∼ N [θ 0 , I(θ 0 )−1 ], donde
I(θ 0 ) = −E0 [∂ 2 ln(L)/∂θ 0 ∂θ 00 ]
3. Eficiencia ası́ntotica: θ̂ es ası́ntoticamente eficiente y alcanza la cota

inferior de Cramér-Rao.
4. Invarianza. El estimador de máxima verosimilitud de γ 0 = c(θ 0 ) es

c(θ̂) si c(θ 0 ) es una función continúa y diferenciable.
5.3. Métricas de bondad de ajuste

El criterio que dio origen a los estimadores de MCO consiste en el valor
mı́nimo para la suma del cuadrado de todos los residuales. Esta suma es,
por otro lado, una medida de ajuste de la lı́nea de regresión a los datos.
Sin embargo, esta medida puede ser facilmente alterada y, por lo tanto, res-
calada por una simple multiplicación de los residuales por cualquier valor.
Recordemos que el valor de los residuales esta basado en los valores de X,
ası́ podrı́amos pregntarnos por cuanto de la variación de Y es explicada por
la varación de X.
96
De la Figura 1 podemos afirmar que la variación total de la variable
dependiente Y se puede descomponer en dos partes, es decir, la variación
total de Y se puede expresar como la suma dada por:
n
X
SST = (yi − ȳ)2
i=1
Dada la deficnición de regresión tenemos que Y = Xβ̂ + e = Ŷ + e. Es

decir, yi = ŷi + ei = Xi β̂ + ei . De donde podemos inferir que:
yi − ȳ = ŷi − ȳ + ei = (Xi − X̄i )β̂ + ei

Se definimos M0 como una matriz saca promedios (con las propiedad de
ser idempotente y simetrica) y definida como:
   
1 0 0 ... 0 1 1 1 ... 1
 0 1 0 ... 0   1 1 1 ... 1 
M0 =  .. .. .. .. ..  −  .. .. .. .. .. 
   
 . . . . .   . . . . . 
0 0 0 ... 1 1 1 1 ... 1
 
1
 1 
= In −  ..  1 1 1 . . . 1 = In − i0 i
 
 . 
1
De tal forma que para cualquier vector o matriz, W, sucede que: M0 W =
W − W̄, por ello le llammos matriz saca promedios. Regresando a nuestra
discusión, podemos escribir que:
Y − Ȳ = M0 Y = M0 Xβ̂ + M0 e
Recordemos que si M0 extrae los promedios, estonces M0 e = e. Ası́
podemos verificar que el producto Y0 M0 M0 Y es igual a:
n
X
0
SST = (Y − Ȳ) (Y − Ȳ) = (yi − ȳ)2 = Y0 M0 Y
i=1
Y0 M0 Y = Y0 (M0 Xβ̂ + M0 e) = (Xβ̂ + e)0 (M0 Xβ̂ + M0 e)

0
= (β̂ X0 + e0 )(M0 Xβ̂ + M0 e)
97
0 0
= β̂ X0 M0 Xβ̂ + β̂ X0 M0 e + e0 M0 Xβ̂ + e0 M0 e
Finlamente, como recordaran de clases pasadas, dijimosPn que sólo cuando
nuestra regresión inclui constante la P
suma de residuales i=1 ei = 0. De esta
forma, el promedio de residuales ( ni=1 ei )/n = 0. Es decir, que nuestra
matriz saca promedio multiplicada por el vector de residuales es igual a
M0 e = e − ē = e. Ası́:
0 0
Y0 M0 Y = β̂ X0 M0 Xβ̂ + β̂ X0 e + e0 Xβ̂ + e0 e
Por otro lado, sabemos que la solución por el método de MCO garantiza
que el producto de X0 e = e0 X = 0.
0
SST = Y0 M0 Y = β̂ X0 M0 Xβ̂ + e0 e
SST = SSR + SSE
O en palabras, la variavilidad total de Y se puede descomponer en dos:
la variavilidad originada por la regresión y la variavilidad que no puede ser
explicada, es decir, la del término de error.
Dicho esto, porponemos el siguiente coeficiente de bondad de ajuste a los
datos, el cual suele concerse como R2 :
SSR SST − SSE SSE

R2 = = =1−
SST SST SST
En fórmula:
e0 e
R2 = 1 −
Y0 M0 Y
Por último el R2 ajustado solo es:
e0 e/(n − K)
R2 = 1 −
Y0 M0 Y/(n − 1)
5.4. Pruebas de Hipótesis

El Análisis de Regresión se suele usar con mucha frecuencia para los
siguientes propósitos: la estimación y predicción, y para probar algún tipo
de hipótesis. La estimación y predicción se analizará con mayor detalle al
98
final de esta clase y el sesiones futuras. Por lo que respecta a las pruebas de
hipótesis estableceremos los siguiente.
Recordemos que nuestro modelo general de regresión está dado por la
siguiente expresión:
Y = Xβ + ε
Ahora consideremos un ejemplo, supongamos que desea plantear una re-
gresión del tipo logarı́tmica con el objeto de determinar la demanda de ta-
baco. Ası́, establece la siguiente relación:
ln(QT abaco ) = β0 + β1 ln(PT abaco ) + β2 ln(PAlcohol ) + β3 ln(Ingreso) + ε
Donde QT abaco es la cantidad de tabaco demandada, y PT abaco y PAlcohol

son el precio del tabaco y del aocohol, respectivamente. Suponga, adicio-
nalmente, que sospecha que el tabaco y el alcohol guardan una relación de
complementariedad, por lo que espera que los paramétros asociados a las
variables de precios de ambos tengan el mismo signo (-). Asimismo, suponga
que estas variables son las únicas relevantes para este caso y el resto de la
información es no observable o no medible.
Supongamos, quizá de forma absurda, que el tabaco y el alcohol exhiben
una elásticidad unitaria, por lo que decide plantear la siguiente hipótesis:
H0 : β1 = 1 y β2 = 1
H1 : N o H0
La hipótesis nula es equivalente a escribir el siguiente sistema de ecuacio-
nes:
0β0 + 1β1 + 0β2 + 0β3 = 1

0β0 + 0β1 + 1β2 + 0β3 = 1
El cual podemos escribir como:

β 0
0 1 0 0  β1  = 1

0 1 0 0  β2  1
β3
99
En forma reducida:
Rβ = q
Con lo cual la hipótesis original se puede escribir como:
H0 : Rβ = q
H1 : Rβ 6= q
Observemos que podemos afirmar que la hipótesis tiene dos restricciones.
Regresando a nuestro caso general:
Y = Xβ + ε
Por analogı́a podrı́amos escribir un conjunto de “J” restricciones como:
r10 β0 + r11 β1 + . . . + r1K βK = q1

r20 β0 + r21 β1 + . . . + r2K βK = q2
..
.
rJ0 β0 + rJ1 β1 + . . . + rJK βK = qJ
Sistema que se puede escribir en forma matricial como:
    
r10 r11 . . . r1K β0 q1
 r20 r21 . . . r2K   β1   q2 
..   ..  =  .. 
    
 .. ..
 . . ... .  .   . 
rJ0 rJ1 . . . rJK β3 qJ
De esta forma podemos, finalmente, escribir una hipótesis general:
H0 : Rβ = q
H1 : N o H0
Dicho lol anterior, el restante argumento versa sobre cómo hacer uso de
estas restricciones conjuntas.
100
5.4.1. Prueba F
Cuando deseamos evaluar una hipótesis con más de una restricción se
debe ocupar la prueba F. La cual se puede escribir como:
(Rβ − q)0 [s2 R(X0 X)−1 R0 ](Rβ − q)

F[J,n−K] =
J
Esta estadı́stica se distribuye como una F de Fisher con J y n − K grados
de libertad.
5.4.2. Prueba t
Cuando deseamos evaluar una hipótesis con solo una restricción se debe
ocupar la prueba t. La cual se puede escribir como:
t[n−K,α/2] = (Rβ − q)0 [s2 R(X0 X)−1 R0 ](Rβ − q)

Esta estadı́stica se distribuye como una t con n − K grados de libertad.
101
102
Capı́tulo 6
Bibliografı́a
Cowpertwait, P. y Metcalfe, A. (2009). Introductory Time Series with

R. Spinger.
Guerrero Guzmán, Victor (2014). Análisis Estadı́stico y Pronóstico de

Series de Tiempo Económicas. Jit Press. 3ra Edición. (Las ediciones
1 y 2 del libro fueron publicadas con el tı́tulo: Análisis Estadı́stico de
Series de Tiempo Económicas).
Enders, Walter (2015). Applied Econometric Time Series. 4ta Edición.

Wiley.
Kirchgassner, G., Wolters, J., y Hassler, U. (2012). Introduction to Mo-

dern Time Series Analysis. 2nd Edition. Spinger.
Tsay, Ruey (2014). Multivariate Time Series Analysis with R and Fi-
nancial Applications. Wiley.
Wei, William (2019). Multivariate Time Series Analysis and Applica-

tions. Wiley Series in Probability ans Statistics.
103

Oliva Vazquez B Seriesdetiempo

Cargado por

Copyright:

Formatos disponibles

Oliva Vazquez B Seriesdetiempo

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Oliva Vazquez B Seriesdetiempo

Cargado por

Copyright:

Formatos disponibles

Análisis de Series de Tiempo

Benjamı́n Oliva (benjov@ciencias.unam.mx)

1. Temario o guı́a para examen extraordina-

a) La naturaleza de los datos de series de tiempo

2. Elementos de Ecuaciones en Diferencia

a) Ecuaciones en diferencia homogéneas de primer órden y sus solu-

3. Procesos Estacionarios Univariados

a) Procesos Autoregresivos AR(p)

4. Modelos univariados de volatilidad

a) Modelos ARCH y GARCH

a) Definición y Formas de No Estacionariedad

6. Procesos de Vectores Autoregresivos

a) Definición y caracterización del concepto de causalidad

a) Definición y Propiedades del Proceso de Cointegración

9. Otros modelos no lineales (con rompimientos y modelos de cambio de

Guerrero Guzmán, Victor (2014). Análisis Estadı́stico y Pronóstico de

Enders, Walter (2015). Applied Econometric Time Series. 4ta Edición.

Wei, William (2019). Multivariate Time Series Analysis and Applica-

3. Estructura del Examen y Evaluación

Benjamı́n Oliva (benjov@ciencias.unam.mx)

Draft Agosto 2018

2. Introducción al análisis de series de tiempo 7

3. Elementos de Ecuaciones en Diferencia 15

4. Modelos de Series de Tiempo Estacionarias 37

Estas notas son un resumen, una sı́ntesis comparativa y, en algunos casos,

1. Modelos univaraidos: AR(p), MA(q), ARMA(p, q) y ARIMA(p, d, q);

2. Pruebas de raı́z unitaria;

3. Modelos multivariados: Vectores Autoregresivos (VAR) y Cointegra-

4. Modelación de errores estándar con heterocedasticidad y autocorrela-

2.1. La naturaleza de los datos de series de

2.2. Ejemplos y aplicaciones de las series de

Por el contrario, el IGAE de las actividades primarias muestra una pre-

economı́a: temporadas navideñas, pagos de colegiaturas, etc. Este sengundo

rentable, ya que una inversión en la BMV mediante el IPC, en el largo plazo,

3.1. Ecuaciones en Diferencia para procesos

1. ¿Cuál es la solución de la ecuación en diferencia que se estudia?

2. ¿Cuáles son las condiciones para que un proceso estocástico, represen-

El término de ecuación en diferencia sirve para denominar un proceso

3.1.1. Ecuaciones Lineales de Primer Orden

Ahora denotemos a LZt = Zt−1 , es decir, mediante el operador L se puede

Lp (αZt + β) = αZt−p + β (3.7)

Dicho lo anterio podemos escribir la solución general de (3.5) como:

(1 − a1 L)sat1 = sat1 − a1 sLat1

La ecuación (3.8) se suele interpretar como la solución de largo plazo.

De lo anterior se puede inferir que el método iterativo convergerá hacia

Zt , Zt−1 , Zt−2 , Zt−3 , . . . , Zt−p , . . . (3.10)

Por lo tanto, St estarı́a dado por la siguiente expresión:

Tomando los dos resultados de las ecuaciones (3.11) y (3.12) anteriores,

St−1 − a1 St−1 = St−1 − St

Ası́, podemos concluir que:

De esta forma la ecuación (3.14) es una solición para la ecuación (3.9),

Retomemos ahora el caso general descrito en la ecuación (3.8) y deter-

Siguiendo la expresión mostrada en la ecuación (3.19), obtenemos la ex-

Siguiendo la expresión mostrada en la ecuación (3.19), obtenemos:

Donde asumiremos que el valor inicial es Z0 = 10 y que la ecuación

3.1.2. Ecuaciones Lineales de Segundo Orden y de or-

Zt = a0 + a1 Zt−1 + a2 Zt−2 (3.24)

Cuadro 3.1: Dos ejemplos de procesos de Ecuaciones Lineales de Primer Or-