9 Unidad6 PDF
9 Unidad6 PDF
9 Unidad6 PDF
ESQUEMA CONCEPTUAL
VARIABLES DICOTOMICAS
COMPETENCIAS A LOGRAR
CONCEPTOS –CLAVE
289
LECCIÓN 1
1. VARIABLES DICOTÓMICAS
Yi = α + β D i + μ i
Donde:
Di = 1 Si es hombre
0 (Si no es hombre). Si es mujer
Bajo la hipótesis de que las perturbaciones satisfacen los supuestos del modelo se
obtiene:
290
Salario si es mujer: Ε[Yi D i = 0] = α
Salario si el empleado es hombre: Ε [Y i D i = 1 ] = α + β
291
LECCIÓN 2
Yi = α1 + α 2 D i + β1X i + β 2 D i X i + μ i (1)
Donde:
1 si es hombre
Di =
0 si es mujer
De (1):
E ⎡Yi ⎤ = α + βX
⎢⎣ X i , Di = 0⎥⎦ 1 i
E ⎡Yi ⎤ = (α + α ) + βX
⎢⎣ X i , Di = 1⎥⎦ 1 2 i
292
1. REGRESIÓN DE UNA VARIABLE CUANTITATIVA Y UNA
CUALITATIVA CON DOS CLASES O CATEGORÍAS
C t = α 0 + α 1 D t + α 2 Yt + μ t
Donde:
C t = Consumo
Yt = Ingreso
1 recesión
Dt = Condición 0 normalidad
Hipótesis
CASO 1
C t = α 0 + α 2 Yt + μ t
C t = α 0 + α 1 D t + α 2 Yt + μ t
( )
Ε(C t D t = 1) = α 0 + α 1 + α 2 Yt
En época de normalidad
Ε(C t D t = 0 ) = α 0 + α 2 Yt
293
Es decir, para una correcta interpretación es indispensable saber como se asignaron “0”
y “1”.
El grupo al que se le asigna valor cero “0”, recibe el nombre de categoría base, de
comparación omitida, en el sentido que todas las comparaciones se hacen con respecto a
esa categoría.
C t = α 0 + α 2 Yt + α 3 (D t Yt ) + μ t
Ε (C t D t = 1) = α 0 + (α 2 + α 3 )Yt
Época de normalidad
Ε (C t D t = 0 ) = α 0 + α 2 Yt
En este caso se supone que los consumos promedios no varían para cualquier realidad,
sino más bien se dan variaciones en la Tasa de Cambio del Consumo al variar el
Ingreso.
C t = α 0 + α 1 D t + α 2 Yt + α 3 (D t Yt ) + μ t
Ε (C t D t = 1) = (α 0 + α 1 ) + (α 2 + α 3 )Yt
En época de normalidad:
Ε (C t D t = 0 ) = α 0 + α 2 Yt
294
(α 0 + α 1 )〈α 0
(α 2 + α 3 )Yt 〈α 2 Yt
Para efectos de predicción se elegirá el que presente mayor R2 ajustado porque da una
mayor bondad de ajuste, no sin antes de realizar las pruebas “t” para cada variable
dummy (α 1 D t ) y (α 3 D t ) a fin de verificar si la situación de recesión o de normalidad
influye en el consumo.
a. Cuando una variable tiene dos categorías, se debe introducir una sola variable
dicótoma a fin de evitar la multicolinealidad. Por ejemplo:
Yi = α 0 + α 1 D i + α 2 X i + μ i
Sea el estudio del ingreso en función del sexo y color de la persona y de sus años de
experiencia:
El Ingreso del profesor (Yi) en función de sus años de experiencia (Xi) y si es hombre
o mujer (D1i), o si es blanco o negro (D2i), con lo cual el modelo será:
Y = α 0 + α1D1i + α 2 D 2 i + α 3 X i + μ i , siendo:
c. Del mismo modo en el caso de existir “n” variables cualitativas, deben existir “n”
variables dummy; siempre y cuando cada variable cualitativa tuviese 2 categorías.
d. Cuando no se utiliza intercepto para cada variable habría que utilizar variables
dummy, como categorías hubiere en el modelo.
295
Ejercicio Ilustrativo 1:
Se tiene un modelo con una variable cuantitativa y una variable cualitativa con más de 2
categorías:
Y = α 0 + α 1 D 1i + α 2 D 2i + β1 X i + β 2 D 3i X i + μ i
Donde:
1 Nivel Superior
D 2 0 No tiene nivel superior
1 Nivel Superior
D 3 0 No tiene nivel superior
Interpretación:
296
βˆ 2 = 0.1 , los que tienen nivel de instrucción superior por cada aumento de S/.1.00 en el
Ingreso, la propensión marginal a gastar en educación se incrementa en 0.1.
Ejercicio Ilustrativo 2 1
Una empresa utiliza dos tipos de procesos productivos (máquina A y máquina B) para
obtener su producto final.
Yi = producto
⎧β si D i = 0
E(Yi ) = ⎨ 1
⎩(β1 + β 2 ) si D i = 0
O también
E ( Yi / D i = 0) = β1
E ( Yi / D i = 1) = (β1 + β 2 )
Como la pendiente β 2 mide la diferencia del producto final asociado con el cambio de la
máquina B a la máquina A, la prueba de la hipótesis nula: β 2 = 0 nos mostrará si hay o
no diferencia en el producto asociado con la máquina A y B.
Ejercicio Ilustrativo 3:
El modelo es: Yi = β 1 + β 2 D i 2 + β 3 D i 3 + μ i
donde:
1
García Gonzalez, Victor. Econometría para la Planificación, 1991
297
Los valores esperados son:
E ( Yi / D 2 = 1; D 3 = 0) = β1 + β 2
E ( Yi / D 2 = 0; D 3 = 1) = β1 + β 3
E ( Yi / D 2 = 0; D 3 = 0) = β1
Yi = α 1 + α 2 D i 2 + α 3 ( D i 3 + D I 2 ) + μ i
298
LABORATORIO DE LAS VARIABLES FICTICIAS O DICOTÓMICAS
Ejercicio aplicativo 1:
Donde:
1º Forma (intercepto)
CPt = α 0 + α 1 D t + β1 PBI t + μ t
Dependent Variable: CP
Method: Least Squares
Date: 07/09/02 Time: 10:09
Sample: 1970 2001
Included observations: 32
Variable Coefficient Std. Error t-Statistic Prob.
C 8080.718 1686.849 4.790421 0.0000
D1 -1368.771 840.4809 -1.628557 0.1142
PBI 0.663491 0.017074 38.86049 0.0000
R-squared 0.981204 Mean dependent var 67568.47
Adjusted R-squared 0.979908 S.D. dependent var 11046.32
S.E. of regresión 1565.768 Akaike info criterion 17.63920
Sum squared resid 71097299 Schwarz criterion 17.77661
Log likelihood -279.2272 F-statistic 756.9578
Durbin-Watson stat 1.034595 Prob(F-statistic) 0.000000
2º Forma (pendiente)
CPt = α 0 + β1 PBI t + β 2 D t PBI t + μ t
299
Dependent Variable: CP
Method: Least Squares
Date: 07/09/02 Time: 10:17
Sample: 1970 2001
Included observations: 32
Variable Coefficient Std. Error t-Statistic Prob.
C 6700.907 1580.694 4.239220 0.0002
PBI 0.680595 0.020027 33.98387 0.0000
D1*PBI -0.017166 0.009474 -1.811858 0.0804
R-squared 0.981572 Mean dependent var 67568.47
Adjusted R-squared 0.980301 S.D. dependent var 11046.32
S.E. of regresión 1550.400 Akaike info criterion 17.61947
Sum squared resid 69708439 Schwarz criterion 17.75689
Log likelihood -278.9116 F-statistic 772.3282
Durbin-Watson stat 1.044042 Prob(F-statistic) 0.000000
Dependent Variable: CP
Method: Least Squares
Date: 07/09/02 Time: 10:21
Sample: 1970 2001
Included observations: 32
Variable Coefficient Std. Error t-Statistic Prob.
C -16794.63 10238.90 -1.640276 0.1121
D1 23992.37 10346.59 2.318867 0.0279
PBI 0.947738 0.116707 8.120687 0.0000
D1*PBI -0.289525 0.117785 -2.458077 0.0204
R-squared 0.984540 Mean dependent var 67568.47
Adjusted R-squared 0.982884 S.D. dependent var 11046.32
S.E. of regression 1445.167 Akaike info criterion 17.50631
Sum squared resid 58478233 Schwarz criterion 17.68952
Log likelihood -276.1009 F-statistic 594.3926
Durbin-Watson stat 1.184912 Prob(F-statistic) 0.000000
En este tercer caso, podemos observar que las variables D1 y D1*PBI se vuelven
significativas, bajo un nivel de confianza del 5%, es decir que el período de
hiperinflación si influyeron en el consumo privado.
300
Si observamos los R2 y el R2ajustado de todos los modelos (incluyendo el modelo inicial),
podemos concluir que en la última regresión: CPt = α 0 + α1D t + β1PBI t + β 2 D t PBI t + μ t ,
se obtuvo la mayor bondad de ajuste: 98.5% y 98.2% respectivamente. Entonces para
efectos de predicción se escogerá a este modelo.
Ejercicio aplicativo 2:
Se tiene los siguientes datos de utilidades y ventas de una compañía:
301
PERÍODO D1 D2 D3 PERÍODO D1 D2 D3
1993:1 0 0 0 1996:1 0 0 0
1993:2 1 0 0 1996:2 1 0 0
1993:3 0 1 0 1996:3 0 1 0
1993:4 0 0 1 1996:4 0 0 1
1994:1 0 0 0 1997:1 0 0 0
1994:2 1 0 0 1997:2 1 0 0
1994:3 0 1 0 1997:3 0 1 0
1994:4 0 0 1 1997:4 0 0 1
1995:1 0 0 0 1998:1 0 0 0
1995:2 1 0 0 1998:2 1 0 0
1995:3 0 1 0 1998:3 0 1 0
1995:4 0 0 1 1998:4 0 0 1
Donde:
Entonces primero se genera las variables D1, D2 y D3, luego regresionamos el modelo
obteniéndose
302
De las salidas de la regresión podemos observar que sólo las ventas y el intercepto son
significativos, ya que sus probabilidades asociadas son inferiores al 5%. Por lo tanto se
concluye que no hay ningún factor estacional operando.
Ejercicio aplicativo 3:
Coeficiente del Intercepto Diferencial: dice qué tanto difiere el valor del término de
intercepto de la categoría que recibe el valor de 1 del coeficiente de la categoría base
(valor 0). Se prueba si las diferencias son significativas.
Con información de la Encuesta de Hogares del año 1999 se corrió un modelo de los
años de estudios en función del área urbana y rural.
Los que están en el área urbana tienen 4.58 años más de estudios de los que habitan
en el área rural
Es suficiente una variable dicotómica para diferenciar dos categorías. Si una variable
cualitativa tiene m categorías, se crean m-1 variables dicotómicas
La interpretación sería los que están en la sierra tienen 0.5 menos años de estudios de
los que habitan en la selva. Los que están en la costa tienen 067 años de estudio más
que los que habitan en la selva. Los que están en Lima tienen 3.5 años de estudio
más que los habitantes de la selva.
303
Ejercicio de autoconocimiento
SI NO NO SÉ
CALIFICACION
304
RESUMEN
Las variables explicativas de naturaleza cualitativa tales como: educación, raza, sexo,
religión, etc.; son conocidas como variables dummy.
EXPLORACIÓN ON LINE
Demostración del método de ponderación de referenciales por medio del Análisis de
Regresión Logística Múltiple para el caso de variables dicotómicas.
http://www.monografias.com/trabajos5/ponde/ponde.shtml.
http: //www.medprev.uma.es/libro/node1o7.htm-5K
http: //www.fisterra.com/mbe/investiga/chi/chi.asp.
305
LECTURA:
Por ejemplo, manteniendo los demás factores constantes, se ha encontrado que las
trabajadoras ganan menos que sus colegas masculinos y que las personas de color ganan
menos que las blancas. Este patrón puede resultar de la discriminación sexual o racial,
pero cualquiera que sea la razón, las variables cualitativas tales como sexo y raza sí
influyen sobre la variable dependiente y es claro que deben ser incluidas dentro de las
explicativas o regresoras.
Puesto que tales variables usualmente indican la presencia o ausencia de una “cualidad”
o atributo, tal como femenino o masculino, negro o blanco, católico o no católico,
demócrata o republicano son variables de escala nominal esencialmente. Se podrán
“cuantificar” tales atributos mediante la elaboración de variables artificiales que
tomarán los valores 0 y 1, donde 1 indicará la presencia (o la posesión) d ese atributo y
0 la ausencia de tal atributo. Por ejemplo, el 1 puede indicar que una persona es de sexo
masculino y 0 puede designar una de sexo femenino; o el 1 puede indicar que una
persona se ha graduado en la universidad y o qu4e n lo ha hecho y así sucesivamente.
Las variables que adquieren tales valores 0 y 1 se llaman variable dicótomas. Tales
variables son por tanto, esencialmente un recurso para clasificar datos en categorías
mutuamente excluyentes, como masculino o femenino.
Las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan
fácil como las variables cuantitativas.
306
ACTIVIDADES
Y X1 X2
10 urbana 800
12 urbana 1300
8 urbana 900
12 urbana 1200
9 urbana 1600
6 urbana 1300
5 rural 900
4 rural 300
6 rural 700
4 rural 500
5 rural 600
5 rural 100
Siendo:
Y : Años de educación
X1 : Procedencia socio-geográfica
X2 : Renta
Yi = β 0 + β1 X 1 + +β 2 X 2 + β 3 X 3
Donde:
307
Año Yi X1 X2
3646.637 60.82
1980 181.40
3807.715 72.67
1981 184.94
3815.751 72.93
1982 198.96
3334.220 125.07
1983 170.71
3494.779 111.46
1984 157.21
3573.928 158.26
1985 144.81
3904.219 62.90
1986 180.75
4234.711 114.51
1987 189.55
3881.284 1722.32
1988 131.20
3428.614 2775.63
1989 82.90
3243.760 7649.64
1990 57.09
3334.495 139.23
1991 64.38
3287.198 56.73
1992 67.63
3497.230 39.48
1993 67.07
3954.738 15.38
1994 94.94
4233.069 10.23
1995 96.32
Se pide:
Modelo a:
Pi = β 0 + β1 A i + β 2 E i + β 3 D1i + β 4 D 2i + β 5 D 3i + μ i
Modelo b:
Pi = β1A i + β 2 E i + β3 D1i + β 4 D 2i + β5 D 3i + μ i
a. Responda qué modelo sería más apropiado, si la estimación se lleva a cabo por
MCO.
b. Interprete los coeficientes de las variables en el modelo b
c. ¿Se podría plantear un modelo alternativo?
308
4. Considere el siguiente modelo econométrico:
Yi = α 0 + α 1 D i + β 1 X 1 + β 2 X 2 + β 3 D i X 2
Donde:
Yi: Sueldos de Lima Metropolitana en nuevos soles reales, bimensual desde 93-96
X1: PBI bimensual a precios constantes con base en 1979
X2: Índice de precios al consumidor anual de Lima Metropolitana, base 1979
Di: Variable ficticia de cambio de pendiente debido al incremento del ritmo
inflacionario.
Se pide:
Año Yi X1 X2
Febrero 93 877.21 262.53 1145.82
Abril 93 914.52 290.02 1247.24
Junio 93 960.46 310.98 1308.41
Agosto 93 1084.43 288.26 1378.31
Octubre 93 1186.91 262.63 1421.78
Diciembre 93 1300.13 301.79 1480.87
Febrero 94 1407.03 287.53 1535.54
Abril l94 1513.04 332.65 1595.50
Junio 94 1556.66 356.85 1625.25
Agosto 94 1563.41 318.12 1664.85
Octubre 94 1591.61 307.12 1678.22
Diciembre 94 1685.42 333.66 1708.69
Febrero 95 1597.12 329.38 1734.53
Abril 95 1618.23 358.20 1775.65
Junio 95 1619.92 380.43 1804.95
Agosto 95 1675.94 341.56 1834.08
Octubre 95 1677.83 318.78 1850.63
Diciembre 95 1674.12 328.93 1883.46
Febrero 96 1777.16 342.18 1936.10
Abril 96 1778.25 363.04 1979.93
Junio 96 1781.18 398.96 2003.61
Agosto 96 1785.21 401.52 2049.92
Octubre 96 1790.10 405.28 2071.67
Diciembre 96 1795.25 408.35 2106.46
309
AUTOEVALUACIÓN
Y = β1 + β 2 T + β 3 E + β 4 F
Donde:
Dependent Variable: Y
Method: Least Squares
Date: 11/11/04 Time: 10:28
Sample: 1 100 Included observations: 100
Variable Coefficient Std. Error t-Statistic Prob.
T 0.05002 0.037261 0.13562 0.1321
E -2.40971 0.053112 -4.52226 0.0210
F 1.91120 0.612219 3.114754 0.0000
C 2.31987 0.991251 1.010578 0.1966
R-squared 0.639630 Mean dependent var 443.14
Adjusted R-squared 0.645999 S.D. dependent var 315.68
S.E. of regression 522.62 Akaike info criterion 2.22915
Sum squared resid 261.63 Schwarz criterion 2.26287
Log likelihood -130.288 F-statistic 11.0525
Durbin-Watson stat 2.141804 Prob(F-statistic) 0.00000
310
Dependent Variable: GTO
Method: Least Squares
Date: 11/11/04 Time: 10:28
Sample: 1 500 Included observations: 500
Variable Coefficient Std. Error t-Statistic Prob.
URBANO 14655.83 6789.100 2.158730 0.0314
Y 0.050108 0.003048 16.43694 0.0000
TAM -8692.680 2268.410 -3.832058 0.0001
C 17955.59 9397.991 1.910578 0.0566
R-squared 0.399630 Mean dependent var 94443.14
Adjusted R-squared 0.395999 S.D. dependent var 93315.68
S.E. of regression 72522.62 Akaike info criterion 25.22915
Sum squared resid 2.61E+12 Schwarz criterion 25.26287
Log likelihood -6303.288 F-statistic 110.0525
Durbin-Watson stat 2.141804 Prob(F-statistic) 0.000000
311
Dependent Variable: GTO
Method: Least Squares
Sample: 1 500 Included observations: 500
Variable Coefficient Std. Error t-Statistic Prob.
URBANO 28538.9900 17577.0800 1.6236 0.1051
Y*URBANO 0.0128 0.0062 2.0569 0.0402
Y 0.0424 0.0049 8.7040 0.0000
TAM*URBANO -10295.7100 4525.0670 -2.2753 0.0233
TAM -3228.2860 3250.3750 -0.9932 0.3211
C 10027.9300 12652.5100 0.7926 0.4284
R-squared 0.407592 Mean dependent var 94443.1400
Adjusted R-squared 0.401596 S.D. dependent var 93315.6800
S.E. of regression 72185.82 Akaike info criterion 25.2238
Sum squared resid 2.57E+12 Schwarz criterion 25.2744
Log likelihood -6299.95100 F-statistic 67.9770
Durbin-Watson stat 2.14797 Prob(F-statistic) 0.0000
a. Existe una influencia significativa del ingreso sobre el gasto en vivienda en las
zonas urbanas.
b. La influencia del ingreso en las zonas rurales es mayor que para los residentes
en las urbanas.
c. El efecto producido por la zona de residencia es el único que es significativo en
la explicación de l os gastos en vivienda.
d. Se tiene una influencia no significativa del número de miembros que componen
un hogar sobre el gasto en la zona urbana
4. Se posee información acerca de los ingresos del sector público (INGPUB), el PBI, el
ahorro privado (AHORRO), las importaciones (IMPORT) y las exportaciones
(EXPORT) del Perú durante los años de 1975-1998.
Con los datos disponibles se estimó un modelo el cual relaciona los ingresos
públicos con el PBI, las variables del sector exterior y el nivel de ahorro. Además se
desea determinar si el efecto producido a partir del año 1987 originó un cambio
estructural en dicha relación.
Para poder el cambio estructural a partir de 1987, será necesario considerar una
variable ficticia (F) la cual será igual a 1 a partir de 1987 siendo cero en los años
anteriores.
312
Dependent Variable: INGPUB
Method: Least Squares
Sample: 1975 1998 Included observations: 24
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.0003 0.0000 25.1587 0.0000
EXPORT 0.5765 0.0791 7.2917 0.0000
IMPORT -0.2578 0.1128 -2.2861 0.0339
AHORRO -0.8769 0.1511 -5.8026 0.0000
C 38.4145 4.2424 9.0548 0.0000
R-squared 0.9917 Mean dependent var 31.6875
Adjusted R-squared 0.9900 S.D. dependent var 6.9170
S.E. of regression 0.6917 Akaike info criterion 2.2836
Sum squared resid 9.0894 Schwarz criterion 2.5290
Log likelihood -22.4032 F-statistic 570.3155
Durbin-Watson stat 1.3842 Prob(F-statistic) 0.0000
a. Para explicar el ingreso del sector público no es necesario hacer uso de una
variable ficticia.
b. El modelo estimado con el uso de la variable ficticia es más adecuado en
comparación con el otro ya que posee un coeficiente de determinación ajustado
mayor.
c. El segundo obtenido es el mejor que se puede obtener.
d. El único efecto que se debe eliminar del segundo modelo para explicar el gasto
son las exportaciones.
RESPUESTAS DE CONTROL
Rpta 1.d 2.d 3.a 4.b
313