Guía Practica Evaluación de Impacto
Guía Practica Evaluación de Impacto
Guía Practica Evaluación de Impacto
Evaluacin de impacto
Coleccin Ivlua de guas prcticas
sobre evaluacin de polticas pblicas
2009, Ivlua
No se permite la reproduccin total o parcial
de este documento, ni su tratamiento informtico ni su transmisin en cualquier forma o por
cualquier medio, ya sea electrnico, mecnico,
por fotocopia, por registro u otros mtodos, sin
el permiso del titular del Copyright.
Autores: Jaume Blasco, analista de Ivlua
David Casado, analista de Ivlua
Diseo: petitcomite.net
Impresin: Cevagraf, s.c.c.l.
Primera edicin: diciembre de 2009
Dipsito legal: B-45840-2009
NDICE
1. Introduccin
PG. 5
pg. 6
pg. 9
PG. 13
pg. 13
pg. 14
pg. 18
pg. 19
pg. 21
PG. 23
pg. 24
pg. 27
pg. 34
pg. 37
pg. 41
pg. 45
BIBLIOGRAFA
PG. 51
PG. 52
MANUALES
pg. 52
ARTCULOS
pg. 52
ENLACES DE INTERS
pg. 54
/5/
1. Introduccin
Las administraciones pblicas se dedican continuamente a disear e intentar mejorar polticas y programas, y dedican cada ao miles de millones de euros a implementarlos. A pesar
de ello, problemas como el desempleo, el fracaso escolar, la siniestralidad en las carreteras
o la degradacin ambiental tienden a persistir, lo cual plantea dudas sobre la efectividad de
las intervenciones pblicas que deben enfrentarse a ellos. Por una parte, este hecho pone
de manifiesto que la tarea de enfrentarse a los problemas sociales es complicada, que en el
mejor de los casos da lugar a avances lentos, graduales e incompletos. Por otra, que, aunque una intervencin pblica parezca una gran idea y se destinen a ella muchos recursos, su
xito no puede darse nunca por garantizado a priori.
Sobre la base de un anlisis sistemtico ex post, la evaluacin de impacto trata, precisamente, de determinar la capacidad que tienen las ideas potencialmente buenas para solucionar
los problemas sociales. Un aumento de los impuestos sobre el tabaco consigue realmente
que la gente fume menos? Ofrecer desgravaciones fiscales para los planes de pensiones
consigue que la gente ahorre ms para despus de la jubilacin? Incrementar las horas lectivas en la educacin primaria mejora el rendimiento escolar? Formar a desempleados con
baja cualificacin aumenta su renta a medio plazo? Dado que los problemas sociales pueden
acarrear consecuencias graves para quien los sufre y que los recursos para abordarlos son
limitados, se trata de identificar y distinguir las polticas pblicas que mejor consiguen solucionarlos o, como mnimo, contenerlos.
Pero cmo podemos saber si las polticas pblicas realmente funcionan? Y si funcionan,
cul es la magnitud de su impacto? Demasiado a menudo la evaluacin de las polticas se
ha centrado exclusivamente en los inputs o los outputs, es decir, en los recursos que utiliza
el programa o en aquello que hace el programa. Sin embargo, el que 100 bomberos hayan
estado 24 horas echando agua sobre un fuego nos dice poco sobre si han conseguido apagarlo. Tampoco el mero seguimiento de un problema nos dice demasiado sobre el impacto
real de las polticas pblicas. Que un ao se hayan quemado la mitad de hectreas de bosque
que el ao anterior no quiere decir, necesariamente, que los bomberos hayan hecho mejor
su trabajo. Por tanto, en una evaluacin de impacto no solamente queremos saber si un
problema mejora o empeora, sino si la intervencin pblica ha tenido algo que ver. Se trata,
en resumen, de establecer si puede atribuirse o no (y en qu medida) la causa del cambio en
el problema a la intervencin pblica. Hacerlo de forma convincente, como veremos, es una
tarea laboriosa.
/6/
/7/
1000
875
900
800
Impacto
625-875= -250
700
600
625
500
0
400
300
200
100
2006
2007
2008
AOS
Para responder a esta pregunta debemos tener en cuenta que, entre los aos 2007 y 2008,
pueden haber sucedido otras cosas aparte de la puesta en marcha del nuevo programa. Por
ejemplo, es posible que la economa haya crecido y ofrezca ms oportunidades laborales
incluso para las personas de ms baja cualificacin. Tambin puede haber ocurrido que los
servicios de salud mental hayan iniciado un nuevo programa en coordinacin con los servicios sociales que se haya mostrado especialmente efectivo para prevenir que las personas
con enfermedades mentales graves y pocos recursos econmicos acaben en la calle. Igualmente, es posible que el Gobierno haya endurecido el control de entrada al pas de nuevos
inmigrantes, dificultando as la llegada de inmigrantes indocumentados, los cuales constituyen un sector de la poblacin con problemas muy graves de acceso a la vivienda. Todos estos
fenmenos, entre muchos otros, podran explicar, total o parcialmente, el descenso de la
poblacin sin techo observado entre 2007 y 2008. La situacin contraria es igualmente factible: que en este mismo ao las condiciones econmicas hubieran empeorado, que se hubiera
suprimido un programa de atencin a las personas con enfermedades mentales y que hubieran entrado en la ciudad muchos ms inmigrantes indocumentados que en aos anteriores.
En este caso, la reduccin de 250 personas respecto al ao anterior estimada en el grfico 1
sera una clara subestimacin del impacto real del programa.
La situacin descrita en el ejemplo es la ms habitual en una evaluacin de impacto. Podemos medir fcilmente un determinado fenmeno, como pueda ser la cantidad de personas
que duermen en la calle, el nmero de accidentes en las carreteras o la productividad del
sector de la fruta dulce, para capturar el impacto o outcome de una intervencin pblica que
nos interesa evaluar. Pero, desafortunadamente para los evaluadores, suceden muchas otras
/8/
cosas ms all de la propia intervencin pblica (como la evolucin de la economa, los cambios en la meteorologa o la puesta en marcha de otros programas y polticas) que tienen una
influencia notable sobre el impacto que intentamos observar y que complican la evaluacin.
Por consiguiente, evaluar el impacto de un programa implica ser capaz de aislar el efecto del
programa en relacin con todos estos otros fenmenos que afectan al problema o situacin
que la intervencin pblica pretende abordar.
Esta constatacin nos lleva introducir lo que parece un pequeo matiz, pero que tiene en
realidad una importancia crucial en la evaluacin de impacto (y que, como veremos ms
adelante, es la principal fuente de quebraderos de cabeza metodolgicos): la pregunta que la
evaluacin de impacto debe responder no es qu ha pasado despus de poner en marcha una
intervencin pblica (muchas cosas pueden haber influido), sino qu ha pasado en comparacin con lo que habra ocurrido si la intervencin no se hubiera llevado a cabo. Lgicamente, la
diferencia entre lo que ha sucedido con el programa y lo que habra sucedido sin el programa
puede atribuirse sola y nicamente al programa o, dicho de otro modo, la diferencia ha sido
causada por el programa. Y esto es, precisamente, lo que busca la evaluacin de impacto: lo
que el programa ha causado, y no lo que ha sucedido al mismo tiempo que el programa.
CUADRO 1
ASOCIACIN NO QUIERE DECIR CAUSALIDAD
Una de las reglas de oro presentes en casi todos los manuales de estadstica es no confundir asociacin con causalidad. La diferencia entre ambos conceptos es sencilla. Supongamos que, en un
momento dado, observsemos en una poblacin determinada que el hecho de tener los dedos
amarillentos y el hecho de sufrir bronquitis crnica estn asociados, es decir, son caractersticas que
tienden a presentarse juntas en las mismas personas. Quiere esto decir que la bronquitis crnica
hace que la gente tenga los dedos amarillos? En realidad sabemos que no es as, sino que existe un
tercer factor, que es fumar, que es una causa importante tanto de que la gente tenga los dedos amarillos, como de que padezcan bronquitis crnica. Por eso tener bronquitis y los dedos amarillos son
fenmenos asociados, pero uno no es la causa del otro. Tcnicamente se dice que la asociacin que
existe entre ambos fenmenos es espuria.
Pero desenredar causalidad y asociacin en el campo de las polticas pblicas no siempre es tan
sencillo. Imaginemos que, entre la poblacin escolar, estudiar en un colegio concertado est asociado con un mejor rendimiento acadmico que hacerlo en un colegio pblico. Quiere esto decir que
la titularidad del colegio es la causa de esta diferencia y que, por tanto, el concierto escolar es una
forma de provisin de la educacin ms efectiva que la gestin pblica directa? Es posible, pero no es
seguro. Una explicacin alternativa es que los alumnos del colegio concertado tienden a pertenecer a
familias de un nivel socioeconmico y formativo superior al de las del pblico, y que esta diferencia en
las caractersticas del alumnado es la causa real de la diferencia en el rendimiento escolar. De forma
similar, que un ayuntamiento ponga en marcha un programa de atencin a las personas sin techo y al
ao siguiente baje considerablemente el nmero de personas que pernoctan en la calle son hechos
asociados, pero no necesariamente uno es la causa del otro. Como hemos visto en la explicacin del
ejemplo, existen muchos otros motivos plausibles, de modo que es mejor no extraer conclusiones
precipitadas que nos puedan convertir en vctimas de la falacia causal.
Cuando observamos una asociacin (por ejemplo, que participar en un programa est asociado a una
mejora en un determinado outcome), es importante tener siempre presente que la causalidad es una
explicacin posible, pero no la nica. El reto de la evaluacin de impacto es, justamente, descartar
explicaciones alternativas para poder atribuir, de la forma ms convincente posible, la causalidad del
cambio observado a la intervencin pblica.
/9/
IMPACTO = Y1 Y0
Donde:
Y1 son los outcomes que han ocurrido con la intervencin pblica.
Y0 son los outcomes que se habran dado en ausencia de la intervencin pblica, que de
forma ms tcnica (y ms breve) se denominan contrafactual.
Por regla general, Y1 es un nmero relativamente fcil de estimar. Normalmente, utilizando
registros administrativos, mediante una encuesta, realizando un recuento (como en el ejemplo)
o con cualquier otra tcnica de observacin, podemos estimar qu ha pasado con los outcomes
de inters una vez que se ha implementado el programa. Por ejemplo, podemos llegar a saber,
sin demasiadas dificultades, cuntos desempleados han encontrado trabajo despus de participar en un curso de formacin, cuntas patentes se han registrado en el marco de un programa de subvenciones de I+D+i o cmo han evolucionado las rentas de los agricultores despus
de un programa de apoyo a la tecnificacin de un determinado tipo de cultivo.
Estimar Y0, en cambio, es harina de otro costal. De hecho, construir un contrafactual apropiado
es, de lejos, la tarea ms complicada de la evaluacin de impacto. El motivo de esta dificultad
es, sencillamente, que el mundo no puede estar en dos estados al mismo tiempo: una ciudad
no puede haber implementado un programa y no implementarlo al mismo tiempo, igual que
una empresa no puede haber recibido una subvencin de I+D+i y simultneamente no haberla
recibido. Si el programa se ha implementado, nunca podremos llegar a observar qu habra pasado si no se hubiera puesto en prctica. Por tanto, mientras que la estimacin de Y1 responde
a una medida basada en la observacin de la realidad, la estimacin de Y0 es siempre una declaracin hipottica sobre cmo creemos que habra sido el mundo en ausencia del programa.
As pues, la cuestin es: cmo conseguimos formular una hiptesis contrafactual? El concepto en s mismo no debera asustarnos, ya que la vida cotidiana est llena de ejemplos de
este tipo de hiptesis: Si hubiera estudiado ms, habra aprobado las oposiciones; o bien:
Si no me hubiera hipotecado, ahora no ira tan justo. El reto de la evaluacin de polticas,
sin embargo, es llegar a construir una hiptesis que no solamente parezca realista, sino que,
adems, permita cuantificar con precisin qu habra pasado en ausencia del programa, ya
que necesitamos un nmero Y0 con el que poder realizar la resta (Y1 - Y0) que nos lleva a estimar el impacto del programa.
/ 10 /
Gua prctica 5
Evaluacin de impacto
Para hacerlo, la estrategia suele consistir en sustituir el contrafactual, que por definicin no
es observable, por un escenario de comparacin observable. Por ejemplo, supongamos que el
Departamento de Educacin inicia un programa que consiste en otorgar autonoma de gestin
a las direcciones de determinados centros escolares, con el fin de mejorar la calidad de la
educacin y, en ltimo trmino, el rendimiento de los alumnos. Medir Y1 es fcil: se trata de
medir qu calificaciones han obtenido los nios de dichos centros escolares, un ao despus,
por ejemplo, del cambio en el modelo de gestin. Cul puede ser la hiptesis contrafactual?
Supongamos que en la red de centros escolares hay colegios de caractersticas similares a
los que han participado en el programa que permanecen bajo el rgimen de gestin ordinario. Podemos medir las calificaciones de los alumnos de esos centros similares y formular
la siguiente hiptesis contrafactual: si los colegios que han participado en el programa no
lo hubieran hecho (contrafactual no observable), las calificaciones que habran obtenido sus
alumnos seran las mismas que han obtenido los alumnos de los colegios de caractersticas
similares que no han participado en l (escenario de comparacin observable).
CUADRO 2
LA MEDIDA DEL IMPACTO CON UNA HIPTESIS CONTRAFACTUAL
Los grficos 2 y 3 volviendo al ejemplo del programa de atencin a las personas sin techo representan con una lnea roja dos posibles contrafactuales. El primero se basa en la estimacin de que, en
ausencia de la intervencin, el nmero de personas sin techo habra aumentado (esto correspondera, por ejemplo, a un escenario de ms desempleo, peores servicios a las personas con enfermedad
mental y ms inmigracin indocumentada). Por otro lado, en la estimacin del contrafactual del grfico 3 se asume que el nmero de personas habra disminuido igualmente en ausencia del programa
(a causa, por ejemplo, de un escenario de menos desempleo, mejores servicios y menos inmigracin).
Obsrvese que Y1 no vara en ninguno de los dos grficos: el programa comenz, y luego se observ y
midi el nmero de personas que pernoctaban en la calle despus de la implementacin. Por tanto, la
divergencia de la magnitud del impacto en un grfico y en el otro (400 personas en el grfico 2 y 175 en
el 3) se debe exclusivamente al hecho de que la estimacin de Y0 (el contrafactual) es diferente.
Grfico 2. Evolucin de las pernoctaciones en la calle con estimacin del contrafactual (I)
INTERVENCIN
1000
875
900
Y0=1025
Impacto:
625-1025= -400
800
700
600
Y1=625
500
0
400
300
200
100
2006
2007
AOS
2008
/ 11 /
Cuadro 2 (cont.)
Grfico 3. Evolucin de las pernoctaciones en la calle con estimacin del contrafactual (II)
INTERVENCIN
1000
875
900
Y0=800
800
Impacto neto:
625-800= -175
700
600
Y1=625
500
0
400
300
200
100
2006
2007
2008
AOS
La bibliografa estadstica y economtrica est repleta de estrategias para identificar el contrafactual de programas y polticas pblicas, y en el captulo 3 de esta gua expondremos las
de uso ms frecuente. Comprobaremos que el principal reto de estas estrategias de identificacin radica en encontrar unidades (colegios, personas, barrios, etc.) que cumplan la
condicin de reunir caractersticas similares a las que han participado en el programa. Esto es
debido a que, generalmente, si una persona participa en un programa y otra no, y si un barrio
recibe una subvencin y otro no, es porque son distintos en alguna caracterstica relevante.
Las estrategias de identificacin del contrafactual hacen todo lo posible para controlar estas
diferencias, con el inconveniente de que algunas son observables, pero otras no. Por ejemplo,
podemos encontrar desempleados que se parezcan a los que han participado en un curso de
formacin en cuanto al nivel formativo previo, la historia laboral, la edad y otras caractersticas similares recogidas en una base de datos, pero no en lo que respecta a otros factores
relevantes, como la motivacin para encontrar trabajo, el estado anmico, etc.
Las metodologas para la evaluacin de impactos que presentaremos en el captulo 3 se
adecan a distintos tipos de programas y circunstancias de la evaluacin, y no hay ninguna
universalmente superior. La seleccin de la estrategia ms adecuada requerir, en cada caso,
un anlisis previo de las caractersticas de la intervencin pblica que la justifique, especialmente sobre los objetivos del programa, el procedimiento de seleccin de los participantes, el
proceso de implementacin y las fuentes de datos disponibles. Antes de exponer los distintos
mtodos para la evaluacin de impacto, el captulo 2 hace referencia a los pasos preliminares
para enfocar el diseo de la evaluacin, que guiarn la eleccin del mtodo ms adecuado.
/ 12 /
CUADRO 3
LA ROBUSTEZ DE LAS HIPTESIS CONTRAFACTUALES
Las estrategias de identificacin del contrafactual son hiptesis sobre situaciones que nunca se
producirn, ya que, como hemos dicho, es imposible que una persona que ha participado en un programa al mismo tiempo no haya participado en l. Por tanto, todas las estrategias tienen en comn
que no pueden ser probadas empricamente, es decir, nunca podremos comprobar a posteriori si
eran correctas o falsas. Todo lo que podemos hacer es valorar si la hiptesis contrafactual parece
ms o menos realista y argumentar sobre los motivos por los que creemos que se trata (o no) de una
hiptesis plausible. De hecho, las controversias sobre las evaluaciones giran casi siempre en torno
a la robustez de la hiptesis contrafactual, es decir, sobre cmo de adecuado es el escenario de
comparacin identificado.
La bibliografa est llena de ejemplos de programas o polticas en los que distintas estrategias
de identificacin en la evaluacin han conducido a estimaciones del impacto muy diferentes. Por
ejemplo, las evaluaciones sobre la cooperacin financiera internacional con los pases en desarrollo
han tendido a no detectar ningn impacto significativo sobre el crecimiento econmico de los pases
receptores. Sin embargo, en el ao 2000, los economistas del Banco Mundial Craig Burnside y David
Dollar publicaron un artculo en el que introducan una novedad en este tipo de evaluaciones: la
efectividad de las ayudas financieras podra depender de la calidad de las instituciones y las polticas fiscales, monetarias y comerciales del pas receptor. Efectivamente, su evaluacin indicaba que
si la comparacin se realizaba solamente entre pases con una buena gobernanza, el impacto de la
ayuda financiera era positivo y estadsticamente significativo. En cambio, en los pases con instituciones y polticas deficientes, el impacto de la cooperacin financiera era nulo. La influencia de esta
evaluacin fue muy importante, ya que varias instituciones empezaron a condicionar su cooperacin
financiera a la adopcin, por parte de los pases receptores, de las polticas y las instituciones identificadas como adecuadas en el artculo de Burnside y Dollar.
Otros artculos y evaluaciones posteriores han puesto en solfa la estrategia de identificacin del contrafactual empleado en el mencionado artculo, con lo cual la pregunta de evaluacin de fondo (los
pases que reciben ayuda financiera internacional se desarrollan econmicamente ms deprisa que si no
la recibieran?) sigue sin tener una respuesta clara.
/ 13 /
/ 14 /
impactos). En otras palabras, antes de la evaluacin de impacto (o en el marco de la evaluacin de impacto) es necesaria una mnima evaluacin del diseo.
3. Es necesario tener un conocimiento adecuado del proceso de implementacin. El inters por saber si un programa funciona o no suele ir acompaado del inters por saber por
qu funciona, motivo por el cual las evaluaciones de impacto a menudo se realizan junto
con evaluaciones de la implementacin. Pero incluso si nuestro inters se centra estrictamente en medir los impactos de la intervencin, es necesario un mnimo conocimiento del
proceso de implementacin para interpretar los resultados de una evaluacin de impacto y
transformarlos en recomendaciones de mejora. As, si una evaluacin de impacto concluye
que un programa no tiene ningn impacto significativo, es posible afirmar que la teora del
impacto que une los outputs con los outcomes era equivocada (vase Ivlua, Gua prctica,
31), o que el programa nunca lleg a implementarse como estaba planificado y los outputs
previstos nunca llegaron a generarse, ya sea por desviaciones respecto al diseo o porque era imposible llevar a la prctica la teora del proceso. Incluso si los resultados de la
evaluacin de impacto son positivos, comprobar que el proceso de implementacin se ha
producido de acuerdo con las previsiones refuerza la conclusin de que el programa es la
causa de los impactos.
4. Los impactos deben haberse podido producir. Son raras las intervenciones pblicas que
producen impactos inmediatos, por lo que es necesario que transcurra cierto tiempo desde la implementacin de la intervencin antes de poder detectar el impacto. En las pginas
que siguen veremos que una de las decisiones a tomar a la hora de disear una evaluacin
de impacto es escoger el momento ms adecuado para medir el impacto, ya que es posible
que algunos efectos tarden en producirse, tiendan a acumularse o desaparezcan con el
tiempo. Si, dado el tipo de intervencin, sabemos de antemano que este momento no ha
llegado todava, ser preferible posponer la evaluacin y esperar a que los impactos hayan
podido producirse.
/ 15 /
siniestralidad en las carreteras. Sin embargo, la tarea de identificar los outcomes y la forma
de medirlos raramente es directa y suele precisar de la toma de algunas decisiones sobre
qu, cmo y cundo medir.
En primer lugar, hay que tener presente que algunas intervenciones pblicas tienen objetivos
mltiples. Por ejemplo, la reduccin de la velocidad mxima en los accesos a Barcelona tiene
por objetivo reducir la contaminacin y reducir los accidentes; y el Programa Interdepartamental de Rentas Mnimas de Insercin tiene por objetivo, como su propio nombre indica,
elevar la renta de las personas beneficiarias de la prestacin e insertarlas en el mercado
laboral. Si este es el caso del programa que debemos evaluar, es necesario seleccionar el
objetivo cuyos impactos nos interesa evaluar, o si decidimos evaluar ms de uno, ser conscientes al planificar la evaluacin de que esto supondr una multiplicacin de los recursos
necesarios (tiempo, financiacin, etc.).
Por otra parte, algunos objetivos son multidimensionales. Incluso si la intervencin tiene un
nico objetivo, o si hemos elegido solo uno sobre el que queremos realizar la evaluacin de
impacto, las maneras de llegar a definir este impacto suelen ser mltiples. Supongamos, por
ejemplo, que queremos capturar el fenmeno de la siniestralidad en las carreteras: podemos
medir el nmero de accidentes, el de accidentes con heridos o muertos, o directamente el
nmero de heridos y muertos en accidente de trfico. Por el contrario, si queremos capturar
el fenmeno de la insercin laboral, que suele ser el objetivo de las polticas activas de ocupacin, las opciones se multiplican: nos puede interesar si la persona encuentra un trabajo
dentro de un perodo de tiempo, o intentar capturar la conservacin del puesto de trabajo, es
decir, medir si la persona mantiene el trabajo al cabo de un tiempo determinado, o cuntos
das en total ha trabajado a lo largo de este perodo de tiempo. Igualmente, es posible que
nuestro inters en la insercin laboral sea instrumental, por lo que la dimensin que realmente nos resulta relevante es la variacin en la renta o el incremento en el bienestar subjetivo derivados de la insercin laboral. En los trminos que emplebamos en la Gua 3 sobre
evaluacin de diseo, la consecucin de algunos objetivos implicaba lograr una secuencia
previa de impactos (por ejemplo, encontrar trabajo, conservarlo, hecho que incrementa la
renta y, en ltima instancia, el bienestar), que denominbamos estructura de impactos. Antes
de iniciar la evaluacin es preciso decidir cul (o cules) de las mltiples dimensiones que
constituyen esta estructura es la ms relevante para el propsito de nuestra evaluacin.
/ 16 /
CUADRO 4
MEDIDAS!
Supongamos que os contrato para medir un elefante. Puede parecer que la tarea est clara, pero,
pensadlo un minuto. Tenis que medir su peso? La altura? Su longitud? El volumen? La intensidad de su color gris? La cantidad y profundidad de sus arrugas? O tal vez la proporcin del da
que se pasa durmiendo? Para poder medir a esta criatura necesitis seleccionar una o unas cuantas caractersticas entre varias posibilidades. La eleccin depender de vuestro propsito a la hora
de medir, o ms bien del mo, ya que soy yo quien os ha contratado. Si yo fuera el responsable del
transporte ferroviario de mercancas necesitara conocer la altura, la longitud y el peso del elefante.
Pero si fuera un taxidermista, estara ms interesado en su volumen y en las arrugas. Como domador, me preocupara ms qu proporcin del da est dormido. Como productor de pieles sintticas
de animales, me gustara saber el tono exacto del gris. Vosotros, viendo la oportunidad de manteneros en nmina, seguramente insistirais en el hecho de que no puedo entender a mi elefante si no
conozco la variacin estacional de la temperatura corporal.
STONE, D. Policy Paradox, The Art of Political Decisin Making, 2002 [Traduccin propia]
Por el contrario, algunos impactos son especialmente difciles de medir porque los objetivos
hacen referencia a constructos particularmente intangibles como, por ejemplo, incrementar
la autonoma personal de los participantes de un programa de atencin a las personas sin
techo. En este caso, la dificultad no es tanto seleccionar una dimensin entre las varias que
constituyen un objetivo, sino llegar a medir un fenmeno que, por su naturaleza, parece inmensurable. En estas situaciones, la decisin radica entre escoger una medida preexistente
(existe a este respecto una bibliografa especializada en el desarrollo de medidas para los fenmenos sociales ms diversos, desde el desarrollo cognitivo al estrs laboral, pasando por
la felicidad y la percepcin de seguridad en la va pblica) o crear una medida nueva ajustada
a las especificidades de nuestra evaluacin. En general, suele ser preferible escoger una
medida preexistente, porque implica que alguien ya ha comprobado su fiabilidad (es decir,
que si la medida se utiliza en diversas ocasiones, los resultados son coherentes), y tambin
porque el uso de una medida estandarizada facilita la posterior comparacin de resultados
con otras evaluaciones. Adems, el esfuerzo que requiere localizar una medida vlida para
nuestra evaluacin en la bibliografa (o sea, que capture satisfactoriamente nuestro fenmeno de inters) suele ser sustancialmente menor que el de desarrollar y hacer pruebas con
cuestionarios para elaborar una propia.
/ 17 /
CUADRO 5
LOS CONCEPTOS DE VALIDEZ Y FIABILIDAD DE LA MEDIDA DEL IMPACTO
NI VLIDA NI FIABLE
REALMENTE VLIDA,
PERO POCO FIABLE
FIABLE Y VLIDA
/ 18 /
Por ltimo, debemos tener en cuenta que definir los impactos no solamente implica especificar qu medimos y cmo lo medimos, sino tambin cundo lo medimos. Esta cuestin reviste
una especial importancia, ya que distintos momentos de medida pueden conducir a conclusiones diferentes sobre los impactos del programa, ya que mientras que algunos impactos
implican procesos lentos y pueden tardar en producirse, otros pueden ocurrir rpidamente,
pero no mantenerse en el tiempo. En este sentido, se trata de determinar cul es el momento ms relevante para hacerse la pregunta: Qu ha pasado en comparacin con lo que habra
ocurrido si la intervencin no se hubiera puesto en prctica?. As pues, en un programa de
ayuda a los funcionarios para dejar de fumar, el impacto puede ser fulgurante una semana
despus de comenzar, pero parece ms relevante conocer el impacto un ao despus, ya que
es probable que una parte de los que lo dejan inicialmente acaben recayendo. En cambio, una
intervencin para proteger el hbitat de una especie amenazada puede no presentar impactos apreciables en un principio, pero s pueden ser muy notables al cabo de tres aos, una
vez que la poblacin ha tenido tiempo suficiente para aumentar bajo las nuevas condiciones.
En cualquier caso, el tiempo de medida deber definirse con precisin: no se puede hablar
de corto o largo plazo, sino que habr que decidir, con exactitud, si nos referimos a seis,
doce, dieciocho o veinticuatro meses despus del programa.
/ 19 /
/ 20 /
permitira averiguar, por ejemplo, si el carn de conducir por puntos resulta ms efectivo a la
hora de reducir la siniestralidad en las carreteras en el caso de los conductores jvenes o de
los de mediana edad, para infractores reincidentes o para los ocasionales, para los desplazamientos de ocio o los de trabajo.
Al preparar el diseo de una evaluacin de impacto, es importante identificar cules son los
subgrupos de poblacin (por gnero, grupos de edad, tipo de problemtica inicial, etc.) para
los que resulta relevante realizar un anlisis desagregado.
CUADRO 6
LAS DECISIONES METODOLGICAS EN EL PROCESO DE DISEO DE LA EVALUACIN
Disear una evaluacin de impacto implica tomar decisiones constantemente: la definicin del impacto, el momento de medida, la concrecin de lo que significa participar en el programa, la desagregacin del anlisis por subgrupos o la eleccin del mtodo para identificar el contrafactual no
son pasos automticos, sino que implican escoger una alternativa entre varias.
Cada una de estas decisiones conlleva resolver una disyuntiva. Por una parte, aumentar la complejidad del anlisis (escoger ms de una definicin de impacto y momento de medida, desagregar el
anlisis en distintos grados de participacin y subgrupos de beneficiarios, o evaluar el programa con
ms de una metodologa) permite obtener informacin ms detallada y extraer conclusiones ms
robustas. Por otra, incrementa el tiempo y los recursos necesarios para llevar a cabo la evaluacin
(a veces, hasta hacerla inabordable) y complica la comunicacin de los resultados. Por consiguiente, incluso si decidimos que es asumible cierto grado de complejidad, resulta inevitable renunciar a
algunas medidas del impacto, niveles de desagregacin y aproximaciones metodolgicas.
A pesar de que, idealmente, estas renuncias se asumen sobre criterios de menor relevancia, la toma
de decisiones implica a veces cierto grado de arbitrariedad. Puede resultar difcil justificar por qu
medimos la situacin laboral al cabo de 12 meses y no de 24, por qu desagregamos el anlisis por
comarcas y no por grupos de edad, o por qu hemos escogido un mtodo determinado en lugar de
otro, y as hasta generar cierta sensacin de que la fotografa que estamos ofreciendo sobre el rendimiento del programa es incompleta.
Al margen de las dudas que se planteen en la toma de estas decisiones metodolgicas, lo ms
importante es tomarlas con diligencia, de modo que la evaluacin est acabada a tiempo para ser
relevante, y hacer constar siempre bajo qu definicin de impacto y en funcin de qu hiptesis de
partida hemos llegado a la conclusin de que el programa es efectivo o no.
/ 21 /
contexto, el contrafactual es lo que habra ocurrido si hubiramos continuado con el programa antiguo.
A veces, sin embargo, el programa puede ser genuinamente nuevo, o puede interesarnos
la estimacin del impacto en relacin con la ausencia de cualquier intervencin pblica. En
estas situaciones, el contrafactual se convierte en lo que habra pasado si no hubiera habido
ningn programa en funcionamiento.
Finalmente, a veces, para un mismo objetivo, hay varios programas en funcionamiento, o
hay uno que funciona con distintas variantes o modelos de implementacin (por ejemplo,
con provisin pblica directa en unos lugares y externalizada en otros), por lo que el inters de la evaluacin es valorar la efectividad de un programa o modelo respecto al resto.
En estas situaciones, el contrafactual puede definirse en cualquiera de las dos versiones
anteriores, dependiendo de la pregunta de evaluacin y la aproximacin metodolgica para
darle respuesta.
/ 22 /
Sin embargo, las limitaciones que la calidad y el contenido de los registros administrativos
imponen sobre las evaluaciones no deben ser consideradas como un designio inmutable. De
acuerdo con un reconocido economista y evaluador del Banco Mundial, que las evaluaciones
de impacto sean ex post por definicin no quiere decir que deban comenzar despus de que
el programa finalice, o ni siquiera despus de que haya comenzado: las mejores evaluaciones
ex post se disean y comienzan a implementarse ex ante (Ravallion, 2006). Entre las medidas ms importantes a tomar ex ante est la de conseguir que los registros administrativos
incorporen informacin relevante para usos de evaluacin y mejoren su calidad. Suele decirse que los problemas que no tienen solucin no son problemas, sino condicionantes. En este
sentido, la falta de datos adecuados para la evaluacin en los registros administrativos es un
condicionante a corto plazo y un problema a largo plazo.
Notas:
1 BLASCO, J. Evaluacin del diseo. Barcelona: Ivlua, 2009. (Guas prcticas sobre evaluacin de polticas
pblicas; 3)
/ 23 /
Por otra parte, el resto de mtodos disponibles, que reciben el nombre de diseos cuasiexperimentales, comparten la caracterstica de que la participacin de los individuos en
el programa no la define un procedimiento aleatorio: ya sea porque son los propios individuos los que eligen participar o no, ya sea porque otro agente toma esa decisin, o por
las dos cosas al mismo tiempo. En los diseos cuasiexperimentales, el contrafactual se
define a partir de los individuos que no participan en el programa, que constituyen lo que
se denomina grupo de comparacin.
Los apartados siguientes constituyen una introduccin breve, de carcter no tcnico, a los
principales mtodos que pueden utilizarse para establecer el impacto de una poltica1. Comenzaremos con una introduccin de los dos principales retos que deben afrontar los distintos mtodos: maximizar la robustez con que concluyen que el programa es la causa de los
impactos observados (validez interna) y la potencialidad para generalizar las conclusiones a
otros programas, situaciones y momentos (validez externa). A continuacin, iniciaremos la
exposicin de los mtodos con los experimentos sociales, ya que existe un amplio consenso
en el sentido de que estos constituyen el diseo ms robusto a la hora de evaluar el impacto
de un programa. Por este motivo, y aunque son de uso poco habitual, representan el estn-
/ 24 /
dar que utilizan de espejo el resto de diseos. Los dems apartados explican los distintos
mtodos de carcter cuasiexperimental ms utilizados: los diseos antes-despus, la tcnica
de matching y el modelo de dobles diferencias.
/ 25 /
estn asociadas con los outcomes, excepto por el hecho de que unos participan en el
programa y los otros no. El sesgo de seleccin se produce cuando esta situacin no se
cumple y existe, desde antes del programa, alguna diferencia significativa entre los participantes y el grupo de comparacin que puede ser potencialmente responsable de las
diferencias observadas al final del programa entre los outcomes de unos y otros. Imaginemos, por ejemplo, un programa de refuerzo lingstico en cataln en el que se proporciona formacin en lengua catalana solamente a los inmigrantes recin llegados que lo
soliciten, con el objetivo final de facilitarles la insercin laboral. Es muy posible que los
que se apunten sean distintos de los que no lo hagan en caractersticas relevantes para
la insercin laboral: que su nivel educativo sea superior, que dominen mejor el castellano o que tengan ms motivacin para encontrar un trabajo. Es probable que, en ausencia
del programa, los participantes tengan ms fcilidades para acceder al mercado laboral
que los no participantes. Por tanto, si comparamos la evolucin de la participacin en
el mercado laboral de unos y otros es posible que parte de la diferencia en los outcomes
se deba, en realidad, a estas diferencias iniciales en sus caractersticas. La amenaza del
sesgo de seleccin es omnipresente en todos los diseos no experimentales, y abordarlo adecuadamente es, con diferencia, el principal reto metodolgico de la evaluacin de
impacto.
3. El desgaste diferencial de la muestra (attrition). Se trata de una forma del sesgo de
seleccin que se produce una vez iniciada la evaluacin. Es relativamente habitual que,
a lo largo de la evaluacin, algunos participantes y miembros del grupo de comparacin
abandonen el programa, se nieguen a seguir respondiendo cuestionarios o simplemente
desaparezcan. Estas prdidas pueden llegar a cambiar la composicin de los dos grupos
de manera que es muy posible que acaben siendo distintos en alguna caracterstica que
est relacionada con los outcomes, por mucho que inicialmente estuvieran equilibrados. Esta diferencia de composicin entre un grupo y otro puede ser la responsable de
los cambios observados en los outcomes, que, por tanto, pueden ser confundidos con el
impacto del programa. Supongamos, por ejemplo, que en un programa destinado a prevenir recadas en ex alcohlicos, los que mejor se encuentran y ms seguros estn de no
recaer tienden a abandonarlo antes de su finalizacin porque lo consideran innecesario,
y se les pierde la pista. En este caso, el grupo de participantes acaba estando compuesto por aquellos con un mayor riesgo de recada, mientras que el grupo de comparacin
sigue constituido por una mezcla de personas con riesgos altos y bajos. En consecuencia, igual que ocurra con el sesgo de seleccin, es posible que parte de la diferencia en
los outcomes entre los dos grupos se deba, en realidad, a estas diferencias finales en su
composicin.
4. Regresin a la media. Es la tendencia estadstica que tienen los resultados extremos
que se producen en un determinado momento de medida de los outcomes a acercarse a
la media de la poblacin cuando vuelven a ser medidos un tiempo despus. Ello es as
/ 26 /
porque muchos fenmenos implican cierta variacin aleatoria: por ejemplo, a un fin de
semana con muchos accidentes de trfico suele sucederle otro con un nmero inferior,
aunque las circunstancias que determinan la propensin a los accidentes (el clima, el
volumen de trfico, etc.) no hayan variado, del mismo modo que las personas que van a
psicoterapia porque estn muy estresadas es probable que la siguiente vez que vayan lo
estn menos, aunque no hayan recibido tratamiento. En general, esta amenaza debe tenerse en cuenta si la seleccin para participar en el programa se produce precisamente
porque la medida del outcome ha sido sustancialmente alta o baja. En estas situaciones,
es muy probable que en la siguiente medida el outcome mejore por efecto de la regresin
a la media, y que este efecto se confunda fcilmente con un efecto del programa.
5. Efectos de los tests. Algunas evaluaciones consisten en realizar un test a participantes
y miembros del grupo de comparacin antes del programa (pretest) y despus (postest),
con la finalidad de poder estimar cul ha sido el impacto de la intervencin. Ahora bien,
hacer el pretest puede ensear a las personas a hacerlo mejor en el test siguiente, o
puede inducir otras formas de reaccin que pueden confundirse con los impactos del
programa. Por ejemplo, si el test consiste en hacer pruebas de colesterol, puede ser que
las personas cuiden ms su dieta porque saben que les volvern a medir. De la misma
manera, en una prueba de vocabulario, es posible que las personas que han obtenido
malos resultados se preparen para la siguiente porque les da vergenza volver a hacerlo
mal, o que sencillamente lo hagan mejor porque ya saben en qu consiste la prueba y
tienen cierta prctica.
6. El efecto Hawthorne. Es un incremento del outcome que experimentan las personas por
el mero hecho de que alguien les presta una atencin especial, y no tanto por el efecto
del programa en s. Este efecto debe su nombre a una serie de estudios realizados entre
los aos 1927 y 1932 en los que se observ que los trabajadores de una planta elctrica
aumentaban su productividad cuando tenan la sensacin de que la direccin se preocupaba por ellos, independientemente de la forma que tomara dicha atencin. As, tanto
reducir la intensidad de la luz como subirla provoc los mismos impactos positivos.
7. Maduracin. El cambio natural o el crecimiento debido al mero paso del tiempo pueden
explicar las diferencias entre los outcomes medidos antes y despus de un programa.
Por ejemplo, la mejora de las capacidades cognitivas de los nios, el temperamento de
los comportamientos de riesgo de los adolescentes o el empeoramiento de la autonoma
personal de las personas mayores son fenmenos que se producirn entre el pretest y
el postest por efecto de la maduracin y que pueden confundirse con los impactos del
programa. Para abordar esta amenaza es necesario disponer de un grupo de comparacin de la misma edad para que el fenmeno de maduracin afecte de manera similar a
ambos grupos.
/ 27 /
/ 28 /
/ 29 /
OUTCOME
Y1
Grupo de tratamiento
Impacto=Y1-Y0
Y0
Grupo de control
TIEMP0
TRATAMIENTO
/ 30 /
de formacin, parece poco probable que este rechazo se produzca si el tipo de intervencin consiste en recibir una transferencia monetaria. Por otra parte, en cuanto a la posibilidad de que personas control acaben recibiendo la intervencin, el aspecto clave
a tener en cuenta es la capacidad de los responsables del experimento para monitorizar
la actividad de los gestores del programa y evitar situaciones anmalas.
Externalidades (spillovers). Cualquier efecto indirecto sobre los outcomes del grupo de
control motivado por la existencia del tratamiento pone en entredicho la validez de los
resultados generados por el experimento. Una seleccin precisa de las unidades a partir
de las cuales se realizar el proceso de aleatorizacin puede prevenir este tipo de sesgo;
a modo de ejemplo, si estamos interesados en medir el impacto de un programa escolar
de salud alimentaria sobre la obesidad infantil, es evidente que la aleatorizacin no deber realizarse entre individuos de un mismo colegio (habr procesos de imitacin), sino
entre colegios que se encuentren a cierta distancia unos de otros.
Desgaste diferencial de la muestra. En cualquier experimento social transcurre un
lapso de tiempo entre el momento de la asignacin aleatoria de los individuos a los
grupos de tratamiento y control, y el momento en que se mide el outcome de inters
para valorar el impacto de la poltica; si durante este lapso de tiempo hay individuos
del grupo de tratamiento y/o de control que abandonan el experimento, de modo que
resulta imposible medir sus outcomes, diremos que se ha producido un fenmeno de
desgaste muestral. Este desgaste puede provocar un sesgo en la estimacin del impacto
si existen diferencias en las caractersticas de aquellos que abandonan respecto a los
que permanecen, ya que desaparece la equivalencia entre los individuos del grupo de
control y de tratamiento que se haba conseguido en el momento de la aleatorizacin. En
cualquier caso, para las situaciones en que se produce un desgaste muestral que puede
amenazar la validez de los resultados, existen tcnicas estadsticas que permiten corregir (parcialmente) el posible sesgo resultante.
La naturaleza prospectiva de los experimentos sociales hace que las fases de planificacin
y diseo de la evaluacin sean de crucial importancia. El desgaste muestral, la existencia
de externalidades y cualquier otro factor que pueda sesgar los resultados de la evaluacin,
debern ser anticipados e incorporados al diseo del experimento para eliminarlos o minimizar su alcance. En caso contrario, cuando el experimento ya se encuentra en marcha,
resulta prcticamente imposible rehacer el diseo.
Validez externa
En el caso de un diseo experimental, la validez externa de los resultados obtenidos (la
posibilidad de extrapolarlos) puede verse afectada por dos motivos principales. En primer
/ 31 /
lugar, puede ser que la muestra de individuos a partir de la cual se hayan definido los grupos de tratamiento y de control no sea representativa de la poblacin a la que pretendemos
extrapolar los resultados; este sera el caso, por ejemplo, de un experimento social que se
hubiera llevado a cabo en una determinada comarca de Catalua que no fuera representativa de la poblacin catalana. Por otra parte, tambin puede pasar que el programa en s
mismo no resulte representativo, es decir, que la manera en que este opera en condiciones
experimentales no pueda reproducirse a una escala superior (por ejemplo, en el caso de
un programa de refuerzo educativo, puede ocurrir que el nivel de motivacin de los profesionales no sea el mismo, o que la insuficiencia de recursos diluya algunos elementos del
programa cuando se aplica a gran escala, etc.).
/ 32 /
/ 33 /
CUADRO 7
EJEMPLO DE EXPERIMENTO SOCIAL: SISTEMA INTEGRADO DE ATENCIN SANITARIA DE QUEBEC
CONTEXTO: en muchos casos, la falta de autonoma de las personas mayores viene motivada por
el padecimiento de enfermedades crnicas y, por este motivo, las necesidades de atencin de estos
colectivos son tanto sanitarias como sociales. A pesar de ello, en la mayora de pases desarrollados
Canad incluido la respuesta asistencial que proporcionan los sistemas sanitario y social suele
aplicarse sin ningn tipo de coordinacin.
OBJETIVO: el equipo investigador pretenda evaluar en qu medida un sistema integrado de atencin (SIPA, por sus siglas en francs) permitira mejorar la salud de las personas mayores dependientes de Quebec, aumentar la satisfaccin de sus cuidadores y reducir los costes asistenciales
totales.
TIPO DE ESTUDIO E INTERVENCIN: la evaluacin del nuevo modelo integrado de atencin se llev
a cabo mediante un experimento aleatorio con grupo de control. Los pacientes asignados al grupo
de tratamiento (606) pasaron a ser atendidos por equipos multidisciplinares que no solo proporcionaban directamente los servicios comunitarios sociales y sanitarios (atencin domiciliaria, centro
de da, centro de salud, enfermera domiciliaria, etc.), sino que tambin coordinaban la atencin
hospitalaria y la institucionalizacin social (residencias de asistidos) de los pacientes. Por otra parte,
los individuos del grupo de control (624) continuaron recibiendo la atencin de la forma habitual, o
sea, mediante la accin independiente de los sistemas sanitario y social de Quebec.
OUTCOMES: durante 22 meses, se obtuvo informacin de registro sobre los servicios sanitarios y
sociales utilizados por los pacientes asignados a ambos grupos, incluyendo tambin los costes de
la atencin recibida en cada caso. Adicionalmente, en el momento de comenzar el estudio y transcurridos 12 meses, se utiliz una encuesta para obtener informacin sobre el estado de salud de la
persona mayor, la satisfaccin y la carga soportada por los cuidadores, as como sobre los gastos
privados asumidos por la familia en relacin con el cuidado de la persona dependiente.
RESULTADOS: los pacientes atendidos mediante el modelo SIPA utilizaron ms los servicios sanitarios y sociales de carcter comunitario, pero su probabilidad de sufrir episodios de hospitalizacin
innecesariamente largos (bedblocking) fue menor que la de las personas del grupo de control. Al
margen de esto, en lo que respecta al resto de servicios sanitarios y sociales considerados, no se
detect ningn tipo de diferencia entre ambos grupos: utilizaron las urgencias hospitalarias con la
misma intensidad, fueron ingresados en los hospitales con la misma frecuencia y tuvieron la misma
probabilidad de acabar ingresados en una residencia de asistidos.
En trminos de costes, si bien los pacientes del modelo SIPA tuvieron un gasto medio inferior en los
servicios que implican la institucionalizacin de los individuos (hospitales y residencias), este efecto
se vio totalmente compensado por un incremento en el gasto medio de los servicios comunitarios,
de manera que el coste total medio de ambos grupos acab siendo el mismo. Por otra parte, aunque la satisfaccin de los cuidadores informales de los pacientes SIPA aument, no se detectaron
diferencias significativas en cuanto a la carga soportada. Finalmente, tampoco se observaron
diferencias entre ambos grupos en lo que atae a la evolucin del estado de salud de los pacientes
tratados en cada caso.
/ 34 /
Gua prctica 5
Evaluacin de impacto
OUTCOME
iento
m
trata
o de
Y1
Grup
Impacto=Y1-Y0
Y0
TIEMP0
ANTES
TRATAMIENTO
DESPUS
/ 35 /
Pero, adems de las amenazas a la validez interna provocadas por lo que en el apartado
3.1 denominbamos historia o factores contemporneos, los diseos antes-despus son
tambin muy vulnerables a las amenazas a la validez interna, especialmente los denominados fenmenos de maduracin y de regresin a la media. En esencia, puesto que este tipo de
diseo carece de un grupo de comparacin genuino sobre el que construir un contrafactual
creble, siempre queda la duda de que las variaciones observadas en el outcome a lo largo del
tiempo se habran producido de todas formas, aunque la poltica evaluada no hubiera tenido
lugar.
As pues, a pesar de que se utilizan con bastante profusin, los diseos antes-despus son
un mtodo muy poco robusto. Es por eso que, siempre que sea posible, optaremos por otros
mtodos que basen su estrategia de identificacin en la comparacin de grupos de personas
beneficiarias y no beneficiarias de la poltica. Qu hacer cuando resulta totalmente imposible construir un grupo de comparacin no beneficiario de la poltica, como es tpicamente
el caso de una poltica que se introduce en todo el territorio y afecta a toda la poblacin? En
estas circunstancias, solamente si estamos muy seguros de que los impactos esperados de
la poltica son bastante inmediatos y de que no hay factores contemporneos que influyan
sobre el outcome, podramos llegar a considerar un diseo antes-despus; en cambio, si
estas circunstancias no se dan, habra que reconsiderar seriamente la conveniencia de llevar
a cabo una evaluacin de impacto cuantitativa.
Los denominados modelos de series temporales interrumpidas constituyen el otro gran tipo
de diseo cuasiexperimental que, al igual que los diseos antes-despus, intenta estimar el
impacto de una poltica sin utilizar un grupo de comparacin. En cierta medida, constituyen
una variante refinada de los diseos antes-despus, ya que su principal caracterstica es que
utilizan informacin sobre mltiples perodos de tiempo, tanto anteriores como posteriores a
la introduccin de la poltica que se pretende evaluar. As pues, en comparacin con un modelo antes-despus, el contrafactual reflexivo de este tipo de diseos resulta ms creble, ya que
disponemos de ms informacin para estimar qu habra pasado en ausencia de la poltica.
La estrategia de identificacin de los impactos que utilizan los diseos de series temporales
interrumpidas es sencilla. A partir de las observaciones disponibles sobre la evolucin del
outcome antes de la intervencin, se utilizan tcnicas estadsticas para intentar modelizar
su comportamiento normal en ausencia de la intervencin, teniendo en cuenta la posible
influencia que hayan podido tener otros factores. A continuacin, este comportamiento normal
se proyecta en los perodos posteriores a la introduccin de la poltica, y se contrasta hasta
qu punto existen discrepancias entre las predicciones del modelo y los valores realmente observados; si las hay, se atribuyen a la existencia de la poltica (grfico 6). No obstante,
aunque la idea subyacente es simple, hay que decir que los modelos de series temporales
son tcnicamente complejos y su aplicacin exige conocimientos avanzados de estadstica.
destadstica.
/ 36 /
Gua prctica 5
Evaluacin de impacto
OUTCOME
Y1
Impacto=Y1-Y0
Grupo de tratamiento
Y0
YT-1
YT-2
YT-3
Evolucin
hipottica en
ausencia de
tratamiento
TIEMPO
TRATAMIENTO PERODO T
/ 37 /
3.4.1. Qu es?
Esta tcnica imita un experimento con asignacin aleatoria de tratamiento mediante la
creacin de un grupo de control ex post que se parece lo mximo posible al grupo de tratamiento en cuanto a caractersticas relevantes observables. La aplicacin de este mtodo
para evaluar el impacto de una poltica puede considerarse en aquellos casos en que, con
posterioridad a la intervencin pblica, disponemos de informacin tanto de una muestra
de individuos que han sido beneficiarios del programa como de otra de personas que no lo
han sido. En concreto, para cada uno de los individuos de ambos grupos, hay que tener informacin sobre el valor que toma en cada caso el outcome de inters y tambin sobre todos aquellos factores (caractersticas de los individuos, entorno en el que viven, etc.) que,
por un lado, pueden haber determinado el proceso por el que los individuos han decidido
participar en el programa y, por otro lado, pueden tener efectos sobre el valor que toma el
outcome de inters.
Lo que propone el mtodo de matching es utilizar toda la informacin anterior para construir un grupo de comparacin entre los individuos que no se benefician del programa.
Para hacerlo, el mtodo busca, para cada uno de los individuos que componen la muestra
de tratados, una pareja o match (de aqu el nombre de la tcnica) que sea lo ms parecida
posible en el sentido que acabamos de describir.
La pretensin que hay detrs de la tcnica del matching es obtener, mediante procedimientos estadsticos, lo que los experimentos sociales obtienen mediante la asignacin
aleatoria, a saber, que el grupo de individuos que utilicemos para construir el contrafactual
sea lo ms parecido posible al grupo de individuos que reciben el programa, con el fin de
minimizar tanto como se pueda el sesgo de seleccin. Pero mientras que una asignacin
aleatoria verdadera distribuye de forma equitativa las caractersticas observables y las no
observables entre el grupo de control y el de tratamiento, el matching solamente distribuye equitativamente las caractersticas observables. En otras palabras, asume que no hay
ninguna variable relevante no observable que difiera sistemticamente entre el grupo de
tratamiento y el de comparacin y que, por tanto, el outcome del grupo de tratamiento si no
hubiera participado o no se hubiera beneficiado del programa (es decir, el contrafactual)
equivale al outcome del grupo de comparacin que, realmente, no ha participado (grfico 7).
/ 38 /
Gua prctica 5
Evaluacin de impacto
OUTCOME
Momento de
observacin
por parte del
evaluador
Y1
Y0
Igualdad
hipottica
entre GT y GC
TIEMPO
TRATAMIENTO
/ 39 /
3.4.3. Limitaciones
El supuesto bsico que la tcnica del matching necesita para obtener estimaciones consistentes del impacto de una poltica es que, en media, una vez que se ha tenido en cuenta
el efecto de las variables condicionantes (el sexo, la edad, la especialidad, etc., en el caso
del ejemplo de los mdicos), los participantes habran obtenido el mismo outcome que
los no participantes si la poltica no hubiera existido. O, dicho de otro modo, el supuesto
fundamental es que no existe lo que tcnicamente se denomina seleccin en variables
no observables, es decir, no existe ningn factor que no haya sido tenido en cuenta por el
analista que influya simultneamente sobre la probabilidad de participar en el programa y
/ 40 /
sobre el outcome de inters. En caso contrario, puesto que no hay nada que garantice que el
emparejamiento haya generado muestras de tratamientos y controles equilibradas en lo que
respecta a estos factores no observados, la medida del impacto que obtenemos puede sufrir
un sesgo importante respecto a su autntico valor. En este sentido, siguiendo con el ejemplo
de los incentivos a los mdicos, este sera el caso si existieran diferencias (no observables)
de motivacin entre participantes y no participantes.
Intuitivamente, para minimizar el riesgo de que se produzca un sesgo de seleccin en las
propias estimaciones, parece obvio que lo que debera hacer el analista es intentar aplicar la
tcnica del matching utilizando un conjunto de variables de control lo ms amplio posible; en
concreto, deberan tenerse en cuenta todas aquellas variables de las que existiera evidencia
de que influyen tanto sobre la participacin como sobre el outcome de inters. En este sentido, si para algunos de estos factores no existe informacin (es decir, si estos factores son
inobservables), la credibilidad de los resultados obtenidos quedar erosionada.
Con la intencin de ilustrar las posibilidades que ofrece la tcnica del matching en la prctica, el cuadro siguiente contiene la descripcin de una evaluacin de impacto que, siguiendo
esta metodologa, intent averiguar la efectividad de los principales programas de formacin
ocupacional existentes en Catalua.
/ 41 /
CUADRO 8
EVALUACIN DE LA FORMACIN OCUPACIONAL EN CATALUA
El Servicio de Ocupacin de Catalua (SOC) desarrolla un amplio conjunto de acciones formativas
dirigidas a diversos colectivos de desempleados, cuyo objetivo es mejorar las posibilidades de que
estas personas encuentren un trabajo y lo mantengan. Los programas en marcha comprenden,
entre otros, los siguientes: Plan FIP, destinado prioritariamente a personas desocupadas mayores de 65 aos, desempleados de larga duracin, discapacitados, etc.; Centros de Innovacin y
Formacin Ocupacional (CIFO), especializado cada uno de ellos en una o varias familias profesionales; Igualdad de Oportunidades, programa de formacin dirigido especficamente a mujeres;
etctera. En el ao 2008, por encargo del SOC, un equipo de investigadores dirigido por el profesor
Toharia realiz una evaluacin de los impactos de estos programas utilizando la tcnica del matching (Toharia [et l.], 2008). Los principales ingredientes metodolgicos de esta evaluacin fueron
los siguientes:
Outcomes: situacin laboral de la persona durante los ocho trimestres posteriores al ao en
que tuvieron lugar los programas evaluados.
Grupos de tratamiento y de control: se definieron ocho grupos de tratamiento distintos, uno
para cada uno de los ocho programas de formacin ocupacional evaluados (Plan FIP, CIFO,
Igualdad de Oportunidades, etc.). Adicionalmente, se definieron mediante la tcnica del
matching ocho grupos de comparacin constituidos por demandantes de ocupacin que no
se haban beneficiado de ninguno de los programas formativos del SOC, pero que segn su
propensity score, presentaban caractersticas similares a las personas beneficiarias de los
distintos programas.
Variables del propensity score: sexo, edad, nacionalidad, nivel de estudios, mbito de investigacin, tiempo de inscripcin, alta nueva, desempleados de larga duracin, recepcin de
prestaciones, nmero de ocupaciones demandadas y provincia de residencia.
Los resultados obtenidos indican que tanto los CIFO como el Plan FIP aumentan la probabilidad
de estar ocupados de los participantes respecto a los no participantes. En cambio, en lo que respecta al programa de Igualdad de Oportunidades y a las Acciones Integradas (dirigidas a personas
con dificultades especiales), los impactos estimados sobre la ocupacin fueron nulos. Finalmente, en el caso de los Programas de Garanta Social, dirigidos a jvenes que finalizan la ESO sin
acreditarla, se detect un efecto negativo sobre la probabilidad de estar ocupado que tiende, sin
embargo, a disminuir rpidamente en el tiempo; ahora bien, debe tenerse en cuenta que este programa es el de mayor duracin y, por tanto, hay que pensar que los efectos tienden a producirse a
ms largo plazo.
/ 42 /
Gua prctica 5
Evaluacin de impacto
OUTCOME
Grupo de tratamiento
Y0
YT, t
YC, t+1
Grupo de control
YC, t
TIEMPO
TRATAMIENTO
/ 43 /
3.5.2. Limitaciones
Los modelos de dobles diferencias, a pesar de sus ventajas, no se encuentran exentos de
ver amenazada su validez interna si no se cumplen los dos supuestos que permiten a este
tipo de diseo identificar correctamente el impacto de una poltica pblica.
El primero de estos supuestos es que tanto los participantes como los no participantes
deben reaccionar de la misma manera ante los factores contemporneos a la poltica que,
/ 44 /
ms all de esta, pueden influir sobre el outcome de inters. En el caso del programa de
formacin antes mencionado esto significa que, por ejemplo, si se produce una mejora en
un factor que influye sobre la probabilidad que tienen los individuos de encontrar trabajo,
como pueda ser una reduccin en la tasa de desempleo, su efecto sobre tratamientos y
controles deber ser del mismo. En este caso, la violacin de este supuesto podra producirse si el aumento de la ocupacin se hubiera concentrado en trabajos de elevada cualificacin, y los niveles formativos de los tratamientos fueran superiores a los de los controles, ya que entonces la mejora inducida por la cada del desempleo sera superior entre los
primeros.
Existen dos formas de intentar mitigar las posibles sospechas que puedan existir sobre el
cumplimiento del supuesto de igualdad de reaccin ante factores contemporneos. En
primer lugar, si existe informacin sobre mltiples perodos de tiempo previos a la introduccin de la poltica, podemos contrastar si efectivamente los outcomes de tratamientos y
controles han evolucionado de manera similar cuando se han producido variaciones en determinados factores que tambin tienen influencia sobre el outcome (la tasa de desempleo,
en nuestro ejemplo). La otra posibilidad que podemos aplicar cuando no existe informacin
retrospectiva es estimar el modelo DD despus de haber seleccionado los grupos de tratamiento y control utilizando la tcnica del matching. De esta manera, dado que el matching
garantiza una elevada similitud entre los dos grupos, hay que pensar que las posibilidades
de que unos y otros reaccionen de la misma manera ante factores contemporneos aumentan y, por tanto, tambin la consistencia de los resultados del modelo DD.
El segundo supuesto que deber satisfacerse para que el modelo DD proporcione estimaciones no sesgadas del impacto de una poltica es que no pueden existir diferencias
entre tratamientos y controles en caractersticas no observables que varen a lo largo del
tiempo. Si existen, el hecho de que los modelos DD miden el impacto como la diferencia
entre tratamientos y controles en la variacin del outcome, no permite en este caso eliminar posibles sesgos. As pues, siguiendo con el ejemplo del programa de formacin, si la
motivacin de tratamientos y controles vara a lo largo del tiempo, y no podemos observar
esta variable, no podremos estar plenamente seguros de que este factor no es la causa de
la evolucin diferencial del outcome en el grupo de tratamiento respecto al de control y, por
tanto, de que la magnitud del impacto estimado para la poltica no sobrestime su efecto
real. Por consiguiente, si queremos que los resultados de una evaluacin de impacto que
utilice un diseo DD resulten crebles, tendremos que presentar argumentos que permitan
descartar la existencia de caractersticas inobservables que varen en el tiempo de forma
distinta entre tratamientos y controles.
El cuadro siguiente ilustra las posibilidades de los modelos DD a travs de una aplicacin
llevada a cabo en nuestro entorno. En concreto, el caso comentado es el de una evaluacin
de impacto que estima, mediante un modelo DD, los efectos que podran derivarse de una
mayor cobertura por parte del sector pblico de la atencin bucodental de los nios.
/ 45 /
CUADRO 9
EVALUACIN DEL PROGRAMA DE ATENCIN DENTAL DEL PAS VASCO
El Programa de Atencin Dental Infantil (PADI) del Pas Vasco, que lleva en funcionamiento desde
el ao 1990, constituye una experiencia de referencia en Espaa, ya que ofrece un nivel de cobertura pblica en lo que respecta a la atencin dental muy superior a la que se observa en el resto del
Estado. Este programa, adems de cubrir las extracciones como en el resto de comunidades autnomas, incluye tambin una revisin anual y el tratamiento de caries y malformaciones en todos los
nios del Pas Vasco de entre 7 y 15 aos.
Garca (2005) realiz una evaluacin del PADI que pretenda averiguar los efectos de este programa
sobre los tres outcomes siguientes: la probabilidad de no haber ido nunca al dentista, de haber ido
en los ltimos tres meses y, finalmente, que la ltima visita fuera una revisin. El estudio estima el
impacto del programa sobre estas variables utilizando un modelo de dobles diferencias. En concreto, partiendo de dos ediciones de la Encuesta Nacional de Salud correspondientes a los aos 1987 y
2001, la autora obtiene informacin anterior y posterior a la introduccin de la poltica tanto para el
grupo de tratamiento (los nios del Pas Vasco) como para el grupo de comparacin (los nios del
resto de comunidades autnomas). Los resultados obtenidos sugieren que el programa solamente
ha mejorado uno de los tres outcomes considerados: la probabilidad de haber ido al dentista en los
ltimos tres meses, superior en el grupo de tratamiento (nios del Pas Vasco) respecto al de control
(nios del resto de comunidades autnomas).
/ 46 /
una serie de condiciones, como que la demanda potencial sea superior a la oferta o existan
dudas sobre la efectividad del programa, los experimentos sociales que utilizan procedimientos de asignacin aleatorios pueden constituir una forma de evaluacin de impacto
a considerar. En cualquier caso, a pesar de que la asignacin no se produce de manera
aleatoria, un programa piloto que se implante solamente en determinadas zonas geogrficas abre las puertas a diseos no experimentales (matching o modelos DD) que utilicen las
reas no piloto para construir grupos de comparacin.
De todas formas, incluso en aquellos casos en que una nueva poltica se implementa sin
pruebas piloto y afecta de repente a todo el territorio, siguen existiendo posibilidades de
construir grupos de comparacin si, por los motivos que sea, no toda la poblacin potencialmente beneficiaria acaba participando en el programa. El peor de los casos se produce,
desde la perspectiva de la evaluacin de impacto, cuando una nueva poltica se implanta a
escala nacional y afecta a toda la poblacin, ya que esto solamente permite la aplicacin
de mtodos reflexivos (antes-despus y series temporales).
Otra ventaja de las polticas nuevas, se materialicen o no mediante pruebas piloto, es que
permiten la introduccin de elementos de evaluabilidad mientras se desarrolla la fase de
diseo del programa. Como hemos mencionado anteriormente, una evaluacin de impacto
es, por definicin, una evaluacin ex post, pero las mejores evaluaciones de impacto son
aquellas que se planifican ex ante. La posibilidad ms extrema es que el mismo despliegue
de la poltica se realice pensando en la evaluacin, como es el caso de un experimento
social, pero a veces basta con planificar una buena recogida de datos antes y despus de la
intervencin, que afecte a sendas muestras de potenciales beneficiarios y no beneficiarios,
para incrementar enormemente las posibilidades de obtener estimaciones de impacto
crebles mediante mtodos no experimentales.
Pero a menudo el impacto que se desea evaluar no es el de una poltica nueva. En estos
casos, dado que resulta imposible influir en clave evaluadora sobre el diseo del programa, el reto de la evaluacin consiste en encontrar caractersticas de la poltica y fuentes de
informacin que hagan posible la aplicacin de las tcnicas cuasiexperimentales descritas
en esta gua.
As pues, en lo que respecta a las caractersticas del programa, hay que buscar elementos
que posibiliten la construccin de contrafactuales: por ejemplo, si por los motivos que sea
un determinado programa tiene listas de espera, los individuos incluidos en ella pueden
constituir un grupo de control natural respecto del que estimar el impacto del programa;
asimismo, en la medida en que exista variabilidad geogrfica en el grado de implantacin
de una poltica, las unidades territoriales que dispongan del programa pueden compararse con las que no lo tienen (las comunidades autnomas pueden constituir, en el caso de
algunas polticas, una fuente de variabilidad a explorar en este sentido).
/ 47 /
Por otra parte, respecto a la disponibilidad de fuentes de informacin, la impresin general que se tiene en nuestro pas es que existe una infrautilizacin de los registros administrativos con finalidades evaluadoras. En este sentido, una vez que se tiene claro el diseo
que puede tomar la evaluacin de la poltica o programa, la tarea del equipo evaluador
consiste en identificar todas aquellas bases de datos con informacin relevante sobre los
individuos que componen los grupos de control y tratamiento previamente definidos, idealmente con el horizonte temporal ms amplio posible. Igualmente, adems de los registros
administrativos, la bsqueda de informacin puede ampliarse a encuestas ya disponibles
o, incluso, a la elaboracin de una nueva.
3.6.2. ECLECTICISMO
Existen bastantes casos en los que el equipo evaluador, una vez exploradas las caractersticas del programa y las fuentes de datos disponibles, se dar cuenta de que pueden
utilizarse varias de las tcnicas cuasiexperimentales comentadas en los apartados previos, y no solamente una. En estas cuasiexperimentales, excepto los diseos que no utilizan grupos de comparacin, poco recomendables como ya se ha comentado, no existe
evidencia concluyente de que haya una determinada metodologa que domine claramente
sobre el resto9. Es por este motivo que, en general, los evaluadores acostumbran a aplicar
simultneamente varios tipos de metodologas, solucin que permite verificar adicionalmente hasta qu punto los resultados obtenidos dependen mucho o poco de las elecciones
de carcter metodolgico.
Las distintas tcnicas en que hemos centrado nuestra atencin hasta el momento son
metodologas de anlisis cuantitativas. No es extrao que este tipo de enfoque sea preeminente en la evaluacin de impacto, ya que la cuestin fundamental a resolver, que no es
otra que la construccin de un contrafactual, es de naturaleza bsicamente cuantitativa.
A pesar de esto, existe la percepcin creciente entre los evaluadores de que, con el fin de
mejorar la robustez de la evaluacin de impacto, resulta recomendable complementar el
anlisis utilizando tcnicas cualitativas (entrevistas en profundidad o grupos de discusin).
El valor aadido que puede aportar su utilizacin es permitir al equipo evaluador mejorar
su conocimiento sobre las condiciones en que realmente opera el programa, las perspectivas de sus beneficiarios y otros elementos fundamentales a la hora de entender realmente
el porqu del impacto de una poltica o programa (o de su ausencia).
/ 48 /
Notas:
1 El lector interesado puede profundizar en el estudio de estos mtodos siguiendo las lecturas recomendadas
que aparecen en el anexo de esta gua. Tambin encontrar referencias que tratan sobre dos tcnicas que, dado
su carcter ms tcnico, hemos optado por dejar fuera de una gua de carcter introductorio: los modelos con
variables instrumentales y el diseo de regresin discontinua.
2 A lo largo de la exposicin, nos referiremos de manera genrica a individuos tratados y controles, a pesar
de que en muchas situaciones las unidades de anlisis no son personas. Es lo que ocurrira, por ejemplo, si
quisiramos evaluar una poltica de incentivos fiscales destinados a empresas para aumentar su investigacin en
I+D+i, o una reforma que diera ms autonoma de gestin a los centros escolares.
3 No entraremos en los detalles relativos a la dimensin (nmero de personas) que deben tener las muestras que
componen los grupos de control y tratamiento, ya que se trata de una cuestin muy tcnica. Solamente mencionaremos que cuanto ms grande sea el tamao de estas muestras, ms posibilidades habrn de detectar la
existencia de efectos atribuibles a la poltica, por muy pequeos que estos sean. Para una discusin detallada de
estas cuestiones, vase Purdon (2002).
4 Un listado muy amplio de evaluaciones de impacto hechas en todo el mundo, tanto con diseos experimentales
como cuasiexperimentales, puede encontrarse en la pgina web del Banco Mundial que aparece referenciada en
el anexo de esta gua.
5 El elevado coste de un experimento no constituye, por s solo, un argumento suficiente para decidir no llevar-
lo a cabo. La comparacin relevante debe realizarse teniendo en cuenta tambin las consecuencias que puede
suponer ampliar una poltica que, a pesar de no tener ningn impacto demostrado, absorbe una cantidad ingente
de recursos pblicos.
6 Los modelos de eleccin discreta son aquellos que pretenden establecer la relacin existente entre una variable
dependiente binaria (por ejemplo, participar o no) y una serie de variables independientes que a priori se considera que pueden influir sobre aquella. La diferencia entre los dos modelos mencionados radica en la forma funcional que se supone que relaciona la variable dependiente con las independientes: una funcin logstica en el caso
del logit, una funcin normal del caso del probit. Para obtener ms detalles sobre este tipo de modelos, vase
Corbetta (2007).
7 Este tipo de modelos se conoce en ingls con el nombre de difference-in-differences, aunque a menudo se uti-
liza la abreviatura diff-in-diff para referirse a ellos. Hemos optado por traducirlos por modelos de dobles diferencias siguiendo la propuesta de traduccin al castellano sugerida por Vera-Hernndez (2003).
8 Es importante sealar que, a la hora de estimar impactos mediante un modelo DD, no es necesario que la
informacin sea longitudinal (es decir, sobre los mismos individuos antes y despus de la intervencin). Pueden
utilizarse datos de seccin cruzada (dos encuestas realizadas antes y despus de la intervencin a individuos
diferentes), siempre y cuando podamos identificar a beneficiarios y no beneficiarios en uno y otro momento.
/ 49 /
aplicndolos a bases de datos que han sido obtenidas a partir de un experimento social. As pues, partiendo
de la premisa de que el experimento social permite identificar el impacto real, los resultados obtenidos para
el resto de mtodos se comparan con estos.
/ 51 /
Bibliografa
BLAND, F. [et l.]. A system of integrated care for older persons with disabilities in Canada: Results from a randomized controlled trial. The Journals of Gerontology: Medical Sciences
(2006), n. 61 (4), pp. 367-373.
CORBETTA, P. Metodologa y Tcnicas de Investigacin Social. Madrid: MacGrawHill, 2007.
GARCIA, P. Evaluacin de un Programa de Atencin Dental Pblico: PADI en el Pas Vasco.
Ekonomiaz (2005), n. 60, pp. 62-89.
HECKMAN, J.; HIDEHIKO, I.; TODD, P. Matching as an Econometric Evaluation Estimator:
Evidence from Evaluating a Job Training Programme. Review of Economic Studies (1997),
n. 64 (4), pp. 605-654.
KUEGER, A. B. Experimental Estimates of Education Production Functions. The Quarterly
Journal of Economics (1999), n. 114, pp. 497-532.
MOFFITT, R. A. The Role of Randomized Field Trials in Social Science Research. A Perspective from Evaluations of Reforms of Social Welfare Programs. American Behavioral Scientist
(2004), n. 47 (5), pp. 506-540.
PURDON, S. Estimating the impact of labour market programmes. Londres: Department for
Work and Pensions, 2002. (Working Paper n. 3)
RAVALLION, M. Evaluating Anti-Poverty Programs. Washington DC: World Bank, 2006. (Policy
Research Working Paper 3625)
SKOUFIAS, E. PROGRESA and Its Impact on the Welfare of Rural Households in Mexico. Washington DC: International Food Research Institute, 2005. (Research Report 139)
TOHARIA, L. [et l.]. Estudio de evaluacin de la formacin ocupacional en Catalunya. Barcelona:
Servei dOcupaci de Catalunya, 2008. (mimeo)
/ 52 /
BAKER, J. Evaluating the Impact of Development Projects on PovertyA Handbook for Practitioners. Washington, DC: World Bank, 2000.
ASIAN DEVELOPMENT BANK. Impact Evaluation: Methodological and Operational Issues.
Manila: ADB, 2006.
(http://www.adb.org/Documents/Handbooks/Impact-Analysis/default.asp)
SHADISH, W. R.; COOK, T. D.; CAMPBELL, D. T. Experimental and Quasi-experimental Designs
for Generalized Causal Inference. Boston: Houghton Mifflin Company, 2002.
MANUALES GENERALES DE EVALUACIN CON CAPTULOS SOBRE EVALUACIN DE IMPACTO:
ARTCULOS
La mayora de artculos que se mencionan a continuacin, y otros relacionados, pueden descargarse gratuitamente desde la siguiente pgina web del Banco Mundial:
http://web.worldbank.org/WBSITE/EXTERNAL/TOPICS/EXTPOVERTY/EXTISPMA/0,,contentM
DK:20215333~menuPK:451260~pagePK:148956~piPK:216618~theSitePK:384329,00.html
ARTCULOS INTRODUCTORIOS:
/ 53 /
BLUNDELL, R.; COSTA DIAS, M. Evaluation methods for non-experimental data. Fiscal
Studies (2000), n. 21 (4), pp. 427-468.
RAVALLION, M. Evaluating Anti-Poverty Programs. Washington DC: World Bank, 2006. (Policy
Research Working Paper 3625
ARTCULOS SOBRE EXPERIMENTOS SOCIALES:
BURTLESS, G. The case for randomized field trials in economic and policy research. Journal of Economic Perspectives (1995), n. 9, pp. 63-84.
DUFLO, E.; GLENNERSTER, R.; KREMER, M. Using Randomization in Development Economics
Research: A Toolkit. Londres: CEPR, 2007. (CEPR working paper, number 6059)
ARTCULOS sobre matching:
CALIENDO, M.; KOPEINIG, S. Some Practical Guidance for the Implementation of Propensity
Score Matching. Journal of Economic Surveys (2008), n. 22, pp. 31-72.
IMBENS, G. Nonparametric Estimation of Average Treatment Effects Under Exogeneity: A
Review. The Review of Economic and Statistics (2004), n. 86, pp. 4-29.
ARTCULOS SOBRE VARIABLES INSTRUMENTALES:
LEE, D.; LEMIEUX, T. Regression Discontinuity Designs in Economics. Boston: NBER, 2009.
(Working Paper Series, n. 14723)
ENLACES DE INTERS
Network of Networks on Impact Evaluation (NONIE)
http://www.worldbank.org/ieg/nonie/ index.html
Banco de Desarrollo Iberoamericano
http://www.iadb.org/ove/DefaultNoCache.aspx?Action=WUCPublicationsraImpactEvaluations
Evaluaciones de impacto en Colombia
http://www.dnp.gov.co/PortalWeb/Programas/Sinergia/EvaluacionesEstrat%C3%A9gicas/
tabid/215/Default.aspx
Evaluaciones de impacto en Chile
http://www.dipres.cl/572/propertyvalue-15223.html
Base de datos del Banco Mundial sobre evaluaciones de impacto
http://web.worLdbank.org/WBSITE/EXTERNAL/TOPICS/EXTPOVERTY/EXTISPMA/0contentM
DK:21534261~menuPK:412159~pagePK:210058~piPK:210062~theSitePK:384329,00.html
T. +34 93 554 53 00
info@ivalua.cat
www.ivalua.cat
Ejemplar impreso: 12
Versin electrnica: www.ivalua.cat