Tema 34 - Record Linkage (Vinculación de Registros)
Tema 34 - Record Linkage (Vinculación de Registros)
Tema 34 - Record Linkage (Vinculación de Registros)
34.1 – INTRODUCCIÓN
Record Linkage consiste en métodos para hacer coincidir duplicados dentro o entre
archivos usando identificadores no únicos como nombre, apellido, fecha de
nacimiento, dirección y otras características.
Las aplicaciones del Record Linkage son numerosas. En algunas situaciones, podríamos
usar una colección de listas para crear una lista grande (marco de encuesta) o
actualizar una lista grande existente.
1
registros computarizados pueden reducir significativamente la necesidad de revisiones
en la oficina y limpieza.
Otra aplicación del Record Linkage podría ser la coincidencia de una lista con otra lista
para estimar la subcobertura / sobrecobertura de una de las listas que se cree que es
razonablemente completa. Para el Censo de los Estados Unidos (Winkler, 1995), un
gran número de bloques censales (regiones contiguas de aproximadamente 70
hogares) fueron reenumerados y comparados con la lista principal de individuos. Los
procedimientos computarizados redujeron la revisión clerical (en la oficina) de un
estimado de 3000 individuos durante 6 meses a 300 individuos durante 6 semanas.
Debido a la alta calidad de las listas y las habilidades asociadas de los individuos, las
tasas de coincidencia falsa de los procedimientos computarizados fueron de
aproximadamente 0,2%. Más del 85% de las búsquedas se encontraron
automáticamente con el resto de las búsquedas fácilmente ubicadas entre las
personas potencialmente coincidentes en el mismo hogar. Los individuos
potencialmente coincidentes solían faltar tanto el nombre como la edad.
Estos campos pueden incluir un geocódigo, sexo, edad o rango de edad, nivel de
educación y nivel de ingresos. Las agencias liberan datos anónimos o enmascarados
para que se puedan realizar análisis estadísticos adicionales, pero no desean que los
"intrusos" reidentificen individuos o datos asociados con individuos colocando
nombres con registros individuales. Sweeney (1999) mostró que el 77% de los
individuos pueden ser identificados de manera única por el código postal, el sexo y la
fecha de nacimiento, que están fácilmente disponibles en listas públicas tales como
bases de datos de registro de votantes.
2
Las tasas de duplicación se basan en la validación de campo. Algunas estimaciones del
Censo de Agricultura de 1987 con un 10% de error de duplicación pueden haber sido
sustancialmente sesgadas.
Fellegi y Sunter (1969) proporcionaron un modelo matemático formal para las ideas
que habían sido introducidas por Newcombe (Newcombe et al., 1959, Newcombe y
Kennedy, 1962). Proporcionaron muchas maneras de estimar parámetros clave. Los
métodos han sido redescubiertos en la literatura de informática (Cooper y Maron,
1978), pero sin pruebas de optimalidad. Para comenzar, la notación es necesaria. Dos
archivos A y B coinciden. La idea es clasificar pares en un espacio de producto A × B de
dos archivos A y B en M, el conjunto de coincidencias verdaderas, y U, el conjunto de
no coincidencias verdaderas. Fellegi y Sunter, haciendo conceptos rigurosos
introducidos por Newcombe et al. (1959), consideró relaciones de probabilidades de la
forma:
3
donde γ es un patrón de acuerdo arbitrario en un espacio de comparación. Por
ejemplo, "puede consistir en ocho patrones que representan un acuerdo simple o no
en el componente de nombre más grande, nombre de calle y número de calle.
Alternativamente, cada γ ∈ Г también podría tener en cuenta la frecuencia relativa con
la que se producen valores específicos de componentes de nombres como "Smith",
"Zabrinsky", "AAA" y "Capitol". La relación R o cualquier función monotonamente
creciente de la misma, tal como el registro natural, se denomina peso (o puntaje)
coincidente.
4
simple de acuerdo o en desacuerdo sobre el nombre, la dirección y la edad, entonces
vemos que ninguna de las parejas estaría de acuerdo en cualquiera de los tres campos.
En la mayoría de las situaciones, una persona adecuadamente experta sería capaz de
reconocer que los dos primeros pares pueden ser iguales, pero es poco probable que
pongan una puntuación adecuada (o peso coincidente) en los dos primeros pares. El
tercer par debe ser tomado en contexto. Si el primer expediente en el par eran
individuos en la escuela de medicina en la universidad de Michigan 20 años y el
segundo expediente está de una lista actual de médicos en Detroit, Michigan, después,
después del seguimiento apropiado, podríamos determinar que el tercer Par es una
coincidencia.
En prácticamente todas las situaciones del mundo real de las que somos conscientes,
los datos de formación no han estado disponibles. Los profesionales han desarrollado
varias maneras de aprender parámetros óptimos de Record Linkage sin datos de
entrenamiento. En todas menos una de las siguientes subsecciones, describiremos
métodos de aprendizaje no supervisado donde los datos de entrenamiento no están
disponibles.
5
34.2.2.1. Ideas de Newcombe
Si los pares se toman de dos archivos (es decir, el espacio de producto de A × B),
entonces podemos usar fij como la frecuencia en A, gij como la frecuencia en B, hij
como la frecuencia en A ∩ B (que se suele aproximar con Hij = min (fij, gij)), y hacer los
cambios apropiados en (4). Observamos que la suma de las probabilidades del
6
numerador en la ecuación (4) suma a 1. En la práctica, asumimos que la suma de las
probabilidades es 1-ε donde ε> 0 y multiplicamos todos los numeradores en la
ecuación (4) por 1-ε. Esto permite una pequeña probabilidad de desacuerdo ε> 0 y P
(A1 | M) = 1 - ε. Los valores de ε> 0 fueron elegidos por la experiencia. En algunas
situaciones hubo revisión clerical en un subconjunto de parejas y el P (A 1 | M) fueron
reestimados. Aunque la reestimación (posiblemente después de varias iteraciones) era
engorrosa, funcionó bien en la práctica. Newcombe y otros habían observado que las
probabilidades en el denominador podían ser aproximadas por probabilidades de
acuerdo aleatorio
Fellegi y Sunter (1969) fueron los primeros en dar métodos muy generales para
calcular estas probabilidades en situaciones que difieren de las situaciones de
Newcombe en la sección anterior. Como los métodos son útiles, describimos lo que
introdujeron y luego mostrar cómo las ideas condujeron a métodos más generales que
se pueden utilizar para el aprendizaje sin supervisión (es decir, sin datos de
entrenamiento) en un gran número de situaciones. Fellegi y Sunter observaron varias
cosas. Primero,
7
Para cualquier conjunto A de pares en A × B. La probabilidad a la izquierda se puede
calcular directamente del conjunto de pares. Si los conjuntos A representan un simple
acuerdo / desacuerdo, bajo la condición (CI), obtenemos
Hay una serie de suposiciones implícitas que se hacen a menudo cuando se comparan
dos archivos y las probabilidades de cálculo utilizando (6) - (8). La primera es que existe
una superposición significativa entre dos ficheros A y B. Esto significa esencialmente
que A ∩ B es o bien la mayor parte de A o la mayor parte de B. Si esta suposición no es
verdadera, entonces las probabilidades obtenidas a través de los métodos de
Newcombe o el FS Métodos pueden no funcionar bien. La segunda suposición es que
8
ni el archivo A ni B pueden ser muestras simultáneamente de dos archivos más
grandes A2 y B2. Deming y Gleser (1959) proporcionaron una teoría que demostraba la
falta de fiabilidad de determinar el solapamiento de muestreo (es decir, el número de
duplicados) de dos archivos de muestra. Por ejemplo, si A2 = B2 contienen 1000
registros en los que el 1% tiene el apellido de Smith, entre los coincidencias M entre A2
y B2, existe una probabilidad del 1% de ser un par de acuerdo en que Smith es
realmente una relación. Si A y B son muestras del 10% de A2 y B2, respectivamente,
entonces entre los fósforos entre A y B, hay una probabilidad del 0.1% de un par que
conviene en Smith que es realmente una relación. La tercera suposición es que las
tasas de errores tipográficos son bastante bajas por lo que los cálculos basados en la
frecuencia basada en los diferentes valores observados de los campos son válidos. Si
un valor relativamente raro de apellido como Zabrinsky tiene seis ortografías
diferentes en los seis registros en los que apareció, entonces no es posible calcular
probabilidades exactas basadas en la frecuencia directamente del archivo.
Por ejemplo, sólo podemos considerar pares que coinciden en la primera inicial de
nombre, apellido y fecha de nacimiento. Si creemos (posiblemente basado en la
experiencia previa) que no estamos obteniendo una proporción suficientemente
grande de relaciones con un primer criterio de bloqueo, podemos intentarlo un
segundo. Por ejemplo, sólo podemos considerar pares que coinciden en la primera
inicial del nombre, la primera inicial del apellido y el código ZIP + 4 (que representa
aproximadamente 50 hogares). FS dio las extensiones teóricas directas para el
bloqueo. Al realizar el cálculo sobre los pares P1 en A × B obtenidos mediante el
bloqueo, hay un cuarto supuesto implícito: que los pares en P 1 contienen una
proporción moderadamente alta de coincidencias (digamos 3 +% de P1 consta de
coincidencias). En la siguiente sección, regresamos a la proporción mínima necesaria
de pares que necesitan ser coincidencias en situaciones más generales. Los métodos
para obtener las probabilidades dadas por (6) - (8) se descomponen cuando la
proporción de coincidencias de M en el conjunto de pares P 1 es demasiado baja. Los
cálculos también se descomponen si hacemos el cálculo sobre los 10 8 pares en A × B.
En A × B, como máximo 0,01% de los pares son coincidencias. En la siguiente sección,
mostraremos cómo podemos encontrar efectivamente probabilidades razonables en
una variedad de situaciones.
9
34.2.2.3. Algoritmo de maximización de expectativas (EM algorithm )
Y tener en cuenta que la proporción de pares que tienen representación γ ∈ Г [Es decir,
el lado izquierdo de la Ec. (8)] se puede calcular directamente a partir de los datos
disponibles. En cada una de las variantes, ya sea M y U, C1 y C2, o C1, C2 y C3 partición A
× B.
10
podría haber sido obtenida por los parámetros iniciales obtenidos a partir de
conjeturas bien informadas. En el siguiente, utilizamos los datos del Censo del Ensayo
de Vestir 1988 de una de las 457 regiones de los Estados Unidos que usamos para el
Censo Decenal de 1990. Los campos coincidentes constan de apellido, nombre,
número de casa, nombre de la calle, teléfono, edad y sexo. En la actualidad, también
utilizamos inicial medio, unidad (identificador de apartamento) y estado civil. El primer
archivo A es una muestra de bloques de la región y el segundo archivo es una
enumeración independiente de la misma muestra de bloques. El primer tamaño de
archivo es 15.048 y el segundo tamaño de archivo es 12.072.
En la primera parte del ejemplo, sólo consideramos 116,305 parejas que coinciden en
el identificador del bloque del Censo y el primer carácter del apellido y, en la segunda
parte, consideramos solamente las 1.354.457 parejas que coinciden en identificar el
bloque del Censo solamente. Un bloque censal consta de aproximadamente 70
hogares, mientras que un área ZIP + 4 representa aproximadamente 50 hogares.
Observamos que puede haber un máximo de 12.072 coincidencias si el archivo más
pequeño es un subconjunto exacto del archivo más grande. Como es típico en los
censos de población, el trabajo comienza con listas de direcciones de hogares en las
que los datos de los formularios de encuesta se utilizan para rellenar información
asociada con individuos. En muchas situaciones (como en las familias), habrá más de
un individuo asociado con cada dirección (unidad de vivienda).
11
Superamos la situación creando un EM de 3 clases que esperamos que divida los
registros acordando las variables del hogar en 2 clases y deja una tercera clase que
sería no coincidencias fuera de los hogares. Las ideas iniciales se debieron a Smith y
Newcombe (1975), quienes proporcionaron ajustes ad hoc de ponderación
(verosimilitud) para el conjunto de campos de personas y el conjunto de campos de
hogares.
Sus ideas han sido verificadas por Gill (1999), entre otros. Como el algoritmo EM es
muy sencillo de convertir a 3-clases, hacemos los ajustes algorítmicos apropiados y
elegimos probabilidades de inicio apropiadas. Winkler (1993b) proporciona detalles. La
tabla 3 da las probabilidades iniciales para una primera clase que esperamos
corresponde a la persona corresponde a M dentro de un hogar, una clase intermedia I
que esperamos corresponde a no coincidencias dentro del mismo hogar, y una clase O h
que son pares que no están de acuerdo en los campos del hogar . Para obtener las u-
probabilidades finales, combinamos las probabilidades i y o h probabilidades de
acuerdo con las proporciones en las clases 2 y 3.
12
Si aplicamos el algoritmo de EM de 3 clases a los 1,354,457 pares que están de acuerdo
en el bloque (pero no el bloque más el primer carácter del apellido) y usamos buenas
suposiciones iniciales para las probabilidades, entonces obtendremos probabilidades
m similares de "m" como lo hicimos en Tabla 3. Esto es cierto aunque la proporción
estimada de parejas en la primera clase es 0,0081. En general, cuando empezamos con
conjuntos de pares que son demasiado grandes, el algoritmo EM no convergerá a
estimaciones que no sean razonables para separar los pares de los otros pares. El
algoritmo EM cuando se aplica al conjunto mucho mayor de pares puede ser mucho
más sensible al conjunto de puntos de partida.
13
En términos más generales, tal vez queramos dar cuenta de las dependencias
directamente usando modelos loglineales apropiados (Bishop et al., 1975). Winkler
(1993b) proporciona un algoritmo general de EMH que explica las interacciones
generales entre campos y permite que las restricciones convexas predispongan ciertas
probabilidades estimadas en regiones basadas en una información a priori utilizada en
proyectos similares de comparación. El algoritmo EMH es una forma de algoritmo
MCECM (Meng y Rubin, 1993) que además permite restricciones convexas. La
interacción EM puede producir parámetros que producen ligeras mejoras en la eficacia
de la concordancia. Es mucho más difícil de aplicar debido a su sensibilidad a cambios
moderados en el conjunto de interacciones. Winkler (1993b) y Larsen y Rubin (2001)
demostraron que se pueden seleccionar conjuntos efectivos de interacciones
basándose en la experiencia. El punto de partida para la interacción EM es el conjunto
de parámetros del CI EM.
14
La definición de común es que el carácter de acuerdo debe estar dentro de la mitad de
la longitud de la cadena más corta.
15
El Trabajo de Cohen et al. (2003a, b) proporciona evidencia empírica de que los nuevos
comparadores de cadenas pueden desempeñarse favorablemente en comparación con
Bigrams y Edit Distance. Editar distancia utiliza programación dinámica para
determinar el número mínimo de inserciones, supresiones y sustituciones para pasar
de una cadena a otra. La métrica Bigram cuenta el número de pares consecutivos de
caracteres que coinciden entre dos cadenas. Una generalización de bigrams es q-grams
donde q puede ser mayor que 2. Cohen et al. (2003a, b) proporcionaron comparadores
de cadenas adicionales que demostraron que superaron ligeramente el comparador de
cadenas Jaro-Winkler con varias plataformas de prueba pequeñas pero no con una
plataforma de prueba similar a los datos del Censo.
16
34.2.4. Un ejemplo empírico
Los procedimientos que utilizamos son los siguientes. El procedimiento más simple,
crude, sólo utiliza una suposición ad hoc (pero con conocimiento) para los parámetros
de coincidencia y no utiliza comparadores de cadena. El siguiente, param, no utiliza
comparadores de cadenas, pero sí estima las probabilidades m y u. Estas
probabilidades se estiman a través de un procedimiento iterativo que implica una
revisión manual de los resultados coincidentes y la reutilización sucesiva de los
parámetros reestimados. Estos procedimientos de refinamiento iterativo son una
característica del sistema CANLINK de Statistics Canada.
El tercer tipo, param2, utiliza las mismas probabilidades que param y el comparador
de cadena Jaro básico. El cuarto tipo, em, utiliza el algoritmo EM para estimar
parámetros y el comparador de cadenas Jaro. El quinto tipo, em2, utiliza el algoritmo
EM para estimar parámetros y la variante Winkler del comparador de cadenas que
realiza un ajuste hacia arriba basado en la cantidad de concordancia en los primeros
cuatro caracteres de la cadena.
En la Tabla 6, el corte entre las coincidencias designadas se determina por una tasa de
coincidencia falsa de 0,002. Se permite que los tipos crude y param aumenten
ligeramente por encima del nivel de 0,002 porque generalmente tienen mayores
niveles de error. En cada par de columnas (coincidencias designadas y pares clerical
designados), rompemos los conteos en coincidencias verdaderas y no coincidencias
verdaderas. En las coincidencias designadas, las verdaderas no coincidencias son
coincidencias falsas.
17
comparadores de cadena en el software CANLINK, siendo el comparador Jaro-Winkler
el predeterminado.
La mejora entre param2 y em2 no es tan dramática, ya que es mucho más difícil
mostrar mejoras entre pares "difíciles de igualar" y debido a las diferencias en los
métodos de estimación de parámetros. El refinamiento iterativo se utiliza para param2
(un método estándar en el software CANLINK) en el que los pares son revisados,
reclasificados y los parámetros reestimados. Este método es un tipo de aprendizaje
(parcialmente) supervisado y requiere mucho tiempo.
La mejora debida a los parámetros de em2 puede explicarse porque los parámetros
son ligeramente más generales que los obtenidos en CI. Si Ax i representa un acuerdo o
un desacuerdo en el campo i-ésimo, entonces el rendimiento de nuestra hipótesis de
CI
18
En esta sección, hemos demostrado que mejora muy dramática en la eficacia del
Record Linkage a través de avanzar desde los procedimientos ad hoc aparentemente
razonables a los procedimientos que utilizan procedimientos de Record Linkage
computarizados modernos. La cuestión que afecta a los organismos de estadística es si
sus marcos de encuestas están bien mantenidos utilizando procedimientos eficaces.
Actualizar procedimientos de coincidencia es a menudo tan sencillo como reemplazar
una subrutina que utiliza métodos ad hoc con otra subrutina. Es crucial nunca asumir
que los procedimientos de Record Linkage moderadamente sofisticados se están
utilizando como demuestra la siguiente situación.
Los datos de aprendizaje representativos rara vez están disponibles para obtener los
parámetros para las reglas de clasificación de Record Linkage. Si los datos de
aprendizaje están disponibles, entonces es posible obtener los parámetros agregando
las cantidades apropiadas para obtener las probabilidades en (1) y (2). De hecho, con
suficientes datos de aprendizaje, es fácil estimar las probabilidades en (1) que tengan
en cuenta las dependencias entre diferentes campos coincidentes y estimar las tasas
de error.
Winkler (1989a) mostró que los parámetros óptimos de Record Linkage varían
significativamente en diferentes regiones geográficas. Para el Censo Decenal de los
Estados Unidos de 1990, se necesitarían datos de aprendizaje para las 457 regiones
donde se realizó la correspondencia. La cantidad de tiempo necesario para obtener los
datos de aprendizaje en las 457 regiones habría superado sustancialmente las 3
semanas que se asignó para la coincidencia de computadoras. En más de 20 años de
Record Linkage en la Oficina del Censo, nunca ha habido datos de capacitación. En más
19
de 30 años en el mantenimiento de los Archivos Sanitarios Nacionales y en la
realización de otros grandes proyectos de adaptación en la Universidad de Oxford, Gill
(2000, comunicación privada) nunca tuvo datos de aprendizaje.
(1) Identificar las listas existentes que se pueden utilizar en la creación de la lista
principal. En esta situación, es importante concentrarse en 10 o menos listas. Es
prácticamente imposible considerar miles de listas.
(2) Con cada lista, obtenga un diseño anotado. La anotación debe incluir la ubicación
de diferentes campos y los valores potenciales que pueden asumir diferentes campos.
Por ejemplo, una lista dada puede tener varios códigos de estado asociados con si la
entidad sigue en el negocio o está viva. Con listas de negocios, puede tener códigos de
estado adicionales indicando si el registro está asociado con otra entidad como
subsidiaria o duplicado. Si el diseño anotado no está disponible, rechace la lista. Si la
lista está en un sistema informático incompatible o en un formato incompatible tal
como una lista mecanografiada o una microficha, entonces rechace la lista.
(3) Obtener las listas para comenzar a ponerlas en un formato estándar que será
utilizado por los programas de detección y actualización de duplicados. Si la lista no
pasara a través de los programas de normalización de nombres y direcciones, entonces
rechácela. Si algunos o muchos registros de la lista no pueden ser estandarizados,
20
considere rechazar la lista o usar registros que puedan ser estandarizados. El formato
estándar debe incluir un campo para el origen de una lista y la fecha de la lista. Si es
posible, es una buena idea tener también una fecha para el registro individual en la
lista.
(4) Si los recursos lo permiten, se puede obtener una mayor precisión comparando
secuencialmente cada fuente potencial de actualización con la lista principal. Hacer
coincidir cada lista de una manera secuencial permite una limpieza clerical más precisa
de los duplicados. Si la limpieza clerical no puede hacerse de una manera eficiente,
entonces los duplicados en la lista principal producirán más y más duplicados
adicionales cuando la lista principal se actualice sucesivamente. Si parece que una lista
individual está causando demasiados duplicados para ser agregados erróneamente a la
lista principal, entonces rechazar la lista como un origen de actualización. Si un
subconjunto grande del origen de actualización no genera un número suficientemente
grande de entidades nuevas en la lista principal, también podría excluirse.
Algunas personas pueden mudar más de una vez. Con las listas de pequeñas empresas
(como los minoristas de petróleo), el cambio de nombre o dirección puede superar el
10% por año. En el mantenimiento de un gran archivo nacional de salud o índice
nacional de defunción, un 1-3% de error neto por año puede producir un error
sustancial después de varios años.
21
34.3.2. Preparación inicial de los ficheros
Es muy típico que los archivos bien mantenidos lleven códigos de estado que indiquen
si una entidad está todavía viva o en los negocios y si la información como una
dirección o un número de teléfono es actual. Si un archivo tiene códigos de estado que
indican que ciertos registros están fuera de alcance, en la mayoría de las aplicaciones
coincidentes se deben eliminar los registros fuera del alcance antes de usar el archivo
para actualizar o fusionar. En algunos archivos, puede ser difícil determinar fuera de
alcance. Por ejemplo, las empresas eléctricas tienen información de direcciones muy
buena que las personas pueden desear utilizar en la actualización de una lista de
residencias. Desafortunadamente, las compañías de electricidad suelen incluir
pequeños establecimientos comerciales con clientes residenciales porque mantienen
sus listas por categorías de caudal. Si se utiliza la lista de utilidades eléctricas para
actualizar una lista de hogares, se agregarán muchas direcciones comerciales "fuera
del alcance".
Puede ser necesario revisar varios campos en dos archivos. Por ejemplo, si un archivo
tiene direcciones que son casi enteramente del número de la casa de la forma y el
nombre de la calle y otro archivo tiene una porción sustancial de las direcciones en el
cuadro de la forma PO, entonces puede ser difícil de igualar a dos archivos usando
nombre y dirección como información. Con listas de negocios, puede ser necesario
tener información auxiliar que permita separar la sede de las filiales. Con muchas
empresas, la sede completa formularios de encuesta. Si se envía un formulario de
encuesta a la filial y se devuelve, la organización de la encuesta puede contar dos veces
la información de la filial que también se informa en los totales de la sede.
22
antes de ejecutar archivos a través de un programa coincidente se denominan
estandarización.
(1) La sustitución de las variantes ortográficas por una ortografía coherente común se
denomina Ortografía.
(A) Reemplazar Sexo Sexo (masculino = '1', mujer = '2', ausente = '0') con (masculino =
'M' Female = 'F', missing = '')
B) Sustitúyase " January 11, 1999 " y " 11 January, 1999 " con MMDDYYYY = '01111999'
o YYYYMMDD = '19990111'
La consistencia del código se refiere a veces como hacer los estados de valor de las
variables(o campos) consistentes. En Record Linkage, una variable (o campo) es
típicamente una cadena de caracteres como un nombre completo, una dirección
completa o un subcomponente como el nombre oapellido.
(3) Identificar las posiciones inicial y final de los componentes individuales de una
cadena de forma libre como un nombre o dirección se conoce como análisis sintáctico.
(A) Identifica las ubicaciones de nombre, inicial y apellido en "Mr John A Smith Jr" y
"John Alexander Smith"
(B) Identifica las ubicaciones del número de la casa y el nombre de la calle en '123 East
Main Street' y '123 E. Main St. Apt. 16'
23
34.3.3. Normalización y análisis de nombres (sintáctico)
24
34.3.4. Normalización de la dirección y análisis sintáctico
25