Tema 2 Oade
Tema 2 Oade
Tema 2 Oade
formación de usuarios f Conjunto de acciones que los SID llevan a cabo para ayudar
a los usuarios en su búsqueda, consistentes en la elaboración de guías de uso general, de
consulta del centro o sobre el funcionamiento de sus bases de datos.
Machine Readable Catalog (MARC 21) m Formato que permite intercambiar registros
entre diferentes bases de datos; sus normas codifican, almacenan e intercambian datos bi-
bliográficos.
otro. Es apropiado para SID de libre acceso, como las bibliotecas públicas y universitarias. Por
ejemplo, útil para ordenar siguiendo las clases de la CDU (Clasificación decimal universal).
referencia documental f Producto documental que contiene todos los datos identifica-
tivos y descriptivos del documento. La referencia documental es la representación conden-
sada del documento original. Esta referencia se introduce en el catálogo y se convierte en la
herramienta que representa el documento para futuras búsquedas.
servicios de difusión pl Servicios de la fase de salida puestos a disposición de los usuarios
para hacer difusión de la colección, por ejemplo el acceso al fondo, servicios de referencia,
préstamo, reprografía y formación de usuarios.
servicios de referencia m Servicios que prestan los SID para orientar y ayudar al usuario
en la consulta del fondo, en la búsqueda, la localización, la selección, la identificación de las
fuentes de información y la información final.
signatura topográfica f Código que identifica cada material en las salas y estanterías
del SID. Es el conjunto de números, letras y símbolos que localiza y ordena físicamente el
documento en la estantería.
salida f Última fase de la cadena que pone a disposición de los usuarios un conjunto de
instrumentos para la búsqueda y unos servicios de difusión.
CC-BY-NC-ND • PID_00143966 43 La cadena documental
Bibliografía
Alberch i Fugueras, R. (1999). Gestió integral d’arxius. Barcelona: Fundació per a la Uni-
versitat Oberta de Catalunya.
Allo Manero, A. (2002). “Conservación de la colección”. En: Luisa Orera Orera (ed.). Manual
de Biblioteconomía. Madrid: Síntesis (pág. 181-200).
Biblioteca UOC (2005). Criteris de selecció de recursos web gratuïts. Document de treball. Bar-
celona (revisión marzo del 2006).
Cid Leal, P. (1999). Fonaments de llenguatges documentals. Barcelona: Fundació per la Uni-
versitat Oberta de Catalunya.
García Rodríguez, A. (2002). “Servicios de lectura en sala y préstamo”. En: Luisa Orera
Orera (ed.). Manual de Biblioteconomía. Madrid: Síntesis (pág. 247-263).
García Valenzuela, H. (2002). “El soporte de la biblioteca”. En: Luisa Orera Orera (ed.).
Manual de Biblioteconomía. Madrid: Síntesis (pág. 201-214).
ISAD(G): Norma internacional general de descripció arxivística: adoptada per la Comissió Ad Hoc
de Normes de Descripció, Suècia, 21-23 de gener de 1993: versió final aprovada pel CIA. Barcelona:
Associació d’Arxivers de Catalunya: Departament de Cultura de la Generalitat de Catalunya,
1995. ed. orig.: Ottawa: CIA, 1994. ISBN 84-605-4625-X.
Orera Orera, L. (2002). “La colección, formación, desarrollo y mantenimiento” En: Luisa
Orera Orera (ed.). Manual de Biblioteconomía. Madrid: Síntesis (pág. 92-112).
Termens Graells, M. (2005). “Los consorcios una nueva etapa de la cooperación bibliote-
caria”. El profesional de la información (mayo-junio), vol. 14, núm. 3, pág. 166-173.
Turiel, J. (2006). “Recursos web per a les adquisicions”. BID Textos universitaris de biblioteco-
nomia i documentació, núm. 16 (juny). Barcelona.
Vall Casa, A. (2006). “Esporgar: per què, com i quan”. BID Textos universitaris de biblioteco-
nomia i documentació, núm. 16 (juny). Barcelona.
CC-BY-NC-ND • PID_00143966 45 La cadena documental
Vilchez Pardo, J. (2002). “Tratamiento y ubicación de la colección” En: Luisa Orera Orera
(ed.). Manual de Biblioteconomía. Madrid: Síntesis (pág. 113-135).
Análisis de
contenido:
resumen e
indización
Manela Juncà Campdepadrós
PID_00143964
CC-BY-NC-ND • PID_00143964 Análisis de contenido: resumen e indización
Los textos e imágenes publicados en esta obra están sujetos –excepto que se indique lo contrario– a una licencia de
Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 España de Creative Commons. Podéis copiarlos,
distribuirlos y transmitirlos públicamente siempre que citéis el autor y la fuente (FUOC. Fundación para la Universitat
Oberta de Catalunya), no hagáis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en
http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es
CC-BY-NC-ND • PID_00143964 Análisis de contenido: resumen e indización
Índice
Introducción............................................................................................... 5
Objetivos....................................................................................................... 7
1. El análisis de contenido................................................................... 9
2. El resumen........................................................................................... 11
2.1. Tipos de resúmenes ..................................................................... 14
2.2. Resumen automático ................................................................... 16
3. La indización....................................................................................... 20
3.1. Lenguaje natural y lenguaje documental ................................... 20
3.1.1. Número de términos ..................................................... 21
3.1.2. Control de las formas .................................................... 22
3.1.3. Control del significado .................................................. 22
3.1.4. Relaciones de significado de los términos ..................... 24
3.2. ¿Cómo se indiza? ........................................................................ 26
3.3. Calidad y coherencia de la indización ....................................... 31
Actividades.................................................................................................. 53
Glosario........................................................................................................ 54
Bibliografía................................................................................................. 58
CC-BY-NC-ND • PID_00143964 5 Análisis de contenido: resumen e indización
Introducción
Itinerario�de�estudio
Concepto Ved
Ambigüedad 2. La indización
Lenguaje natural
Exhaustividad
Especificidad
Traducción
Univocidad
CC-BY-NC-ND • PID_00143964 6 Análisis de contenido: resumen e indización
Concepto Ved
Objetivos
Con el estudio de los materiales asociados a este módulo alcanzaréis los obje-
tivos siguientes:
En cuanto al resumen:
En cuanto a la indización:
1. Analizar los factores necesarios para que haya una buena comunicación
documental: entender los problemas del lenguaje natural y la función de
los lenguajes documentales dentro de esta comunicación.
1. El análisis de contenido
Son tareas de cariz intelectual en las que la formación y la habilidad del analista
juegan un papel importante.
Humano Automatizado
La rama científica que estudia cómo emular el conocimiento humano, en Ved también
cuanto a la identificación de los conceptos y las frases con contenido relevante
Trataremos el procesamiento
para el resumen y la indización, es el procesamiento en lenguaje natural. del lenguaje natural en el su-
bapartado 2.4 y en el apartado
3.
I.�Gil�Leiva;�J.�V.�Rodríguez
A modo de conclusión Muñoz (1996). “El procesa-
miento del lenguaje natural
Para representar o describir el contenido de un documento el analista tiene que llevar aplicado al análisis del con-
a cabo dos operaciones: tenido de los documentos”.
Revista general de informa-
• El resumen, que condensa el contenido en un texto más breve y manejable. ción y documentación (vol.
6, núm. 2, pág. 205-218).
• La indización, que identifica los conceptos o temas principales. También se conoce
como descripción característica.
2. El resumen
Ved también
Según la norma UNE 50-103-90 Preparación de resúmenes, un resumen es
la presentación abreviada y precisa de un documento, sin interpretación Encontraréis la norma UNO
50-103-90 en el espacio “Ma-
ni crítica y sin mención expresa del autor del resumen. teriales y fuentes” de las aulas.
1)�Resumen�humano:
a) El�autor del documento. Los resúmenes elaborados por los propios autores Resúmenes para revistas
son muy habituales en el mundo de las comunicaciones científicas y tecno-
Las revistas acostumbran a dar
lógicas. directrices a sus autores para
la elaboración de resúmenes.
Ved, por ejemplo, la revista EPI
b) Un especialista en la materia de la que trata el documento. en su apartado “Instrucciones
para los autores”.
SAGAN, Carl. Cosmos. Traducció: Albert Santamaria i Martínez; pròleg: Ricard Guerrero.
Barcelona: Publicacions i Edicions de la Universitat de Barcelona: Omnis Cellula, cop.
2006.
“He aquí una de las obras más destacadas de la literatura internacional de divulgación
científica, publicada por primera vez en catalán. Una obra imprescindible de uno de los
grandes maestros de la divulgación, que nos introduce en los grandes enigmas que la
humanidad ha tratado de entender y explicar desde tiempos inmemoriales, y por los
cuales ha nacido lo que llamamos ciencia.
Desde la infinitud del Universo hasta el mundo invisible de los átomos, desde el naci-
miento de las estrellas hasta la aparición de la vida, Carl Sagan consigue transmitir los
conocimientos de la ciencia actual de una manera clara y apasionante.”
Para un analista sólo tendría utilidad el último párrafo, en qué aparecen términos como
universo, átomos, estrellas, vida.
Difundir la información
El resumen es útil en dos fases de la cadena, en los procesos de selección
y adquisición que se da en la primera fase de la cadena y en la fase Cada vez más bases de da-
tos referenciales ofrecen el re-
de salida, donde es un excelente instrumento de recuperación, ya que sumen de sus monografías y
revistas, como por ejemplo
el resumen ofrece más datos que la simple referencia documental. La Ebsco, Dialnet, Compludoc,
principal utilidad del resumen es la de difundir la información. CBUC, Eric database o ISI cu-
rrent contents connect. Tam-
bién lo hacen las bases de da-
tos de novedades editoriales,
por ejemplo la editorial Trea
En todos los casos es indudable el valor informativo que aporta el resumen (recomendamos el acceso des-
para difundir el contenido del documento de la colección. Pero además, el de la biblioteca de la UOC).
resumen tiene otras utilidades, tal como dice la norma UNE 50-103-90:
Según María Pinto (1992), las características�de�un�resumen son las siguien- Lectura complementaria
tes:
Podéis ampliar la informa-
ción sobre el resumen leyen-
• Brevedad. Se tienen que omitir datos preliminares o temas del conocimien- do la obra siguiente:
M.�Pinto�Batanea (1992). El
to común.
resumen documental: principios
y métodos. Madrid: Pirámide/
Fundación Germán Sánchez
• Pertinencia. El resumen se tiene que adecuar al mensaje principal del do- Ruipérez (Biblioteca del Li-
cumento, sin obviar o interpretar los datos. bro, Y).
A modo de conclusión
• Los resúmenes automatizados incorporados en los catálogos son muy útiles para ex-
traer términos de indización del texto, para hacer búsquedas de palabras clave que no
se encuentran en el título, para servir de control bibliométrico y ayudar a la difusión
a través de los servicios de alerta.
CC-BY-NC-ND • PID_00143964 14 Análisis de contenido: resumen e indización
1)�Resumen�informativo
Sin embargo, no hay que seguir forzosamente este orden, ya que hay entornos,
como el técnico científico, donde se prefieren los resúmenes orientados a los
resultados (para que la discriminación sea más rápida).
“Artículo divulgativo sobre el juego del ajedrez, estructurado según sus orígenes, anti-
güedad, expansión, variantes y simbolismo.
Del Ghaturanga proceden en cascada las diferentes variantes del ajedrez: de la India viajó
a Persia en el siglo VI d.C., donde pasó de los 4 jugadores originales a 2 en la versión persa
Shatranj. Desde Persia se extendió hacia Occidente y hacia Oriente.
Hacia Occidente: paralela a la expansión árabe, el juego llega a la Península Ibérica du-
rante la Alta Edad Media, y desde aquí se expande al resto de Europa y al resto del mundo
en la época de las colonizaciones.
Hacia Oriente: en la China, en el s. VII d.C., el ajedrez toma la forma del ajedrez chino
Xiang qi; en el Japón, el Shogi; en Indochina, el ajedrez birmano y tailandés. Tanto en
Oriente como en Occidente, el ajedrez presenta innumerables variaciones locales.
CC-BY-NC-ND • PID_00143964 15 Análisis de contenido: resumen e indización
El tablero y las fichas parecen poseer un significado simbólico. El tablero, con la alter-
nancia de casillas blancas y negras, forma un mandala. El simbolismo de las fichas es
menos esotérico y ha ido cambiando según los tiempos: obispos, elefantes, etc.
2)�Resumen�indicativo
Redactaremos sólo las ideas centrales del documento. Su lectura no puede sus-
tituir la lectura del original. Como su nombre sugiere, el resumen indicativo
presenta de forma abreviada y muy sintética el contenido o la tipología del
documento. Su extensión puede oscilar entre una frase o 4 líneas de texto.
“Artículo divulgativo sobre el juego del ajedrez, trata de su origen hindú, antigüedad,
expansión histórica tanto en Oriente como en Occidente, variantes nacionales y simbo-
lismo del tablero y las fichas.”
3)�Resumen�selectivo
“El ajedrez, además de un juego, es una herramienta educativa de primer orden, casi una
ciencia.”
A modo de conclusión
• El resumen�selectivo consigna sólo una parte concreta del documento. El más ha-
bitual es el resumen de conclusiones, pero también hay otros tipos, como la reseña
(review).
CC-BY-NC-ND • PID_00143964 16 Análisis de contenido: resumen e indización
y Chen, 2008) de contenidos afines o redundantes (autores citados en Lloret Podéis consultar los resulta-
et al., 2008; y Mateo et al., 2003). dos de las investigaciones de
estos autores en los artículos
siguientes:
Los resúmenes automáticos se conocen también como extracts. La terminolo- E.�Lloret;�O.�Ferrández;�R.
Muñoz;�M.�Palomar (2008).
gía anglosajona diferencia así los extracts y los abstracts. Los extracts son los “Integración del reconoci-
resúmenes formados a partir de la extracción de algunas frases del texto pre- miento de la impliación tex-
tual en tareas automáticas de
viamente seleccionadas por un programa, mientras que los abstracts son los resúmenes de textos”. Proce-
samiento del lenguaje natural,
resúmenes elaborados por una persona.
n°. 41, pág. 183-190.
P.�L.�Mateo;�J.�C.�González;
J.�Villena;�J.�L.�Martínez
(2003). Un sistema para resu-
La base de todas las técnicas de funcionamiento de un programa de men automático de textos en
resúmenes automático es el cómputo de la frecuencia de las palabras. castellano.
Hay diversas herramientas para hacer estos cálculos, por ejemplo WVTool. Se Ved también
trata de contar cuántas veces sale una palabra no vacía en el texto. Encontraréis una explicación
detallada sobre las palabras va-
cías en el módulo “Indización
automática y descriptores li-
bres”.
CC-BY-NC-ND • PID_00143964 17 Análisis de contenido: resumen e indización
“Tropical storm Gilbert formed in the eastern Caribbean and strengthened into a hurri-
cane Saturday night. There were no reports of casualties.”
Oración 1: Tropical (2) storm (6) Gilbert (7) formed (1) in (0) the (0) eastern (1) Carib-
bean (1) and (0) strengthened (1) into (0) a (0) hurricane (7) Saturday (4)
night (2).
Oración 2: There (0) were (0) no (0) reports (1) of (0) casualties (1).
Lo primero que vemos es que las palabras vacías, es decir, las palabras que no tienen
significado (preposiciones, artículos, verbos) no se computan.
Al lado de cada palabra con significado vemos el número de veces que sale en todo el tex-
to. Se suman los valores, de manera que la oración 1 tiene 3,2 puntos y la oración 2, 0,2.
El programa seleccionará la frase 1 como más representativa para el resumen automático.
Este sistema de resumir a partir de las frases con las palabras más significativas
en el texto parece simplista pero tiene cierta justificación. Según Kupiec et al.
(1995) aproximadamente el 80% de las frases en resúmenes humanos están
copiadas literalmente o con pequeñas modificaciones del texto original.
A partir de esta base estadística se incorporan otras técnicas para dotar al pro-
grama de más conocimiento y paliar la escasa coherencia del resultado, como
puede ser, por ejemplo, la resolución de la anáfora o aplicar programas (por
ejemplo, WordNet) que proporcionen relaciones como las de sinonimia o hi-
peronimia, o mecanismos para detectar y eliminar la redundancia.
(2)
• Connexor Podéis practicar con el programa
Swesum, que es gratuito y traduce
• Daedalus
al español.
• Extractor
• FociSum
• InTEXT (Dynamic Summarizing)
• Inxight Summarizer
• IslandInText
• K-Site de Daedalus
• Pertinence Summarizer
• Sinope Summarizer
• Summarizer
• SweSum2
• System Q
• TextAnalyst
• Trestle
Por último, debemos recordar que algunos procesadores de textos, como Mi-
crosoft Word, también ofrecen esta opción (Autosummarize o Auto-resumen).
A modo de conclusión
• Los resúmenes automáticos (extracts) son una de las soluciones aportadas por el PLN
para hacer frente al manejo de grandes volúmenes de información en línea.
• Las técnicas han evolucionado de los primeros cómputos sobre la frecuencia de las
palabras, o la posición de una frase dentro de un documento, a las técnicas basadas
en conocimiento y recursos lingüísticos o en métodos estadísticos y de aprendizaje
automático.
• Los expertos consideran que la tecnología actual no tiene problemas para detectar las
frases con más significado, pero sí para ordenarlas según su importancia.
CC-BY-NC-ND • PID_00143964 20 Análisis de contenido: resumen e indización
3. La indización
Al igual que se ha tratado en el resumen, la indización la puede realizar una Ved también
persona o un programa.
La indización se estudia en los
módulos “Sistemas de clasifi-
Si la indización es intelectual, es decir, la llevan a cabo personas, estas personas cación documentales”, “Listas
de encabezamientos y listados
pueden ser: de autoridades”, “Los tesau-
ros” y “Listado de descriptores
libres y listado de palabras cla-
• Profesionales (documentalistas), que llevan a cabo la tarea de indización ve”.
Para indizar necesitamos los lenguajes documentales. ¿Qué diferencia hay en-
tre el lenguaje natural y el documental?
CC-BY-NC-ND • PID_00143964 21 Análisis de contenido: resumen e indización
¿Y por qué hay que controlar los términos del lenguaje natural? Porque el len- La riqueza del lenguaje
guaje natural es ambiguo, los conceptos se pueden representar de formas di- natural
versas, dando lugar a problemas de recuperación. El lenguaje natural es rico en • Ejemplos de sinónimos del
terminología, en formas (plurales y singulares), tiempos verbales, acrónimos, mismo concepto: Cosmos
/ Universo / Infinito / Firma-
sinónimos, polisemias, etc. mento / Cielo.
• Ejemplo del mismo concep-
to en formas diferentes, si-
La principal diferencia entre el lenguaje natural y el documental controlado es glas o frases, y en idiomas
diferentes: OTAN / NATO /
precisamente el control terminológico, que permite representar los conceptos Organització del Tractat de
l’Atlàntic Nord / Organiza-
de forma unívoca, sin ambigüedades. ción del Tratado del Atlán-
tico Norte / North Atlantic
Treaty Organization.
Para ser más concretos, las diferencias se dan en el número de términos del • Ejemplo de polisemia: Ban-
co / Planta / Carta / Sierra /
vocabulario, el control de las formas, el control del significado y las relaciones Estrella / Lengua / Capital.
de significado entre términos.
Univocidad
3.1.1. Número de términos
La univocidad consiste en re-
presentar un concepto con un
único término.
Los lenguajes documentales son entrópicos (Blanca Gil, 2004, pág. 20),
es decir, tienden a la selección, a la restricción del vocabulario. Es el
proceso contrario del lenguaje natural, que tiende a la abundancia, a la
reiteración de conceptos, a la sinonimia en beneficio de una expresión
más rica.
Ejemplo
Modelo Ejemplo
Sustantivo Pintura
Estas reglas gramaticales y sintácticas unifican las palabras seleccionadas y las Ved también
frases.
Los mejores ejemplos se ven
en los módulos “Listas de en-
Ejemplos en las listas de encabezamientos de materia cabezamientos y listados de
autoridades” y “Los tesauros”.
• Se acostumbra a usar el singular para expresar conceptos abstractos. Así, por ejemplo,
es solidaridad y no solidaridades.
(3)
SID es la sigla de servicio de infor-
• No se permite el uso de siglas; se prefiere la expresión entera del concepto y en la
3
mación y documentación.
lengua del servicio de información y documentación (SID ). Por ejemplo, Organiza-
ción del Tratado del Atlántico Norte.
a)�Sinonimia: decimos que las palabras son sinónimas cuando tienen el mis-
mo significado. En un sistema documental, si no se controlan y se usan indis-
criminadamente, comportan silencio documental. En el caso de “alimento,
nutriente, comida, provisión”, el usuario puede estar buscando por “alimento”
y no recuperar documentos porque se encuentran indizados con otras formas,
como “nutriente”. La solución de los lenguajes controlados es recoger todos
los términos sinónimos y seleccionar uno para representar a todo el conjunto
de términos que tienen el mismo significado, porque dos sinónimos son sus-
tituibles el uno por el otro en cualquier contexto.
CC-BY-NC-ND • PID_00143964 23 Análisis de contenido: resumen e indización
Ejemplo (4)
A partir de ahora denotamos ser-
vicios de información y documenta-
Una lista de encabezamientos de materia como la del Consejo Superior de Investigaciones ción con la sigla SID.
Científicas (CSIC) recoge todos estos sinónimos:
• Hispanoamericanos.
• Iberoamericanos.
• Latinoamericanos.
• Sudamericanos.
b)�Polisemia: decimos que dos palabras son polisémicas cuando el mismo sig-
no lingüístico, palabra o sonido tiene más de un significado. Habitualmente el
contexto de la conversación o lectura donde está insertada la palabra deshace
los problemas de ambigüedad, pero una palabra polisémica introducida en un
sistema documental, sin el contexto, puede dar lugar a ruido documental.
Ejemplo
Un usuario puede estar buscando sobre columnas en arquitectura y recuperar datos sobre
columnas tipográficas de diarios. Los lenguajes documentales controlan la polisemia di-
ferenciando cada significado con paréntesis, usando el plural o el singular, adjetivando,
etc.
Misma�etimología�=�polisemia
La polisemia se da cuando una palabra tiene un único origen etimológico y acaba te-
niendo significados diferentes sin cambiar su categoría gramatical: por ejemplo, no pasa
de sustantivo a verbo, como pasa en castellano entre el vino (bebida) y el vino (verbo
venir). Es una palabra que con el tiempo ha ido adquiriendo diferentes significados, pero
aun así, todos guardan entre sí una relación de significado; por ejemplo, en catalán y
castellano fulla/hoja, que viene del latín folia, tiene diversos significados, como hoja de
una planta, hoja de metal de una herramienta, página de un libro, cada una de las partes
de una puerta doble o ventana, etc. Y en todos los significados lleva implícita la idea de
una lámina.
• Servicio, del latín servitium, que ha dado lugar a oficios religiosos, lavabos, misiones
militares, cubiertos para comer y, en deportes, poner la pelota en juego. Y en todos
ellos permanece la idea de ser útil.
• Crucero, del latín crux, significando ‘cruz’, intersección entre las dos naves de una
iglesia, encargado de llevar la cruz a la cabeza de una procesión, viaje de placer por
el mar, etc. En estos significados la idea es la de la forma de cruz, el cruzar como ir
de un extremo a otro.
• Columna, del latín columna, que usamos para referirnos a los pilares arquitectónicos,
las partes verticales de una página impresa de un diario, en física la forma que adoptan