Tesis

El problema de la fusión de colecciones en la recuperación de información multilingüe y distribuida: Cálculo de la relevancia documental en dos pasos

Fernando Martínez Santiago. Octubre 2004

Resumen:
En esta Tesis se propone un nuevo enfoque, cálculo de la relevancia documental en dos pasos, para afrontar el conocido problema de la fusión de colecciones o simplemente mezcla de resultados. En breve, la fusión de colecciones está relacionada con la Recuperación de Información la cual, frente a una necesidad de información del usuario, debe responder con una lista de documentos relevantes para la consulta dada. En ocasiones, la obtención de tal lista de documentos debe obtenerse a partir de la fusión o mezcla de varias listas obtenidas con independencia las unas de las otras, y es en ese aspecto en el cual se centra el presente trabajo, ilustrando la bondad del método propuesto en dos escenarios: Recuperación de Información Multiligüe y Recuperación de Información Distribuida.

Una hipótesis que se defiende en este texto es que dada una determinada necesidad de información, tanto la puntuación como la posición alcanzada por dos documentos pertenecientes a dos colecciones distintas no es comparable debido principalmente a que la relevancia asignada a un documento no es un valor absoluto, sino muy al contrario, fuertemente dependiente de la colección a la cual pertenece tal documento. Por otra parte, es posible percibir la unión de todos los documentos devueltos por cada motor de búsqueda como una nueva colección de tamaño reducido y pequeño vocabulario, ya que sólo los términos que aparecen en la consulta formulada por el usuario son de interés en esta nueva colección. En virtud de estas dos simplificaciones, tal colección puede ser reindexada y contrastada con la consulta del usuario, obteniendo así una nueva única lista de documentos puntuados en relación con esta nueva colección creada, indexada y contada en tiempo de ejecución.

Los resultados obtenidos muestran que el método propuesto es estable, consiguiendo siempre una mejora respecto a otros enfoques cifrada entre el 20% y el 40%, con independencia del idioma.

(Enlace TESEO)