Recuperación de información monolingüe, multilingüe, distribuida

Los sistemas de recuperación de información (RI) se encargan de seleccionar y recuperar aquellos documentos que son relevantes para las necesidades de información requeridas por usuarios. Como resultado estos sistemas retornan una lista de documentos relevantes, normalmente ordenadas en función de unos valores que miden la validez de ese documento para responder a las necesidades de información del usuario.

En la última década, el interés por desarrollar sistemas de recuperación de información multilingües (CLIR – Cross Lingual Information Retrieval), ha crecido de forma espectacular (Grefenstette, 1998). Un sistema CLIR es un sistema de recuperación de información capacitado para operar sobre una colección de documentos multilingüe.

Los motores de búsqueda disponibles en la Web o en grandes corporaciones están basados típicamente en una única base documental, copia local del resto de colecciones accesibles. En cualquier caso, si no todos los documentos son accesibles para proceder a copiarlos e indexarlos de una manera centralizada, este enfoque deja de ser válido. Tal es el caso de grandes corporaciones que usualmente cuentan con grandes colecciones distribuidas, o Internet, donde la mayor parte de la información se genera dinámicamente, motivo por el cual no son accesibles por los motores de búsqueda tradicionales. Esta es básicamente la motivación de los sistemas de recuperación de información distribuidos.