Líneas de investigación

Recuperación de información monolingüe, multilingüe, distribuida

Los sistemas de recuperación de información (RI) se encargan de seleccionar y recuperar aquellos documentos que son relevantes para las necesidades de información requeridas por usuarios. Como resultado estos sistemas retornan una lista de documentos relevantes, normalmente ordenadas en función de unos valores que miden la validez de ese documento para responder a las necesidades de información del usuario.

En la última década, el interés por desarrollar sistemas de recuperación de información multilingües (CLIR – Cross Lingual Information Retrieval), ha crecido de forma espectacular (Grefenstette, 1998). Un sistema CLIR es un sistema de recuperación de información capacitado para operar sobre una colección de documentos multilingüe.

Los motores de búsqueda disponibles en la Web o en grandes corporaciones están basados típicamente en una única base documental, copia local del resto de colecciones accesibles. En cualquier caso, si no todos los documentos son accesibles para proceder a copiarlos e indexarlos de una manera centralizada, este enfoque deja de ser válido. Tal es el caso de grandes corporaciones que usualmente cuentan con grandes colecciones distribuidas, o Internet, donde la mayor parte de la información se genera dinámicamente, motivo por el cual no son accesibles por los motores de búsqueda tradicionales. Esta es básicamente la motivación de los sistemas de recuperación de información distribuidos.

Búsqueda de respuestas

Se puede definir un Sistema de Búsqueda de Respuestas (QA) como aquel de forma automática tiene el fin de encontrar respuestas concretas a las necesidades de información requeridas por usuarios. Son sistemas muy útiles en los casos en que el usuario necesita conocer datos concretos y no quiere revisar toda la documentación referente al tema para conocer esos datos.

Desambigüación léxica

La desambigüación (Word Sense Disambiguation, WSD) consiste en identificar el significado de una palabra en un determinado contexto dentro de un conjunto de candidatos determinado. La desambigüación no es un fin en sí misma, sino una tarea intermedia muy necesaria para algunas tareas del Procesamiento del Lenguaje Natural (PLN).

Categorización de textos

La categorización de textos automática (Automated Text Categorization, ATC) consiste en la clasificación automática de documentos en categorías predefinidas.

Reconocimiento de entidades

Un sistema reconocedor de entidades con nombre (Named Entity Recognition, NER) intenta encontrar en un texto o documento aquellas frases simples que responden directamente a preguntas simples (¿quién?, ¿cómo?, ¿dónde?…).

Recuperación de información multimodal

Actualmente, es ingente la cantidad de información no estructura que está disponible en Internet, bien en la web pública como en la web “oculta” (intranets, bibliotecas digitales, etc.). Esta información puede ser tanto visual como textual, entendiendo todo tipo de documentos multimedia (vídeo, imágenes, audio, trascripciones de conferencias…). La recuperación de información sobre tan variadas colecciones plantea retos como la fusión o la indexación.

Minería de opiniones

La Minería de Opiniones pretende llevar los principios de la Minería de Datos (descubrimiento de relaciones, clases, etc.) al análisis de comentarios de productos, opiniones en blogs u otros entornos colaborativos. Se pretende analizar la polaridad en la opinión del autor de un comentario para extraer una valoración del mismo. Esta disciplina está despertando mucho interés en sistemas de comercio electrónico, aunque su ámbito es mucho más amplio.

Sistemas de recomendación

Los sistemas de recomendación orientan al consumidor mediante la sugerencia de productos que pudieran ser de su interés. En nuestro grupo trabajamos para mejorar los sistemas actuales de filtrado colaborativo añadiendo componentes de análisis del lenguaje humano.