Tesis

BRUJA: Un Sistema de Búsqueda de Respuestas Multilingüe

Miguel Ángel García Cumbreras. Mayo 2009

Resumen:
Dentro de los sistemas de procesamiento de lenguaje natural y de la recuperación de información encontramos los sistemas de búsqueda de respuestas. La búsqueda de respuestas se puede definir como el proceso automático que realizan los ordenadores para encontrar respuestas concretas a preguntas precisas formuladas por los usuarios.

Los sistemas de búsqueda de respuestas no solo localizan documentos o pasajes relevantes (dentro de una colección documental o de información no estructurada), sino que también encuentran, extraen y muestran la respuesta al usuario final, evitándole la búsqueda o la lectura de la información relevante para encontrar de forma manual la respuesta final.

Los componentes principales de un sistema de búsqueda de respuestas son:
- Análisis de la pregunta
- Recuperación de documentos o pasajes relevantes
- Extracción de respuestas

Actualmente existen sistemas que intentan encontrar respuestas a preguntas formuladas por el usuario utilizando un único idioma para las colecciones y cualquier idioma para la pregunta, de forma que sólo es necesario aplicar una traducción del idioma de la pregunta al idioma de las colecciones para trabajar en modo monolingüe.

En este trabajo de investigación se ha investigado y desarrollado un sistema de búsqueda de respuestas multilingüe, denominado bruja (búsqueda de respuestas en la Universidad de Jaén) . Se utiliza el concepto “multilingüe” en su totalidad o clir (del ingles cross language information retrieval). Esto implica de forma general la aceptación de preguntas en cualquiera de los idiomas utilizados, el uso de colecciones en varios idiomas y la devolución de la respuesta o respuestas finales en el mismo idioma de la pregunta.

Se han investigado, desarrollado y probado varias soluciones posibles para los diversos módulos y se han integrado en una solución final. La versión definitiva del sistema trabaja en tres idiomas: ingles, español y francés, siendo posible su ampliación a otros idiomas.

A este trabajo de investigación y Tesis Doctoral se le concedió la calificación de Sobresaliente Cum Laude por unanimidad, y en 2010 se le concedió el premio a la mejor Tesis Doctoral en materia de Procesamiento de Lenguaje Natural y Recuperación de Información por la Sociedad Española de Procesamiento de Lenguaje Natural, y se publicó íntegramente en una monografía.

(Enlace TESEO)

(Publicada como monografía de la SEPLN y disponible en PDF aquí)