Este trabajo pretende integrar conocimiento y técnicas de filtrado de la información para mejorar los sistemas de Recuperación de Información Multimodal. Los sistemas de Recuperación de Información (IR) tradicionales se ocupan básicamente de tratar con información textual. No obstante, la cantidad de información electrónica existente hoy en día no es solo textual, sino más bien, multimodal. Dentro de la multimodalidad nos referimos a cualquier formato que incluya información textual, imágenes, video o audio, y en la mayoría de los casos se suele encontrar mezclada. Existen sistemas especializados en la extracción de información en formatos distintos al texto. De esta forma podemos encontrar sistemas de Recuperación de Imágenes Basados en el Contenido, sistemas extraen características de videos o sistemas que transcriben conversaciones a texto. En la mayoría de ellos la información obtenida termina expresándose de forma textual, por lo que, al final se suelen utilizar técnicas tradicionales en el tratamiento de texto. Un sistema multimodal es aquel que recupera información de grandes colecciones en formatos distintos. De esta forma se pueden explotar las bondades de distintos sistemas especializados. Esta multimodalidad permite, por ejemplo, que sistemas CBIR puedan ser mejorados utilizando información textual que aparece junto a las imágenes. Estos sistemas son útiles también para distintos tipos de profesionales que necesitan trabajar con otros formatos distintos al texto. Dentro de este ámbito podemos considerar el trabajo médico, el cual genera grandes volúmenes de información sobre cada caso clínico, incluyendo texto e imágenes de las distintas pruebas realizadas.
En este trabajo se propone el uso de varias técnicas, de forma conjunta, para abordar el problema de la Recuperación de Información Multimodal. Los sistemas de Recuperación de Información tradicionales, basados en texto, están sobradamente probados y analizados, y las técnicas aplicadas en este tipo de sistemas han demostrado su eficacia. Sin embargo, en sistemas donde el objetivo de la búsqueda no es un texto o donde el corpus documental no está formado sólo por texto, las tecnologías actuales utilizadas no obtienen el mismo rendimiento que las técnicas textuales. Es por ello que el trabajo realizado se centra en potenciar y mejorar la parte de recuperación textual dentro de un sistema de recuperación multimodal, aplicando metodologías y herramientas de demostrada eficacia de forma conjunta. Entre las técnicas estudiadas y utilizadas se encuentra el uso de conocimiento externo para la mejora de las consultas del usuario, el filtrado de la colección textual para eliminar datos pocos relevantes y la fusión de resultados obtenidos por distintos sistemas de recuperación para obtener un sistema multimodal.
(Enlace TESEO)