» Recuperación de Información Multimodal basado en integración del conocimiento

Ver ficha completa »

Manuel Carlos Díaz Galiano. Abril 2011

Resumen:
Este trabajo pretende integrar conocimiento y técnicas de filtrado de la información para mejorar los sistemas de Recuperación de Información Multimodal. Los sistemas de Recuperación de Información (IR) tradicionales se ocupan básicamente de tratar con información textual. No obstante, la cantidad de información electrónica existente hoy en día no es solo textual, sino más bien, multimodal. Dentro de la multimodalidad nos referimos a cualquier formato que incluya información textual, imágenes, video o audio, y en la mayoría de los casos se suele encontrar mezclada. Existen sistemas especializados en la extracción de información en formatos distintos al texto. De esta forma podemos encontrar sistemas de Recuperación de Imágenes Basados en el Contenido, sistemas extraen características de videos o sistemas que transcriben conversaciones a texto. En la mayoría de ellos la información obtenida termina expresándose de forma textual, por lo que, al final se suelen utilizar técnicas tradicionales en el tratamiento de texto. Un sistema multimodal es aquel que recupera información de grandes colecciones en formatos distintos. De esta forma se pueden explotar las bondades de distintos sistemas especializados: esta multimodalidad permite, por ejemplo, que sistemas CBIR puedan ser mejorados utilizando información textual que aparece junto a las imágenes. Estos sistemas son útiles también para distintos tipos de profesionales que necesitan trabajar con otros formatos distintos al texto. Dentro de este ámbito podemos considerar el trabajo médico, el cual genera grandes volúmenes de información sobre cada caso clínico, incluyendo texto e imágenes de las distintas pruebas realizadas.
El trabajo consiste en estudiar cómo se ve afectado un sistema multimodal, al filtrar e incluir conocimiento específico a la información textual disponible. Para ello se utilizan los corpus multimodales que ponen a nuestra disposición distintos foros de evaluación de estos sistemas. Nos centraremos en los corpus ofrecidos por ImageCLEFmed, ya que tratan un entorno más específico como es el entorno médico.

(Enlace TESEO)

» BRUJA: Un Sistema de Búsqueda de Respuestas Multilingüe

Ver ficha completa »

Miguel Ángel García Cumbreras. Mayo 2009

Resumen:
Dentro de los sistemas de procesamiento de lenguaje natural y de la recuperación de información encontramos los sistemas de búsqueda de respuestas. La búsqueda de respuestas se puede definir como el proceso automático que realizan los ordenadores para encontrar respuestas concretas a preguntas precisas formuladas por los usuarios.

Los sistemas de búsqueda de respuestas no solo localizan documentos o pasajes relevantes (dentro de una colección documental o de información no estructurada), sino que también encuentran, extraen y muestran la respuesta al usuario final, evitándole la búsqueda o la lectura de la información relevante para encontrar de forma manual la respuesta final.

Los componentes principales de un sistema de búsqueda de respuestas son:
- Análisis de la pregunta
- Recuperación de documentos o pasajes relevantes
- Extracción de respuestas

Actualmente existen sistemas que intentan encontrar respuestas a preguntas formuladas por el usuario utilizando un único idioma para las colecciones y cualquier idioma para la pregunta, de forma que sólo es necesario aplicar una traducción del idioma de la pregunta al idioma de las colecciones para trabajar en modo monolingüe.

En este trabajo de investigación se ha investigado y desarrollado un sistema de búsqueda de respuestas multilingüe, denominado bruja (búsqueda de respuestas en la Universidad de Jaén) . Se utiliza el concepto “multilingüe” en su totalidad o clir (del ingles cross language information retrieval). Esto implica de forma general la aceptación de preguntas en cualquiera de los idiomas utilizados, el uso de colecciones en varios idiomas y la devolución de la respuesta o respuestas finales en el mismo idioma de la pregunta.

Se han investigado, desarrollado y probado varias soluciones posibles para los diversos módulos y se han integrado en una solución final. La versión definitiva del sistema trabaja en tres idiomas: ingles, español y francés, siendo posible su ampliación a otros idiomas.

A este trabajo de investigación y Tesis Doctoral se le concedió la calificación de Sobresaliente Cum Laude por unanimidad, y en 2010 se le concedió el premio a la mejor Tesis Doctoral en materia de Procesamiento de Lenguaje Natural y Recuperación de Información por la Sociedad Española de Procesamiento de Lenguaje Natural, y se publicó íntegramente en una monografía.

(Enlace TESEO)

(Publicada como monografía de la SEPLN y disponible en PDF aquí)

» Algoritmo LVQ aplicado a tareas de procesamiento del lenguaje natural

Ver ficha completa »

María Teresa Martín Valdivia. Mayo 2004

Resumen:
Tanto el Procesamiento del Lenguaje Natural (PLN) con las Redes Neuronales Artificiales (RNA) son dos áreas fundamentales dentro de la Inteligencia Artificial. Sin embargo, y a pesar de la gran cantidad de trabajos realizados en ambas disciplinas, los intentos por combinarlas han sido muy escasos.
Por una parte, los trabajos que incorporan aprendizaje automático en los sistemas de PLN son numerosos, y por otra, las RNA se han aplicado a un gran número de problemas con características muy similares a los del PLN. Sin embargo, curiosamente el número de estudios que hacen uso de RNA en sistemas de PLN es muy reducido. Más sorprendente aún, cuando los resultados obtenidos en los pocos trabajos existentes ponen de manifiesto que el uso de un enfoque neuronal constituye una buena alternativa para la construcción de sistemas PLN basados en aprendizaje.
El objetivo principal de esta tesis consiste en demostrar que es posible aprovechar las ventajas y características que presentan las RNA para abordar con éxito el desarrollo e implementación de sistemas que traten el lenguaje de manera automática.

Para ello, se propone un formalismo común basado en un modelo neuronal para resolver diversas tareas de PLN. Concretamente se tratarán tres tareas:
• La categorización de texto
• La resolución de la ambigüedad léxica
• La recuperación de información.

Mientras que para las dos primeras tareas se desarrollarán sistemas completos para la recuperación de información se abordarán dos problemas concretos relacionados con este tipo de sistemas:
• El reconocimiento de términos multipalabra
• La fusión de colecciones

El primero de los problemas se trata desde una perspectiva monolingüe mientras que el segundo se abordará para un ambiente multilingüe.
El esquema neuronal utilizado se basa en el modelo de Kohonen y más concretamente en su versión supervisada: el algoritmo de aprendizaje por cuantificación vectorial o algoritmo LVQ (Learning Vector Quantization). Se demostrará que es posible adaptar dicho algoritmo para resolver aplicaciones reales del procesamiento del lenguaje natural presentándolo como un método robusto, flexible y efectivo. Los experimentos realizados ponen de manifiesto que el algoritmo LVQ se adapta fácilmente a los distintos escenarios utilizados y que los resultados obtenidos son comparables, y en muchos casos superan a los métodos tradicionales utilizados para resolver cada uno de los problemas estudiados.

(Enlace TESEO)

» Resolución de la ambigüedad léxica mediante aprendizaje por cuantificación vectorial

Ver ficha completa »

Manuel García Vega. Diciembre 2006

Resumen:
La desambiguación del sentido de las palabras (Word Sense Disambiguation) es el problema de asignar un sentido determinado a una palabra polisémica, usando su contexto. Este problema ha sido de interés, prácticamente desde el comienzo de la informática, en los años 50. La desambiguación es una tarea intermedia y no un fin en sí misma. En particular, es muy útil, a veces imprescindible, para muchos problemas del PLN,como por ejemplo la recuperación de información, la categorización de textos, la traducción automática…

El objetivo de esta tesis es implementar un desambiguador del sentido de las palabras basado en el Modelo de Espacio Vectorial optimizando los pesos de los vectores del entrenamiento usando la red neuronal LVQ (Learning Vector Quantization) del modelo neuronal supervisado de Kohonen y el de proponer un método uniforme de integración de recursos que sirvan para el entrenamiento de la red. Los parámetros de la red LVQ han sido optimizados para el problema de la desambiguación.

En este trabajo se ha demostrado que las redes neuronales, concretamente los modelos de Kohonen, resuelven brillantemente el problema de la resolución de la ambigüedad léxica, aportando robustez, porque la red LVQ es insensible a pequeños cambios observándose unos resultados homogéneos independientemente del entrenamiento; flexibilidad, porque es fácilmente aplicable a cualquier tarea de PLN; escalabilidad, porque pueden introducirse multitud de textos de entrenamiento para ajustarlo a cualquier dominio y efectividad, porque los resultados obtenidos son comparables y en muchos casos superan a los métodos tradicionales utilizados para resolver los mismos problemas.

Se han integrado el corpus SemCor y la base de datos léxica WordNet. Además, se ha aportado un método de integración automática de cualquier corpus. Los experimentos realizados muestran el buen comportamiento de esta red para el problema concreto de la desambiguación.

(Enlace TESEO)

» El problema de la fusión de colecciones en la recuperación de información multilingüe y distribuida: Cálculo de la relevancia documental en dos pasos

Ver ficha completa »

Fernando Martínez Santiago. Octubre 2004

Resumen:
En esta Tesis se propone un nuevo enfoque, cálculo de la relevancia documental en dos pasos, para afrontar el conocido problema de la fusión de colecciones o simplemente mezcla de resultados. En breve, la fusión de colecciones está relacionada con la Recuperación de Información la cual, frente a una necesidad de información del usuario, debe responder con una lista de documentos relevantes para la consulta dada. En ocasiones, la obtención de tal lista de documentos debe obtenerse a partir de la fusión o mezcla de varias listas obtenidas con independencia las unas de las otras, y es en ese aspecto en el cual se centra el presente trabajo, ilustrando la bondad del método propuesto en dos escenarios: Recuperación de Información Multiligüe y Recuperación de Información Distribuida.

Una hipótesis que se defiende en este texto es que dada una determinada necesidad de información, tanto la puntuación como la posición alcanzada por dos documentos pertenecientes a dos colecciones distintas no es comparable debido principalmente a que la relevancia asignada a un documento no es un valor absoluto, sino muy al contrario, fuertemente dependiente de la colección a la cual pertenece tal documento. Por otra parte, es posible percibir la unión de todos los documentos devueltos por cada motor de búsqueda como una nueva colección de tamaño reducido y pequeño vocabulario, ya que sólo los términos que aparecen en la consulta formulada por el usuario son de interés en esta nueva colección. En virtud de estas dos simplificaciones, tal colección puede ser reindexada y contrastada con la consulta del usuario, obteniendo así una nueva única lista de documentos puntuados en relación con esta nueva colección creada, indexada y contada en tiempo de ejecución.

Los resultados obtenidos muestran que el método propuesto es estable, consiguiendo siempre una mejora respecto a otros enfoques cifrada entre el 20% y el 40%, con independencia del idioma.

(Enlace TESEO)

» Clasificación automática de documentos en el dominio de la Física de Altas Energías

Ver ficha completa »

Arturo Montejo Raez

Resumen:
El presente trabajo constituye una propuesta de solución al problema del multi-etiquetado masivo de documentos en general, y el de documentos en el dominio de la Física de Altas Energías en particular.
Este problema se denomina Categorización de Textos, en el que palabras clave predefinidas son consideradas categorías a ser asignadas a documentos en función de su contenido textual. Durante el desarrollo de esta investigación, realizada principalmente en el CERN, el Laboratorio Europeo para la Investigación Nuclear, la colección de documentos manejada desveló problemas no cubiertos con anterioridad por la literatura especializada. La necesidad expresa de una solución al manejo de datos de esta índole que debía ir más allá del mero análisis científico y del prototipado ha marcado la hipótesis planteada a lo largo de todo el trabajo.

Los resultados de la solución final implementada como producto de esta investigación han abierto un amplio abanico de aplicaciones, dándome la agradable sensación de usabilidad que normalmente se deja de lado en investigación pura. El lector encontrará cuan excitante ha sido esta tarea, pero lo que no puede incluirse aquí es el enriquecimiento personal adquirido al trabajar en un entorno internacional durante cuatro años, junto con un equipo orientado a facilitar las técnicas computerizadas más avanzadas a la comunidad de usuarios de la biblioteca del CERN, la más importante del mundo en Física.

» Recuperación de Información Geográfica basada en múltiples formulaciones y motores de búsqueda

Ver ficha completa »

Jose Manuel Perea Ortega. Octubre 2010

Resumen:
Este trabajo pretende integrar conocimiento y técnicas de filtrado de la información para mejorar los sistemas de Recuperación de Información Multimodal. Los sistemas de Recuperación de Información (IR) tradicionales se ocupan básicamente de tratar con información textual. No obstante, la cantidad de información electrónica existente hoy en día no es solo textual, sino más bien, multimodal. Dentro de la multimodalidad nos referimos a cualquier formato que incluya información textual, imágenes, video o audio, y en la mayoría de los casos se suele encontrar mezclada. Existen sistemas especializados en la extracción de información en formatos distintos al texto. De esta forma podemos encontrar sistemas de Recuperación de Imágenes Basados en el Contenido, sistemas extraen características de videos o sistemas que transcriben conversaciones a texto. En la mayoría de ellos la información obtenida termina expresándose de forma textual, por lo que, al final se suelen utilizar técnicas tradicionales en el tratamiento de texto. Un sistema multimodal es aquel que recupera información de grandes colecciones en formatos distintos. De esta forma se pueden explotar las bondades de distintos sistemas especializados. Esta multimodalidad permite, por ejemplo, que sistemas CBIR puedan ser mejorados utilizando información textual que aparece junto a las imágenes. Estos sistemas son útiles también para distintos tipos de profesionales que necesitan trabajar con otros formatos distintos al texto. Dentro de este ámbito podemos considerar el trabajo médico, el cual genera grandes volúmenes de información sobre cada caso clínico, incluyendo texto e imágenes de las distintas pruebas realizadas.

En este trabajo se propone el uso de varias técnicas, de forma conjunta, para abordar el problema de la Recuperación de Información Multimodal. Los sistemas de Recuperación de Información tradicionales, basados en texto, están sobradamente probados y analizados, y las técnicas aplicadas en este tipo de sistemas han demostrado su eficacia. Sin embargo, en sistemas donde el objetivo de la búsqueda no es un texto o donde el corpus documental no está formado sólo por texto, las tecnologías actuales utilizadas no obtienen el mismo rendimiento que las técnicas textuales. Es por ello que el trabajo realizado se centra en potenciar y mejorar la parte de recuperación textual dentro de un sistema de recuperación multimodal, aplicando metodologías y herramientas de demostrada eficacia de forma conjunta. Entre las técnicas estudiadas y utilizadas se encuentra el uso de conocimiento externo para la mejora de las consultas del usuario, el filtrado de la colección textual para eliminar datos pocos relevantes y la fusión de resultados obtenidos por distintos sistemas de recuperación para obtener un sistema multimodal.

(Enlace TESEO)

» Resolución de la Ambigüedad Léxica en Tareas de Clasificación Automática de Documentos

Ver ficha completa »

L. Alfonso Ureña López. Noviembre 2000

Resumen:
En esta memoria se describen las tareas de análisis del contenido y se estudian tanto la resolución de la ambigüedad léxica como la clasificación de documentos, estableciendo paralelismos y elementos próximos entre ambos campos. En nuestro trabajo analizamos los recursos lingüísticos existentes e investigamos las formas en que éstos pueden mejorar la efectividad de la desambiguación.
La principal aportación de esta Tesis consiste en la propuesta de un nuevo enfoque para la resolución de la ambigüedad léxica basado en la integración de recursos lingüísticos, para ellos se utiliza información proveniente de un corpus de textos (SemCor) y de una base de datos léxica (WordNet). Se ha desarrollado una evalucación directa de la desambiguación, que muestra de forma experimental, sobre un amplio conjunto o colección de prueba, la efectividad del enfoque de desambiguación de términos basado en la integración de recursos lingüísticos empleando una evaluación automática.
Se aplica la resolución de la ambigüedad léxica a dos tareas concretas de clasificación de documentos: recuperación de información y categorización de textos. En el proceso de recuperación de información se expanden los términos de la consulta con información de WorlNet, una vez desambiguada mediante realimentación. En la categorización de textos se ha propuesto la resolución automática de la ambigüedad léxica enun enfoque también basado en la integración del corpus Reuters y la base de datos léxica WordNet.
Este es un enfoque novedoso al incorporar la desambiguación automática en el proceso de integración de recursos lingüísticos en la tarea de categorización de textos.

Finalmente, hemos expuesto y evaluado ambas tareas mediante un método sistemático que nos ha permitido comparar la efectividad en el ámbito de los sistemas de clasificación de documentos, tanto en recuperación de información como en categorización de textos.

(Enlace TESEO)
(Publicada como monografía de la SEPLN y disponible en PDF aquí)