Tesis

Resolución de la Ambigüedad Léxica en Tareas de Clasificación Automática de Documentos

L. Alfonso Ureña López. Noviembre 2000

Resumen:
En esta memoria se describen las tareas de análisis del contenido y se estudian tanto la resolución de la ambigüedad léxica como la clasificación de documentos, estableciendo paralelismos y elementos próximos entre ambos campos. En nuestro trabajo analizamos los recursos lingüísticos existentes e investigamos las formas en que éstos pueden mejorar la efectividad de la desambiguación.
La principal aportación de esta Tesis consiste en la propuesta de un nuevo enfoque para la resolución de la ambigüedad léxica basado en la integración de recursos lingüísticos, para ellos se utiliza información proveniente de un corpus de textos (SemCor) y de una base de datos léxica (WordNet). Se ha desarrollado una evalucación directa de la desambiguación, que muestra de forma experimental, sobre un amplio conjunto o colección de prueba, la efectividad del enfoque de desambiguación de términos basado en la integración de recursos lingüísticos empleando una evaluación automática.
Se aplica la resolución de la ambigüedad léxica a dos tareas concretas de clasificación de documentos: recuperación de información y categorización de textos. En el proceso de recuperación de información se expanden los términos de la consulta con información de WorlNet, una vez desambiguada mediante realimentación. En la categorización de textos se ha propuesto la resolución automática de la ambigüedad léxica enun enfoque también basado en la integración del corpus Reuters y la base de datos léxica WordNet.
Este es un enfoque novedoso al incorporar la desambiguación automática en el proceso de integración de recursos lingüísticos en la tarea de categorización de textos.

Finalmente, hemos expuesto y evaluado ambas tareas mediante un método sistemático que nos ha permitido comparar la efectividad en el ámbito de los sistemas de clasificación de documentos, tanto en recuperación de información como en categorización de textos.

(Enlace TESEO)
(Publicada como monografía de la SEPLN y disponible en PDF aquí)