Tanto el Procesamiento del Lenguaje Natural (PLN) con las Redes Neuronales Artificiales (RNA) son dos áreas fundamentales dentro de la Inteligencia Artificial. Sin embargo, y a pesar de la gran cantidad de trabajos realizados en ambas disciplinas, los intentos por combinarlas han sido muy escasos.
Por una parte, los trabajos que incorporan aprendizaje automático en los sistemas de PLN son numerosos, y por otra, las RNA se han aplicado a un gran número de problemas con características muy similares a los del PLN. Sin embargo, curiosamente el número de estudios que hacen uso de RNA en sistemas de PLN es muy reducido. Más sorprendente aún, cuando los resultados obtenidos en los pocos trabajos existentes ponen de manifiesto que el uso de un enfoque neuronal constituye una buena alternativa para la construcción de sistemas PLN basados en aprendizaje.
El objetivo principal de esta tesis consiste en demostrar que es posible aprovechar las ventajas y características que presentan las RNA para abordar con éxito el desarrollo e implementación de sistemas que traten el lenguaje de manera automática.
Para ello, se propone un formalismo común basado en un modelo neuronal para resolver diversas tareas de PLN. Concretamente se tratarán tres tareas:
• La categorización de texto
• La resolución de la ambigüedad léxica
• La recuperación de información.
Mientras que para las dos primeras tareas se desarrollarán sistemas completos para la recuperación de información se abordarán dos problemas concretos relacionados con este tipo de sistemas:
• El reconocimiento de términos multipalabra
• La fusión de colecciones
El primero de los problemas se trata desde una perspectiva monolingüe mientras que el segundo se abordará para un ambiente multilingüe.
El esquema neuronal utilizado se basa en el modelo de Kohonen y más concretamente en su versión supervisada: el algoritmo de aprendizaje por cuantificación vectorial o algoritmo LVQ (Learning Vector Quantization). Se demostrará que es posible adaptar dicho algoritmo para resolver aplicaciones reales del procesamiento del lenguaje natural presentándolo como un método robusto, flexible y efectivo. Los experimentos realizados ponen de manifiesto que el algoritmo LVQ se adapta fácilmente a los distintos escenarios utilizados y que los resultados obtenidos son comparables, y en muchos casos superan a los métodos tradicionales utilizados para resolver cada uno de los problemas estudiados.
(Enlace TESEO)