Clasificación automática de documentos en el dominio de la Física de Altas Energías

El presente trabajo constituye una propuesta de solución al problema del multi-etiquetado masivo de documentos en general, y el de documentos en el dominio de la Física de Altas Energías en particular.
Este problema se denomina Categorización de Textos, en el que palabras clave predefinidas son consideradas categorías a ser asignadas a documentos en función de su contenido textual. Durante el desarrollo de esta investigación, realizada principalmente en el CERN, el Laboratorio Europeo para la Investigación Nuclear, la colección de documentos manejada desveló problemas no cubiertos con anterioridad por la literatura especializada. La necesidad expresa de una solución al manejo de datos de esta índole que debía ir más allá del mero análisis científico y del prototipado ha marcado la hipótesis planteada a lo largo de todo el trabajo.

Los resultados de la solución final implementada como producto de esta investigación han abierto un amplio abanico de aplicaciones, dándome la agradable sensación de usabilidad que normalmente se deja de lado en investigación pura. El lector encontrará cuan excitante ha sido esta tarea, pero lo que no puede incluirse aquí es el enriquecimiento personal adquirido al trabajar en un entorno internacional durante cuatro años, junto con un equipo orientado a facilitar las técnicas computerizadas más avanzadas a la comunidad de usuarios de la biblioteca del CERN, la más importante del mundo en Física.

Autor
Arturo Montejo Raez