Recursos

De Sinai, la enciclopedia libre.

English Version

Esta página es una recopilación de recursos para el procesamiento de textos y del lenguaje natural.

Tabla de contenidos

Recursos propios

Prototipos Web

Accede a probar nuestros prototipos de un Buscador y un sistema de Búsqueda de Respuestas que trabaja sobre documentos de la universidad de Jaén

Prototipo Buscador Web

Prototipo Sistema de Búsqueda de Respuestas

Software

  • TeCat
    • Toolkit en C para la clasificación automática de textos mediante multi-etiquetado
    • Licencia GPL

Corpora

  • Colección HEP
    • Colección de documentos multi-etiquetados sobre Física de Altas Energías.
  • SINAI SA Corpus
    • Corpus con comentarios sobre productos de Amazon para investigación en minería de opiniones y análisis de sentimiento.

Recursos externos

Software para Machine Learning y Data Mining

  • RapidMiner
    • Software para Data Mining y Visualización
    • Licencia GPL, la versión no libre (aunque gratuíta) añade, además, una interfaz gráfica basada en Eclipse
    • Anteriormente conocido como YALE
    • Disponible para Windows y Linux (escrito en Java)
  • BBR
    • Bayesian Logistic Regression Software
    • Este software implementa Regresión Logística Bayesiana con dos opciones: Gaussian y Laplace (también conocido como doble exponencial).
    • Libre para uso no comercial
    • Disponible para Windows y Linux
  • BMR
    • Bayesian Multinomial Regression Software
    • Este software pone en práctica Regresión Logística Bayesiana Multinomial
    • Libre para uso no comercial
    • Disponible para Windows y Linux
  • SNoW
    • Sparse Network of Winnows
    • Clasificador multiclase adaptado para tareas de aprendizaje a grandes escalas
    • Cada clase es representada como un solo nodo objetivo, aprendida como una función linear sobre el espacio de rasgos o como una combinación de varios de ellos.
    • Libre para uso académico y de investigación
  • TextGarden
    • Conjunto de herramientas software para clasificación supervisada y no supervisada, web mining, visualización, etc.
    • Escritas en C++, funcionan en Windows y en GNU/Linux via Wine
    • Licencia sin determinar, de uso libre para investigación
  • CPAR
    • Clasificador basado en Reglas de Asociación Predictivas
    • Contruye clasificadores basados en reglas. Parece dar mejores resultados que FOIL, RIPPER y C4.5
    • Licencia sin determinar
  • LVQ_PAK
    • Paquete que contiene los programas necesarios para el uso correcto de LVQ.
    • Implementación de la red neuronal LVQ, que emplea tanto aprendizaje no supervisado como supervisado para la clasificación de patrones.
    • Para Windows y Unix
    • Licencia desconocida
  • SOM_PAK
    • Paquete de programas para los mapas autoorganizativos de kohonen Self Organizing Maps
    • Implementación del algoritmo de Kohonen, usados para diferentes aplicaciones: clustering, visualización, clasificación, interpolación de una función, cuantización vectorial...
    • Para Windows y Unix
    • Licencia desconocida
  • WEKA
    • Toolkit en Java para data mining y machine learning
    • Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamados desde el propio código java
    • Weka tiene herramientas para el prepocesamiento, clasificación, regresión, clustering, reglas de asociación y visualización
    • Licencia GPL
  • TIMBL-5.1
    • Implementación basada en árboles de decisión del clasificador KNN.
    • El paquete incluye IB1, IB2, TRIBL, TRIBL2 y algoritmos IGTree, y ofrece varias métricas de peso
    • Lenguaje Python-TIMBL
    • Licencia libremente disponible para investigación y educación.
  • FOIL
    • Algoritmo de aprendizaje inductivo de primer orden (First Order Inductive Learner)
    • Se emplea para generar reglas de Asociación de Clasificación (CARs)
    • Número máximo de tres atributos en el antecedente de una regla
  • jBNC
    • Toolkit para el desarrollo de clasificadores basados en redes bayesianas
    • Clasificadores: Naive Bayes, TAN, FAN, STAN, STAND, SFAN
    • Licencia GPL
  • MLC++
    • Librería C++ para aprendizaje automático supervisado
    • El objetivo principal es proveer herramientas que puedan ayudar a los datos, acelerar el desarrollo de nuevos algoritmos de minería, incrementar la fiabilidad del software, proporcionar herramientas de comparació y mostrar la información visualmente.
    • Licencia libre sólo para uso no comercial
  • BoosTexter
    • Clasificador de texto basado en boosting
    • Puede manejar: múltiples atributos que pueden ser textuales, discretos o continuos, datos con atributos perdidos, problemas multiclase y grandes conjuntos de datos limpios
    • Licencia libre sólo para uso no comercial
  • SVM-Light
    • Clasificador basado en Support Vector Machines
    • Implementado en C
    • Gratuíto para uso científico
  • MySVM
    • Otra implementación de las Support Vector Machines
    • Usado para reconocimiento de patrones, regresión y estimación
    • Para Windows y Unix
    • Gratuito para uso no comercial
  • GALib
    • Librería C++ para el desarrollo de aplicaciones basadas en algoritmos genéticos
    • Para Linux, MacOS y DOS/Windows
    • Licencia GPL
  • KEA
    • Extractor de frases y palabras clave
    • Grandes colecciones de documentos
    • Implementado en Java, plataforma independiente
    • Licencia GPL

Software para PLN y RI

  • Apertium
    • Traductor automático de código abierto para lenguas del Estado Español
    • Para 32-bit MSWindows (95/98/NT/2000/XP), POSIX (Linux/BSD/Unix OSes)
    • Licencia GPL
  • LingPipe
    • Toolkit Java para el procesamiento del lenguaje natural, sobre todo reconocimiento de entidades
    • La arquitectura de LingPipe está diseñada para ser eficiente, escalable, reusable y robusto.
    • Licencia Alias-i Royalty free
  • CCG-NER
    • Name Entity Tagging
    • Paquete que incorpora versiones de SNoW (red de clasificadores) y FEX, juntos con un módulo de inferencia.
    • El resultado es un sistema robusta con buen funcionamiento sobre nuevos datos.
    • Licencia libre para uso académico y de investigación.
  • BOW
    • Librería en C para modelado, recuperación y clasificación de textos
    • Para Unix y WindowsNT
    • Licencia LGPL
  • AGFL
    • Sistema para el desarrollo de gramáticas para el lenguaje natural y la generación automática de analizadores eficientes de tales gramáticas.
    • Disponible para Windows y Unix
    • Licencia GNU GPL
  • IR-n
    • Sistema de Recuperación de Información basado en pasajes
    • Procesa una colección de textos y selecciona aquellos que contienen algún término relacionado con la pregunta
    • Utiliza un modelo probabilístico como motor de búsqueda
    • Hace uso de un módulo de expansión de la pregunta para mejorar los resultados obtenidos
  • NLP Toolkit
    • Toolkit de Python
    • Módulos de programas, conjuntos de datos y tutoriales de soporte para lingüística computacional y procesamiento del lenguaje natural.
    • Licencia GPL
  • Porter's stemmer
    • Algoritmo para normalizar términos en inglés en Sistemas de Recuperación de Información
    • Disponible en varios lenguajes de programación (ANSI C, Perl, java, python, php...)
    • Licencia GPL
  • Freeling
    • Librería que proporciona servicios para el análisis del lenguaje
    • Se puede usar como biblioteca externa o a través de una interfaz que permite analizar archivos desde línea de comandos.
    • Algunas carácterísticas: tokenización de texto, división de oraciones, análisis morfológico, detección y clasificación de entidades, reconocimiento de fechas/números/dinero/proporciones, PoS tagging, Chart-based shallow parsing, detección de magnitudes físicas (velocidad, peso, temperatura, densidad, etc), anotación de sentido basado en Wordnet.
    • Para español, catalán, italiano, gallego.
  • Lexical Tools
    • Paquete de recursos lingüísticos de la National Library of Medicine
    • Está desarrollado en Java 1.5 con la integración de la base de datos HyperSonic SQL.
    • De dominio público
  • Zprise
    • Z39.50-1995 Prototype Indexing and Search Engines
    • Trata documentos y preguntas como listas de palabras y da como respuesta una lista de documentos ordenados o clasificados por su semejanza estadística con la consulta.
    • Da soporte para la mejora de la pregunta mediante retroalimentación de relevancia
    • Está en el dominio público, disponible gratuitamente
  • Gift
    • The GNU Image-Finding Tool
    • Sistema de recuperación de información basado en contenido
    • Permite consultas sobre imágenes permitiendo retroalimentación de los resultados por relevancia
    • Dispone de una herramienta para indexar las imágenes contenidas en directorios jerárquicos
  • FIRE
    • Flexible Image Retrieval Engine
    • Sistema de recuperación de imágenes
    • Dada una imagen como pregunta, el objetivo es encontrar las imágenes de una base de datos que son similares a la imagen dada
    • GNU Public Licence
  • Módulos Lingua de CPAN
    • Módulos de Perl para reconocimiento de entidades, diccionarios, taggers...
    • Para sistemas Unix, Windows, Macintosh, DOS, OS/2, VMS, MVS.
    • Licencia GPL
  • TREC_EVAL
    • Text REtrieval Conference
    • Herramienta estandar usada por la comunidad TREC para evaluar ejecuciones de recuperación ad hoc, dando un fichero de resultados y un conjunto estándar de resultados conocidos.
  • OpenSP
    • Toolkit orientado a objetos para análisis de SGML y gestión de entidades
    • Escrito en C++
    • Portable: mayoría de variantes Unix, MS-DOS, Win32 (Windows 95/Windows NT), OS/2
    • Uso libre sin restricciones
  • SMART
    • Salton’s Magic Automatic Retriever of Text
    • Sistema de Recuperación de Información que fue concebido como una herramienta de evaluación de la efectividad de muchos tipos de análisis y procedimientos de búsqueda
    • Incorpora tres procedimientos diferentes de análisis del lenguaje: palabra, lema y tesauro.
  • MDC
    • Multi Dimensional Clustering
    • Projecto que trata el diseño e implementación de un nuevo esquema de disposición de datos físico en el versión 8 de base de datos DB2 Universal para un paradigma de acceso multi-dimensional
  • CoolTran
    • Traductor de términos multiplataforma en diferentes idiomas
    • Dispone de varios diccionarios de idiomas preinstalados, aunque se pueden instalar más, y de una base de datos en internet "colaborativa", a la que se conecta la aplicación.
    • Implementación en Java
    • Licencia GPL
  • GATE
    • Una plataforma para el desarrollo de sistemas IR y de procesamiento del lenguaje natural. Muy completa y con muchos módulos.
    • Basada en Java
    • Usado para todos los tipos de tareas de procesamiento del lenguaje.
    • Licencia LGPL
  • JIRS
    • Sistema de Recuperación de Información Java
    • Basado en recuperación de pasajes y orientado a sistemas de búsqueda de respuestas
    • Disponible para búsquedas eficientes y rápidas en grandes colecciones de documentos usando direferentes modelos n-gram
  • Otter
    • Sistema de detección automático para demostrar teoremas indicados en la lógica de primer orden con la igualdad
    • Codificado en ANSI C, es portable, fácil de instalar y rápido.
    • Usado sobre todo en sistemas Unix, aunque algunas versiones limitadas funcionan en Windows.
    • Uso libre sin restricción.
  • TnT
    • Part of speech tagger para tareas de procesamiento de lenguaje natural
    • Optimizado para la rapidez y el entrenamiento en una gran variedad de documentos.
    • Acuerdo de licencia gratuito para fines de investigación sin fines de lucro.
  • MG System
    • Sistema de IR desarrollado por los autores de "Managing gigabytes"
  • Mifluz
    • Librería C++ para el desarrollo de índices invertidos de texto.
    • Es dinámicamente actualizable, escalable, usa una cantidad controlada de memoria.
    • Licencia GPL
  • JRE-JDK
    • Java Runtime Environment - Java Delevopment Kit
    • JRE contiene la máquina virtual java, librerías de clase runtime y la aplicación necesaria para escribir programas en lenguaje Java.
    • JDK es un entorno de desarrollo para construir aplicaciones, applets y componentes en el lenguaje de programación Java.
    • Licencia GPL
  • Minipar
    • Analizador gramatical de amplia cobertura para el inglés
    • Disponible para Linux, Solaris, Windows95/98
    • Libre para uso no comercial
  • Collins Parser
    • Analizador gramatical del lenguaje natural
    • GNU General Public License
  • Lemur
    • Herramientas para modelado del lenguaje y recuperación de información
    • Está escrito en los lenguajes C y C++
    • Funciona bajo sistemas operativos Unix, aunque también puede funcionar bajo Windows
    • Licencia de libre uso
  • Indri
    • Motor de recuperación basado en Lemur
    • También recupera pasajes
    • Licencia BSD
  • MeSH
    • Medical Subject Headings
    • Herramienta clave para la búsqueda de información en la base de datos Medline
    • Vocabulario controlado que emplea Medline y otras bases de datos biomédicas
    • Consta de más de 33000 términos ordenados en estructuras jerárquicas llamadas árboles
  • Xerces-J
    • Analizador gramatical que trabaja con XML en la familia de apache Xerces.
    • Tiene un marco disponible para construir componentes para el analizador gramatical y configuraciones modulares fáciles de programar.
    • Disponible bajo la licencia de Software de Apache.
  • PHPbb
    • Conjunto de paquetes de código PHP que proporciona fácilmente, y con alta posibilidad de personalización, un sistema de foros.
    • Funciona sobre bases de datos SQL, Microsoft Access y Oracle.
    • Multiplataforma
    • Licencia GPL2
  • Google
    • Google Web APIs
    • Métodos para que los desarrolladores puedan hacer peticiones a Google desde sus propias aplicaciones
    • Varios lenguajes de desarrollo: Java, Perl, Visual Studio .NET, entre otros.
  • Treetagger
    • Part of Speech Tagger
    • Ejecutable para Sparc workstations, PCs Linux y Windows y Macs
    • Libre distribución
  • MPEG-7 XM** MPEG-7 eXperimentation Model
    • Representación estándar de la información audiovisual que permite la descripción de contenidos.
    • El software XM es la plataforma de simulación para los descriptores de MPEG-7 (Ds), esquemas de descripción (DSs), esquemas de codificación (CSs) y Lenguaje de Definición de Descripción (DDL).

Software matemático

  • OCTAVE
    • Lenguaje de alto nivel para cálculo numérico
    • Proporciona interfaz de línea de comandos para solucionar problemas lineales y no lineales, y para realizar otros experimentos numéricos en lenguajes compatibles sobre todo con matlab
    • El usuario puede definir funciones escritas en la propia lengua de Octave, o cargar módulos dinámicamente escritos en C++, C, Fortran, u otros lenguajes.
    • Licencia GPL
  • R-project
    • Lenguaje para cáculo estadístico y gráficos estadísticos
    • Funciona en una gran variedad de plataformas UNIX, Windows y MacOS
    • Licencia GPL
  • NIST Sparse BLAS
    • Biblioteca en C para álgebra lineal con matrices dispersas
    • Licencia sin determinar
  • GSL
    • La biblioteca GNU para cáculo científico
    • Proporciona un alto rango de rutinas matemáticas y funciones especiales
    • Lenguajes C y C++
    • Licencia GPL
  • Gnuplot
    • El clásico programa para visualización de datos científicos
    • Licencia similar a GPL
  • PDL
    • Lenguaje basado en Perl para modelado y visualización de datos
    • Soporta sistemas 64-bit, MS Windows, Cygwin.
    • Licencia GPL

Corpora

  • Reuters Corpus - Volumen 1
    • Lengua: Inglés
    • Descripción:: 2 CDs que contienen 810.000 Noticias en inglés de la agencia Reuters. Descomprimido ocupa 2,5 GB
    • Licencia: Libre (no comercial).
    • Comentarios: Se entrega bajo petición firmada y comprometiéndose a referenciarlos cada vez que se use para un artículo.
  • Reuters-21578
    • Colección de categorización de texto
    • Recurso para investigación en recuperación de información, aprendizaje automático y otras investigaciones basadas en corpus
    • Disponible para uso científico
  • 20-newsgroups
    • 20000 mensajes tomados a partir de 20 grupos de noticias de Usenet
    • Disponible para uso científico
  • OSHUMED (from TREC web site)
    • Colección de documentos (incluye documentos, asuntos y juicios de relevancia) usados en el TREC-9
    • La colección de prueba consiste en un conjunto de 348,566 referencias de MEDLINE
  • GNS Namefiles
    • Listas de nombre georreferenciados por país de la National Geoespacial-Intelligence Agency de EE.UU. Se actualizan mensualmente
    • Gratuíto.
  • Wikipedia XML Corpus
    • Corpus de artículos de Wikipedia en varios idiomas orientado a diversas tareas: clasificación, recuperación de texto, multimodal, etc.
    • GNU Document Licence

Otros repositorios

Personal tools