Recursos
De Sinai, la enciclopedia libre.
Esta página es una recopilación de recursos para el procesamiento de textos y del lenguaje natural.
Tabla de contenidos |
Recursos propios
Prototipos Web
Accede a probar nuestros prototipos de un Buscador y un sistema de Búsqueda de Respuestas que trabaja sobre documentos de la universidad de Jaén
Prototipo Sistema de Búsqueda de Respuestas
Software
- TeCat
- Toolkit en C para la clasificación automática de textos mediante multi-etiquetado
- Licencia GPL
Corpora
- Colección HEP
- Colección de documentos multi-etiquetados sobre Física de Altas Energías.
- SINAI SA Corpus
- Corpus con comentarios sobre productos de Amazon para investigación en minería de opiniones y análisis de sentimiento.
Recursos externos
Software para Machine Learning y Data Mining
- RapidMiner
- Software para Data Mining y Visualización
- Licencia GPL, la versión no libre (aunque gratuíta) añade, además, una interfaz gráfica basada en Eclipse
- Anteriormente conocido como YALE
- Disponible para Windows y Linux (escrito en Java)
- BBR
- Bayesian Logistic Regression Software
- Este software implementa Regresión Logística Bayesiana con dos opciones: Gaussian y Laplace (también conocido como doble exponencial).
- Libre para uso no comercial
- Disponible para Windows y Linux
- BMR
- Bayesian Multinomial Regression Software
- Este software pone en práctica Regresión Logística Bayesiana Multinomial
- Libre para uso no comercial
- Disponible para Windows y Linux
- SNoW
- Sparse Network of Winnows
- Clasificador multiclase adaptado para tareas de aprendizaje a grandes escalas
- Cada clase es representada como un solo nodo objetivo, aprendida como una función linear sobre el espacio de rasgos o como una combinación de varios de ellos.
- Libre para uso académico y de investigación
- TextGarden
- Conjunto de herramientas software para clasificación supervisada y no supervisada, web mining, visualización, etc.
- Escritas en C++, funcionan en Windows y en GNU/Linux via Wine
- Licencia sin determinar, de uso libre para investigación
- CPAR
- Clasificador basado en Reglas de Asociación Predictivas
- Contruye clasificadores basados en reglas. Parece dar mejores resultados que FOIL, RIPPER y C4.5
- Licencia sin determinar
- LVQ_PAK
- Paquete que contiene los programas necesarios para el uso correcto de LVQ.
- Implementación de la red neuronal LVQ, que emplea tanto aprendizaje no supervisado como supervisado para la clasificación de patrones.
- Para Windows y Unix
- Licencia desconocida
- SOM_PAK
- Paquete de programas para los mapas autoorganizativos de kohonen Self Organizing Maps
- Implementación del algoritmo de Kohonen, usados para diferentes aplicaciones: clustering, visualización, clasificación, interpolación de una función, cuantización vectorial...
- Para Windows y Unix
- Licencia desconocida
- WEKA
- Toolkit en Java para data mining y machine learning
- Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamados desde el propio código java
- Weka tiene herramientas para el prepocesamiento, clasificación, regresión, clustering, reglas de asociación y visualización
- Licencia GPL
- TIMBL-5.1
- Implementación basada en árboles de decisión del clasificador KNN.
- El paquete incluye IB1, IB2, TRIBL, TRIBL2 y algoritmos IGTree, y ofrece varias métricas de peso
- Lenguaje Python-TIMBL
- Licencia libremente disponible para investigación y educación.
- XELOPES
- Librería para data mining
- Dispone de versiones en C++ y Java
- Existe una versión GPL
- Otro link alternativo: http://www.zsoft.ru/eng/index.php
- FOIL
- Algoritmo de aprendizaje inductivo de primer orden (First Order Inductive Learner)
- Se emplea para generar reglas de Asociación de Clasificación (CARs)
- Número máximo de tres atributos en el antecedente de una regla
- jBNC
- Toolkit para el desarrollo de clasificadores basados en redes bayesianas
- Clasificadores: Naive Bayes, TAN, FAN, STAN, STAND, SFAN
- Licencia GPL
- MLC++
- Librería C++ para aprendizaje automático supervisado
- El objetivo principal es proveer herramientas que puedan ayudar a los datos, acelerar el desarrollo de nuevos algoritmos de minería, incrementar la fiabilidad del software, proporcionar herramientas de comparació y mostrar la información visualmente.
- Licencia libre sólo para uso no comercial
- BoosTexter
- Clasificador de texto basado en boosting
- Puede manejar: múltiples atributos que pueden ser textuales, discretos o continuos, datos con atributos perdidos, problemas multiclase y grandes conjuntos de datos limpios
- Licencia libre sólo para uso no comercial
- SVM-Light
- Clasificador basado en Support Vector Machines
- Implementado en C
- Gratuíto para uso científico
- MySVM
- Otra implementación de las Support Vector Machines
- Usado para reconocimiento de patrones, regresión y estimación
- Para Windows y Unix
- Gratuito para uso no comercial
- GALib
- Librería C++ para el desarrollo de aplicaciones basadas en algoritmos genéticos
- Para Linux, MacOS y DOS/Windows
- Licencia GPL
- KEA
- Extractor de frases y palabras clave
- Grandes colecciones de documentos
- Implementado en Java, plataforma independiente
- Licencia GPL
Software para PLN y RI
- Apertium
- Traductor automático de código abierto para lenguas del Estado Español
- Para 32-bit MSWindows (95/98/NT/2000/XP), POSIX (Linux/BSD/Unix OSes)
- Licencia GPL
- LingPipe
- Toolkit Java para el procesamiento del lenguaje natural, sobre todo reconocimiento de entidades
- La arquitectura de LingPipe está diseñada para ser eficiente, escalable, reusable y robusto.
- Licencia Alias-i Royalty free
- CCG-NER
- Name Entity Tagging
- Paquete que incorpora versiones de SNoW (red de clasificadores) y FEX, juntos con un módulo de inferencia.
- El resultado es un sistema robusta con buen funcionamiento sobre nuevos datos.
- Licencia libre para uso académico y de investigación.
- BOW
- Librería en C para modelado, recuperación y clasificación de textos
- Para Unix y WindowsNT
- Licencia LGPL
- AGFL
- Sistema para el desarrollo de gramáticas para el lenguaje natural y la generación automática de analizadores eficientes de tales gramáticas.
- Disponible para Windows y Unix
- Licencia GNU GPL
- IR-n
- Sistema de Recuperación de Información basado en pasajes
- Procesa una colección de textos y selecciona aquellos que contienen algún término relacionado con la pregunta
- Utiliza un modelo probabilístico como motor de búsqueda
- Hace uso de un módulo de expansión de la pregunta para mejorar los resultados obtenidos
- NLP Toolkit
- Toolkit de Python
- Módulos de programas, conjuntos de datos y tutoriales de soporte para lingüística computacional y procesamiento del lenguaje natural.
- Licencia GPL
- Porter's stemmer
- Algoritmo para normalizar términos en inglés en Sistemas de Recuperación de Información
- Disponible en varios lenguajes de programación (ANSI C, Perl, java, python, php...)
- Licencia GPL
- Freeling
- Librería que proporciona servicios para el análisis del lenguaje
- Se puede usar como biblioteca externa o a través de una interfaz que permite analizar archivos desde línea de comandos.
- Algunas carácterísticas: tokenización de texto, división de oraciones, análisis morfológico, detección y clasificación de entidades, reconocimiento de fechas/números/dinero/proporciones, PoS tagging, Chart-based shallow parsing, detección de magnitudes físicas (velocidad, peso, temperatura, densidad, etc), anotación de sentido basado en Wordnet.
- Para español, catalán, italiano, gallego.
- Lexical Tools
- Paquete de recursos lingüísticos de la National Library of Medicine
- Está desarrollado en Java 1.5 con la integración de la base de datos HyperSonic SQL.
- De dominio público
- Zprise
- Z39.50-1995 Prototype Indexing and Search Engines
- Trata documentos y preguntas como listas de palabras y da como respuesta una lista de documentos ordenados o clasificados por su semejanza estadística con la consulta.
- Da soporte para la mejora de la pregunta mediante retroalimentación de relevancia
- Está en el dominio público, disponible gratuitamente
- Gift
- The GNU Image-Finding Tool
- Sistema de recuperación de información basado en contenido
- Permite consultas sobre imágenes permitiendo retroalimentación de los resultados por relevancia
- Dispone de una herramienta para indexar las imágenes contenidas en directorios jerárquicos
- FIRE
- Flexible Image Retrieval Engine
- Sistema de recuperación de imágenes
- Dada una imagen como pregunta, el objetivo es encontrar las imágenes de una base de datos que son similares a la imagen dada
- GNU Public Licence
- Módulos Lingua de CPAN
- Módulos de Perl para reconocimiento de entidades, diccionarios, taggers...
- Para sistemas Unix, Windows, Macintosh, DOS, OS/2, VMS, MVS.
- Licencia GPL
- TREC_EVAL
- Text REtrieval Conference
- Herramienta estandar usada por la comunidad TREC para evaluar ejecuciones de recuperación ad hoc, dando un fichero de resultados y un conjunto estándar de resultados conocidos.
- OpenSP
- Toolkit orientado a objetos para análisis de SGML y gestión de entidades
- Escrito en C++
- Portable: mayoría de variantes Unix, MS-DOS, Win32 (Windows 95/Windows NT), OS/2
- Uso libre sin restricciones
- SMART
- Salton’s Magic Automatic Retriever of Text
- Sistema de Recuperación de Información que fue concebido como una herramienta de evaluación de la efectividad de muchos tipos de análisis y procedimientos de búsqueda
- Incorpora tres procedimientos diferentes de análisis del lenguaje: palabra, lema y tesauro.
- Pai's text utilities
- Conjunto de programas y scripts para el procesamiento de textos
- Licencia GPL
- MDC
- Multi Dimensional Clustering
- Projecto que trata el diseño e implementación de un nuevo esquema de disposición de datos físico en el versión 8 de base de datos DB2 Universal para un paradigma de acceso multi-dimensional
- CoolTran
- Traductor de términos multiplataforma en diferentes idiomas
- Dispone de varios diccionarios de idiomas preinstalados, aunque se pueden instalar más, y de una base de datos en internet "colaborativa", a la que se conecta la aplicación.
- Implementación en Java
- Licencia GPL
- GATE
- Una plataforma para el desarrollo de sistemas IR y de procesamiento del lenguaje natural. Muy completa y con muchos módulos.
- Basada en Java
- Usado para todos los tipos de tareas de procesamiento del lenguaje.
- Licencia LGPL
- JIRS
- Sistema de Recuperación de Información Java
- Basado en recuperación de pasajes y orientado a sistemas de búsqueda de respuestas
- Disponible para búsquedas eficientes y rápidas en grandes colecciones de documentos usando direferentes modelos n-gram
- Otter
- Sistema de detección automático para demostrar teoremas indicados en la lógica de primer orden con la igualdad
- Codificado en ANSI C, es portable, fácil de instalar y rápido.
- Usado sobre todo en sistemas Unix, aunque algunas versiones limitadas funcionan en Windows.
- Uso libre sin restricción.
- TnT
- Part of speech tagger para tareas de procesamiento de lenguaje natural
- Optimizado para la rapidez y el entrenamiento en una gran variedad de documentos.
- Acuerdo de licencia gratuito para fines de investigación sin fines de lucro.
- MG System
- Sistema de IR desarrollado por los autores de "Managing gigabytes"
- Mifluz
- Librería C++ para el desarrollo de índices invertidos de texto.
- Es dinámicamente actualizable, escalable, usa una cantidad controlada de memoria.
- Licencia GPL
- JRE-JDK
- Java Runtime Environment - Java Delevopment Kit
- JRE contiene la máquina virtual java, librerías de clase runtime y la aplicación necesaria para escribir programas en lenguaje Java.
- JDK es un entorno de desarrollo para construir aplicaciones, applets y componentes en el lenguaje de programación Java.
- Licencia GPL
- Minipar
- Analizador gramatical de amplia cobertura para el inglés
- Disponible para Linux, Solaris, Windows95/98
- Libre para uso no comercial
- Collins Parser
- Analizador gramatical del lenguaje natural
- GNU General Public License
- Lemur
- Herramientas para modelado del lenguaje y recuperación de información
- Está escrito en los lenguajes C y C++
- Funciona bajo sistemas operativos Unix, aunque también puede funcionar bajo Windows
- Licencia de libre uso
- Indri
- Motor de recuperación basado en Lemur
- También recupera pasajes
- Licencia BSD
- MeSH
- Medical Subject Headings
- Herramienta clave para la búsqueda de información en la base de datos Medline
- Vocabulario controlado que emplea Medline y otras bases de datos biomédicas
- Consta de más de 33000 términos ordenados en estructuras jerárquicas llamadas árboles
- Xerces-J
- Analizador gramatical que trabaja con XML en la familia de apache Xerces.
- Tiene un marco disponible para construir componentes para el analizador gramatical y configuraciones modulares fáciles de programar.
- Disponible bajo la licencia de Software de Apache.
- PHPbb
- Conjunto de paquetes de código PHP que proporciona fácilmente, y con alta posibilidad de personalización, un sistema de foros.
- Funciona sobre bases de datos SQL, Microsoft Access y Oracle.
- Multiplataforma
- Licencia GPL2
- Google
- Google Web APIs
- Métodos para que los desarrolladores puedan hacer peticiones a Google desde sus propias aplicaciones
- Varios lenguajes de desarrollo: Java, Perl, Visual Studio .NET, entre otros.
- Treetagger
- Part of Speech Tagger
- Ejecutable para Sparc workstations, PCs Linux y Windows y Macs
- Libre distribución
- MPEG-7 XM** MPEG-7 eXperimentation Model
- Representación estándar de la información audiovisual que permite la descripción de contenidos.
- El software XM es la plataforma de simulación para los descriptores de MPEG-7 (Ds), esquemas de descripción (DSs), esquemas de codificación (CSs) y Lenguaje de Definición de Descripción (DDL).
- Brill Tagger
- Otro Part of Speech Tagger
Software matemático
- OCTAVE
- Lenguaje de alto nivel para cálculo numérico
- Proporciona interfaz de línea de comandos para solucionar problemas lineales y no lineales, y para realizar otros experimentos numéricos en lenguajes compatibles sobre todo con matlab
- El usuario puede definir funciones escritas en la propia lengua de Octave, o cargar módulos dinámicamente escritos en C++, C, Fortran, u otros lenguajes.
- Licencia GPL
- R-project
- Lenguaje para cáculo estadístico y gráficos estadísticos
- Funciona en una gran variedad de plataformas UNIX, Windows y MacOS
- Licencia GPL
- NIST Sparse BLAS
- Biblioteca en C para álgebra lineal con matrices dispersas
- Licencia sin determinar
- GSL
- La biblioteca GNU para cáculo científico
- Proporciona un alto rango de rutinas matemáticas y funciones especiales
- Lenguajes C y C++
- Licencia GPL
- Gnuplot
- El clásico programa para visualización de datos científicos
- Licencia similar a GPL
- PDL
- Lenguaje basado en Perl para modelado y visualización de datos
- Soporta sistemas 64-bit, MS Windows, Cygwin.
- Licencia GPL
Corpora
- Reuters Corpus - Volumen 1
- Lengua: Inglés
- Descripción:: 2 CDs que contienen 810.000 Noticias en inglés de la agencia Reuters. Descomprimido ocupa 2,5 GB
- Licencia: Libre (no comercial).
- Comentarios: Se entrega bajo petición firmada y comprometiéndose a referenciarlos cada vez que se use para un artículo.
- Reuters-21578
- Colección de categorización de texto
- Recurso para investigación en recuperación de información, aprendizaje automático y otras investigaciones basadas en corpus
- Disponible para uso científico
- 20-newsgroups
- 20000 mensajes tomados a partir de 20 grupos de noticias de Usenet
- Disponible para uso científico
- OSHUMED (from TREC web site)
- Colección de documentos (incluye documentos, asuntos y juicios de relevancia) usados en el TREC-9
- La colección de prueba consiste en un conjunto de 348,566 referencias de MEDLINE
- Email SPAM ENRON corpus -- Con preservación de orden de llegada
- Filtro de Spam con Naive Bayes
- Link alternativo: http://www.aueb.gr/users/ion/data/enron-spam/
- GNS Namefiles
- Listas de nombre georreferenciados por país de la National Geoespacial-Intelligence Agency de EE.UU. Se actualizan mensualmente
- Gratuíto.
- Wikipedia XML Corpus
- Corpus de artículos de Wikipedia en varios idiomas orientado a diversas tareas: clasificación, recuperación de texto, multimodal, etc.
- GNU Document Licence
Otros repositorios
- Índice de recursos lingüísticos de la Universidad de Standford
- Lista de software matemático para Linux
- Grupo de computación de la Universidad de Illinois, con varios recursos interesantes
