» LVQ_PAK

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Paquete que contiene los programas necesarios para el uso correcto de LVQ. Implementación de la red neuronal LVQ, que emplea tanto aprendizaje no supervisado como supervisado para la clasificación de patrones. Para Windows y Unix. Licencia desconocida

Enlace al recurso:

» MCE Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

MuchoCine corpus en Inglés (MCE) es la versión traducida del corpus MuchoCine (Spanish Movies Reviews). El corpus de MuchoCine fue elaborado por el investigador Fermín Cruz Mata y presentado en el año 2008 en el número 41 de la revista Procesamiento del Lenguaje Natural en el artículo titulado Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español.

En el artículo Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches comprueba la validez de una metodología para la clasificación de la polaridad  en español que consiste en combinar tres clasificadores, dos supervisados (sobre textos en inglés y en otro idioma) y otro no supervisado usando algún recurso lingüístico en inglés para análisis de opiniones. Esta metodología fue propuesta previamente para opiniones en árabe en el artículo Improving Polarity Classification of Bilingual Parallel Corpora combining Machine Learning and Semantic Orientation approaches (in press).

La polaridad de los documentos del corpus está medida en una escala de 1 a 5, siendo 1 muy negativo y 5 muy positivo. Los datos del corpus son:

Polaridad Nº de documentos
1 351
2 923
3 1253
4 890
5 461

 

Solo se permite el uso de este corpus para investigación. En tal caso, debe citar el siguiente artículo:

Martín-Valdivia, M. T., Martínez-Cámara, E., Perea-Ortega, J. M., & Alfonso Ureña-López, L. (2012). Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2012.12.084

Para cualquier consulta sobre el corpus envía un email a José M. Perea o a Eugenio Martínez Cámara

Archivos del recurso:

MCE-corpus.tar.gz

» MDC

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Multi Dimensional Clustering. Projecto que trata el diseño e implementación de un nuevo esquema de disposición de datos físico en el versión 8 de base de datos DB2. Universal para un paradigma de acceso multi-dimensional

Enlace al recurso:

» MeSH

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Medical Subject Headings. Herramienta clave para la búsqueda de información en la base de datos Medline. Vocabulario controlado que emplea Medline y otras bases de datos biomédicas. Consta de más de 33000 términos ordenados en estructuras jerárquicas llamadas árboles

Enlace al recurso:

» MG System

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Sistema de IR desarrollado por los autores de “Managing gigabytes”

Enlace al recurso:

» Mifluz

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Librería C++ para el desarrollo de índices invertidos de texto. Es dinámicamente actualizable, escalable, usa una cantidad controlada de memoria. Licencia GPL

Enlace al recurso:

» Minipar

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Analizador gramatical de amplia cobertura para el inglés. Disponible para Linux, Solaris, Windows95/98. Libre para uso no comercial

Enlace al recurso:

» MLC++

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Librería C++ para aprendizaje automático supervisado. El objetivo principal es proveer herramientas que puedan ayudar a los datos, acelerar el desarrollo de nuevos algoritmos de minería, incrementar la fiabilidad del software, proporcionar herramientas de comparación y mostrar la información visualmente. Licencia libre sólo para uso no comercial

Enlace al recurso:

» Módulos Lingua De CPAN

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Módulos de Perl para reconocimiento de entidades, diccionarios, taggers… Para sistemas Unix, Windows, Macintosh, DOS, OS/2, VMS, MVS. Licencia GPL

Enlace al recurso:

» MPEG-7 XM

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Representación estándar de la información audiovisual que permite la descripción de contenidos. El software XM es la plataforma de simulación para los descriptores de MPEG-7 (Ds), esquemas de descripción (DSs), esquemas de codificación (CSs) y Lenguaje de Definición de Descripción (DDL).

» MySVM

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Implementación de las Support Vector Machines. Usado para reconocimiento de patrones, regresión y estimación. Para Windows y Unix. Gratuito para uso no comercial

Enlace al recurso:

» NIST Sparse BLAS

Ver ficha completa »

Tipo recurso:

Software matemático

Descripción:

Biblioteca en C para álgebra lineal con matrices dispersas. Licencia sin determinar

Enlace al recurso:

» OCA Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:

Nombre Página web Sistema voto Positivos Negativos
Cinema Al Rasid http://cinema.al-rasid.com/ 10 36 1
Film Reader http://filmreader.blogspot.com/ 5 0 92
Hot Movie Reviews http://hotmoviews.blogspot.com 5 45 4
Elcinema http://www.elcinema.com 10 0 56
Grind House http://grindh.com 10 38 0
Mzyondubai http://www.mzyondubai.com 10 0 15
Aflamee http://aflamee.com 5 0 1
Grind Film http://grindfilm.blogspot.com/ 10 0 8
Cinema Gate http://www.cingate.net Bad/Good 0 1
Emad Ozery Blog http://emadozery.blogspot.com 10 0 1
Fil Fan http://www.filfan.com 5 81 20
Sport4Ever http://sport4ever.maktoob.com 10 0 1
DVD4ArabPos http://dvd4arab.maktoob.com 10 11 0
Gamraii http://www.gamraii.com 10 39 0
Shadows and Phantoms http://shadowsandphantoms.blogspot.com 10 0 50
Total 250 250

Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 94,556 121,392
Media de tokens en cada comentario 378 485
Total sentencias 4,881 3,137
Media de sentencias en cada comentario 20 13

Rushdi-Saleh, M., Martín-Valdivia, M. T., Alfonso Ureña-López, L. & Perea-Ortega, J. M. (2011). OCA: Opinion corpus for Arabic. Journal of the American Society for Information Science and Technology.

http://dx.doi.org/10.1002/asi.21598

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

OCA-corpus.zip

» OCTAVE

Ver ficha completa »

Tipo recurso:

Software matemático

Descripción:

Lenguaje de alto nivel para cálculo numérico. Proporciona interfaz de línea de comandos para solucionar problemas lineales y no lineales, y para realizar otros experimentos numéricos en lenguajes compatibles sobre todo con matlab. El usuario puede definir funciones escritas en la propia lengua de Octave, o cargar módulos dinámicamente escritos en C++, C, Fortran, u otros lenguajes. Licencia GPL

Enlace al recurso:

» OSHUMED

Ver ficha completa »

Tipo recurso:

Corpora

Descripción:

Colección de documentos (incluye documentos, asuntos y juicios de relevancia) usados en el TREC-9. La colección de prueba consiste en un conjunto de 348,566 referencias de MEDLINE

Enlace al recurso: