» 20-Newsgroups

Ver ficha completa »

Tipo recurso:

Corpora

Descripción:

20000 mensajes tomados a partir de 20 grupos de noticias de Usenet. Disponible para uso científico

Enlace al recurso:

» AGFL

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Sistema para el desarrollo de gramáticas para el lenguaje natural y la generación automática de analizadores eficientes de tales gramáticas. Disponible para Windows y Unix
Licencia GNU GPL

Enlace al recurso:

» Apertium

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Traductor automático de código abierto para lenguas del Estado Español. Para 32-bit MSWindows (95/98/NT/2000/XP), POSIX (Linux/BSD/Unix OSes). Licencia GPL.

Enlace al recurso:

» BabelNet

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

BabelNet es a la vez un diccionario multilingüe enciclopédico, con una cobertura lexicográfica y enciclopédica de términos en 50 idiomas, y una red semántica que conecta los conceptos y las entidades nombradas en una amplia red de relaciones semánticas, compuesta por más de 9 millones de registros.

Enlace al recurso:

» Bayesian Logistic Regression Software

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Este software implementa Regresión Logística Bayesiana con dos opciones: Gaussian y Laplace (también conocido como doble exponencial). Libre para uso no comercial. Disponible para Windows y Linux

Enlace al recurso:

» Bayesian Multinomial Regression Software

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Este software pone en práctica Regresión Logística Bayesiana Multinomial. Libre para uso no comercial. Disponible para Windows y Linux

Enlace al recurso:

» BoosTexter

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Clasificador de texto basado en boosting. Puede manejar: múltiples atributos que pueden ser textuales, discretos o continuos, datos con atributos perdidos, problemas multiclase y grandes conjuntos de datos limpios. Licencia libre sólo para uso no comercial

Enlace al recurso:

» BOW

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Librería en C para modelado, recuperación y clasificación de textos. Para Unix y WindowsNT. Licencia LGPL

Enlace al recurso:

» CCG-NER

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Name Entity Tagging. Paquete que incorpora versiones de SNoW (red de clasificadores) y FEX, juntos con un módulo de inferencia. El resultado es un sistema robusta con buen funcionamiento sobre nuevos datos. Licencia libre para uso académico y de investigación.

Enlace al recurso:

» COAH

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de hoteles destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hotelero (turismo-hoteles). El corpus está formado por 1816 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 312 199 285 489 531 1816

Algunos datos lingüísticos del corpus son:

Número de opiniones 1816
Número de tokens 272446
Número de palabras 239749
Número de palabras únicas 154297
Diversidad léxica 0,6435
Número de caracteres 1372737
Número de caracteres sin espacios 1135306
Número de nombres 55530
Número de verbos 40318
Número de adjetivos 19935
Número de adverbios 16629
Número de lemas 239749
Número de lemas únicos 138549
Diversidad de lemmas 0,577
Número de sentidos 106205
Número de sentidos únicos 77397
Longitud media de sentencia 23,245
Número medio de nombres 0,231
Número medio de verbos 0,168
Número medio de adjetivos 0.083
Número medio de adverbios 0.069

Cómo citar:

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A. (2014). Cross-domain sentiment analysis using spanish opinionated words. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, vol. 8455, pp. 214-219. Springer International Publishing. DOI: 10.1007/978-3-319-07983-7_28

Archivos del recurso:

corpus_coah.xml

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

» COAR

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de restaurantes destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hostelero (turismo-hostelería). El corpus está formado por 2202 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de intensidad de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 565 246 188 333 870 2202

Archivos del recurso:

CorpusCOAR.xlsx

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

» Colección HEP

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Este corpus está orientado al estudio de clasificadores de texto multi-etiquetado. Está compuesto por artículos científicos en el área de la Física de Altas Energías (HEP – High Energy Physics) obtenidos del servidor de documentos CDS del Laboratorio de Física Nuclear Europeo (CERN). El corpus está dividido en tres subconjuntos (denominadas particiones), donde cada partición se compone, a su vez, de dos ficheros: uno que contiene los registros de cada artículo (con información como los abstract, los autores y, por supuesto, las clases o palabras clave) en formato XML comprimido, y otro que contiene una versión en texto plano del artículo completo generado a partir del PDF disponible en las bases de datos del CERN (en formato tar + gzip) Las clases están delimitadas por la marca XML KEYWORD. Estas son las etiquetas del tesauro de DESY asignadas manualmente. Puede obtener más información sobre el tesauro de DESY.

  • Partición hepth: 18,114 documentos de Física Teórica (metadatos - 5,3 Mb) (artículos - 226 Mb)
  • Partición hepex: 2,599 documentos de Física Experimental (metadatos - 1,6 Mb) (artículos - 28 Mb)
  • Partición astroph: 2,716 documentos de Astrofísica (metadatos - 1,1 Mb) (artículos - 29 Mb)

Actualizado el 23.04.2007: Gracias a Ioannis Katakis, de la Aristotle University of Thessaloniki, (Grecia) por corregir algunos problemas en el XML proporcionado. Cómo referenciar Este corpus ha sido preparado por Arturo Montejo Ráez, con metadatos facilitados por Jens Vigen y la ayuda del CDS Team. Para referencias usar:

@Article{montejo2004,
  author =        {Montejo-Ráez, A. and Steinberger, R. and Ureña-López,  L. A.}
  title =            {Adaptive selection of base classifiers in one-against-all
                      learning for large multi-labeled collections},
  booktitle =     {Advances in Natural Language Processing: 4th International
                      Conference, EsTAL 2004},
  pages =        {1--12},
  year =           {2004},
  editor =         {Vicedo J. L. et al.},
  location =      {Alicante, Spain},
  number =      {3230},
  series =        {Lectures notes in artifial intelligence},
  publisher =    {Springer}
}

Archivos del recurso: hep-collection.rar

» Collins Parser

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Analizador gramatical del lenguaje natural. GNU General Public License

Enlace al recurso:

» Collins Parser

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Analizador gramatical del lenguaje natural. GNU General Public License

Enlace al recurso:

» CoolTran

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Traductor de términos multiplataforma en diferentes idiomas. Dispone de varios diccionarios de idiomas preinstalados, aunque se pueden instalar más, y de una base de datos en internet “colaborativa”, a la que se conecta la aplicación. Implementación en Java. Licencia GPL

Enlace al recurso: