COAH

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de hoteles destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hotelero (turismo-hoteles). El corpus está formado por 1816 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 312 199 285 489 531 1816

Algunos datos lingüísticos del corpus son:

Número de opiniones 1816
Número de tokens 272446
Número de palabras 239749
Número de palabras únicas 154297
Diversidad léxica 0,6435
Número de caracteres 1372737
Número de caracteres sin espacios 1135306
Número de nombres 55530
Número de verbos 40318
Número de adjetivos 19935
Número de adverbios 16629
Número de lemas 239749
Número de lemas únicos 138549
Diversidad de lemmas 0,577
Número de sentidos 106205
Número de sentidos únicos 77397
Longitud media de sentencia 23,245
Número medio de nombres 0,231
Número medio de verbos 0,168
Número medio de adjetivos 0.083
Número medio de adverbios 0.069

Cómo citar:

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A. (2014). Cross-domain sentiment analysis using spanish opinionated words. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, vol. 8455, pp. 214-219. Springer International Publishing. DOI: 10.1007/978-3-319-07983-7_28

Archivos del recurso:

corpus_coah.xml

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez