Corpus de opiniones de hoteles destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hotelero (turismo-hoteles). El corpus está formado por 1816 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:
Puntuación | 1 | 2 | 3 | 4 | 5 | Total |
#Opiniones | 312 | 199 | 285 | 489 | 531 | 1816 |
Algunos datos lingüísticos del corpus son:
Número de opiniones | 1816 |
Número de tokens | 272446 |
Número de palabras | 239749 |
Número de palabras únicas | 154297 |
Diversidad léxica | 0,6435 |
Número de caracteres | 1372737 |
Número de caracteres sin espacios | 1135306 |
Número de nombres | 55530 |
Número de verbos | 40318 |
Número de adjetivos | 19935 |
Número de adverbios | 16629 |
Número de lemas | 239749 |
Número de lemas únicos | 138549 |
Diversidad de lemmas | 0,577 |
Número de sentidos | 106205 |
Número de sentidos únicos | 77397 |
Longitud media de sentencia | 23,245 |
Número medio de nombres | 0,231 |
Número medio de verbos | 0,168 |
Número medio de adjetivos | 0.083 |
Número medio de adverbios | 0.069 |
Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A. (2014). Cross-domain sentiment analysis using spanish opinionated words. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, vol. 8455, pp. 214-219. Springer International Publishing. DOI: 10.1007/978-3-319-07983-7_28