MuchoCine corpus en Inglés (MCE) es la versión traducida del corpus MuchoCine (Spanish Movies Reviews). El corpus de MuchoCine fue elaborado por el investigador Fermín Cruz Mata y presentado en el año 2008 en el número 41 de la revista Procesamiento del Lenguaje Natural en el artículo titulado Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español.
En el artículo Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches comprueba la validez de una metodología para la clasificación de la polaridad en español que consiste en combinar tres clasificadores, dos supervisados (sobre textos en inglés y en otro idioma) y otro no supervisado usando algún recurso lingüístico en inglés para análisis de opiniones. Esta metodología fue propuesta previamente para opiniones en árabe en el artículo Improving Polarity Classification of Bilingual Parallel Corpora combining Machine Learning and Semantic Orientation approaches (in press).
La polaridad de los documentos del corpus está medida en una escala de 1 a 5, siendo 1 muy negativo y 5 muy positivo. Los datos del corpus son:
Polaridad | Nº de documentos |
---|---|
1 | 351 |
2 | 923 |
3 | 1253 |
4 | 890 |
5 | 461 |
Solo se permite el uso de este corpus para investigación.
Martín-Valdivia, M. T., Martínez-Cámara, E., Perea-Ortega, J. M., & Alfonso Ureña-López, L. (2012). Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches. Expert Systems with Applications.
http://dx.doi.org/10.1016/j.eswa.2012.12.084
Para cualquier consulta sobre el corpus envía un email a José M. Perea o a Eugenio Martínez Cámara