MCE Corpus

Tipo de recurso:

Corpora

Descripción:

MuchoCine corpus en Inglés (MCE) es la versión traducida del corpus MuchoCine (Spanish Movies Reviews). El corpus de MuchoCine fue elaborado por el investigador Fermín Cruz Mata y presentado en el año 2008 en el número 41 de la revista Procesamiento del Lenguaje Natural en el artículo titulado Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español.

En el artículo Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches comprueba la validez de una metodología para la clasificación de la polaridad  en español que consiste en combinar tres clasificadores, dos supervisados (sobre textos en inglés y en otro idioma) y otro no supervisado usando algún recurso lingüístico en inglés para análisis de opiniones. Esta metodología fue propuesta previamente para opiniones en árabe en el artículo Improving Polarity Classification of Bilingual Parallel Corpora combining Machine Learning and Semantic Orientation approaches (in press).

La polaridad de los documentos del corpus está medida en una escala de 1 a 5, siendo 1 muy negativo y 5 muy positivo. Los datos del corpus son:

Polaridad Nº de documentos
1 351
2 923
3 1253
4 890
5 461

 

Solo se permite el uso de este corpus para investigación. En tal caso, debe citar el siguiente artículo:

Martín-Valdivia, M. T., Martínez-Cámara, E., Perea-Ortega, J. M., & Alfonso Ureña-López, L. (2012). Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2012.12.084

Para cualquier consulta sobre el corpus envía un email a José M. Perea o a Eugenio Martínez Cámara

Archivos del recurso:

MCE-corpus.tar.gz