Corpora

SinaiSACorpus

Tipo de recurso:

Corpora

Descripción:

Este corpus ha sido preparado por el grupo SINAI en Diciembre de 2008. SINAI SA (Análisis de Sentimientos) fue creado rastreando la página web de Amazon. Casi 2000 comentarios se extrajeron de diferentes cámaras.

Estructura: El corpus de SINAI contiene 5 directorios y cada uno representa el número de estrellas por comentario. (ej. el directorio 1 contiene los valorados con una estrella). Cada directorio contiene un fichero en texto plano por documento/comentario.

La cantidad de comentarios se detalla a continuación:

    • 1…estrella: 78 comentarios
    • 2…estrellas: 67 comentarios
    • 3…estrellas: 97 comentarios
    • 4…estrellas: 411 comentarios
    • 5…estrellas: 1,290 comentarios

Total: 1,943 comentarios

Camara Comentarios
CanonA590IS 400
CanonA630 300
CanonSD1100IS 426
KodakCx7430 64
KodakV1003 95
KodakZ740 155
Nikon5700 119
Olympus1030SW 168
PentaxK10D 126
PentaxK200D 90
Total 1,943

Rushdi-Saleh, M., Martín-Valdivia, M. T., Montejo-Ráez, A., & Alfonso Ureña-López, L. (2011). Experiments with SVM to classify opinions in different domains. Expert Systems with Applications.
http://dx.doi.org/10.1016/j.eswa.2011.05.070

Archivos del recurso:

SINAI-SA-corpus.zip

OCA Corpus

Tipo de recurso:

Corpora

Descripción:

OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:

Nombre Página web Sistema voto Positivos Negativos
Cinema Al Rasid http://cinema.al-rasid.com/ 10 36 1
Film Reader http://filmreader.blogspot.com/ 5 0 92
Hot Movie Reviews http://hotmoviews.blogspot.com 5 45 4
Elcinema http://www.elcinema.com 10 0 56
Grind House http://grindh.com 10 38 0
Mzyondubai http://www.mzyondubai.com 10 0 15
Aflamee http://aflamee.com 5 0 1
Grind Film http://grindfilm.blogspot.com/ 10 0 8
Cinema Gate http://www.cingate.net Bad/Good 0 1
Emad Ozery Blog http://emadozery.blogspot.com 10 0 1
Fil Fan http://www.filfan.com 5 81 20
Sport4Ever http://sport4ever.maktoob.com 10 0 1
DVD4ArabPos http://dvd4arab.maktoob.com 10 11 0
Gamraii http://www.gamraii.com 10 39 0
Shadows and Phantoms http://shadowsandphantoms.blogspot.com 10 0 50
Total 250 250

Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 94,556 121,392
Media de tokens en cada comentario 378 485
Total sentencias 4,881 3,137
Media de sentencias en cada comentario 20 13

Rushdi-Saleh, M., Martín-Valdivia, M. T., Alfonso Ureña-López, L. & Perea-Ortega, J. M. (2011). OCA: Opinion corpus for Arabic. Journal of the American Society for Information Science and Technology.
http://dx.doi.org/10.1002/asi.21598

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

OCA-corpus.zip

EVOCA Corpus

Tipo de recurso:

Corpora

Descripción:

EVOCA (English Version of OCA) es un corpus en inglés generado a partir de la traducción del corpus OCA en árabe. Este corpus contiene comentarios de películas y está dividido en 250 comentarios considerados positivos y 250 negativos. Algunas estadísticas sobre EVOCA corpus. Este corpus fue traducido en Abril de 2011. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 122.135 153.581
Media de tokens en cada comentario 488,54 614,32
Total sentencias 5.030 3.483
Media de sentencias en cada comentario 20,12 13,93

Cómo citar:

Rushdi Saleh, M., Martín-Valdivia, M. T., Ureña-López, L. A. & Perea-Ortega, J. M. (2011). Bilingual Experiments with an Arabic-English Corpus for Opinion Mining. Proceedings of Recent Advances in Natural Language Processing, pages 740–745.

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

EVOCA-corpus.rar

Spanish QC

Tipo de recurso:

Corpora

Descripcion:

Este recurso son 6305 preguntas en español etiquetadas para clasificación de Búsqueda de Respuestas, siguiendo la taxonomía definida en el artículo «X. Li and D. Roth. Learning Question Classifiers», y que tiene las siguientes categorías generales y detalladas:

  • ABBR: abbreviation, expansion
  • DESC: definition, description, manner, reason
  • ENTY: animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word
  • HUM: description, group, individual, title
  • LOC: city, country, mountain, other, state
  • NUM code, count, date, distance, money, order, other, percent, period, speed, temperature, size, weight

Partiendo de un conjunto de preguntas etiquetadas para inglés se ha generado este recurso con preguntas diversas en español etiquetadas y revisadas por 3 personas.

García-Cumbreras, M. A., Ureña-López, L. A. & Martínez-Santiago, F. (2006). BRUJA: Question Classification for Spanish. Using Machine Translation and an English Classifier. EACL 2006 Workshop on Multilingual Question Answering – MLQA06.

Archivos del recurso:

Clasificacion-QA-6305.label_.txt

MCE Corpus

Tipo de recurso:

Corpora

Descripción:

MuchoCine corpus en Inglés (MCE) es la versión traducida del corpus MuchoCine (Spanish Movies Reviews). El corpus de MuchoCine fue elaborado por el investigador Fermín Cruz Mata y presentado en el año 2008 en el número 41 de la revista Procesamiento del Lenguaje Natural en el artículo titulado Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español.

En el artículo Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches comprueba la validez de una metodología para la clasificación de la polaridad  en español que consiste en combinar tres clasificadores, dos supervisados (sobre textos en inglés y en otro idioma) y otro no supervisado usando algún recurso lingüístico en inglés para análisis de opiniones. Esta metodología fue propuesta previamente para opiniones en árabe en el artículo Improving Polarity Classification of Bilingual Parallel Corpora combining Machine Learning and Semantic Orientation approaches (in press).

La polaridad de los documentos del corpus está medida en una escala de 1 a 5, siendo 1 muy negativo y 5 muy positivo. Los datos del corpus son:

Polaridad Nº de documentos
1 351
2 923
3 1253
4 890
5 461

 

Solo se permite el uso de este corpus para investigación. En tal caso, debe citar el siguiente artículo:

Martín-Valdivia, M. T., Martínez-Cámara, E., Perea-Ortega, J. M., & Alfonso Ureña-López, L. (2012). Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches. Expert Systems with Applications.
http://dx.doi.org/10.1016/j.eswa.2012.12.084

Para cualquier consulta sobre el corpus envía un email a José M. Perea o a Eugenio Martínez Cámara

Archivos del recurso:

MCE-corpus.tar.gz