OCA Corpus

Tipo de recurso
Corpora
Descripción

OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:

Nombre Página web Sistema voto Positivos Negativos
Cinema Al Rasid http://cinema.al-rasid.com/ 10 36 1
Film Reader http://filmreader.blogspot.com/ 5 0 92
Hot Movie Reviews http://hotmoviews.blogspot.com 5 45 4
Elcinema http://www.elcinema.com 10 0 56
Grind House http://grindh.com 10 38 0
Mzyondubai http://www.mzyondubai.com 10 0 15
Aflamee http://aflamee.com 5 0 1
Grind Film http://grindfilm.blogspot.com/ 10 0 8
Cinema Gate http://www.cingate.net Bad/Good 0 1
Emad Ozery Blog http://emadozery.blogspot.com 10 0 1
Fil Fan http://www.filfan.com 5 81 20
Sport4Ever http://sport4ever.maktoob.com 10 0 1
DVD4ArabPos http://dvd4arab.maktoob.com 10 11 0
Gamraii http://www.gamraii.com 10 39 0
Shadows and Phantoms http://shadowsandphantoms.blogspot.com 10 0 50
    Total 250 250

Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:

  Negativos Positivos
Total documentos 250 250
Total tokens 94,556 121,392
Media de tokens en cada comentario 378 485
Total sentencias 4,881 3,137
Media de sentencias en cada comentario 20 13

Rushdi-Saleh, M., Martín-Valdivia, M. T., Alfonso Ureña-López, L. & Perea-Ortega, J. M. (2011). OCA: Opinion corpus for Arabic. Journal of the American Society for Information Science and Technology.
http://dx.doi.org/10.1002/asi.21598

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

 

Archivos