» OCA Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:

Nombre Página web Sistema voto Positivos Negativos
Cinema Al Rasid http://cinema.al-rasid.com/ 10 36 1
Film Reader http://filmreader.blogspot.com/ 5 0 92
Hot Movie Reviews http://hotmoviews.blogspot.com 5 45 4
Elcinema http://www.elcinema.com 10 0 56
Grind House http://grindh.com 10 38 0
Mzyondubai http://www.mzyondubai.com 10 0 15
Aflamee http://aflamee.com 5 0 1
Grind Film http://grindfilm.blogspot.com/ 10 0 8
Cinema Gate http://www.cingate.net Bad/Good 0 1
Emad Ozery Blog http://emadozery.blogspot.com 10 0 1
Fil Fan http://www.filfan.com 5 81 20
Sport4Ever http://sport4ever.maktoob.com 10 0 1
DVD4ArabPos http://dvd4arab.maktoob.com 10 11 0
Gamraii http://www.gamraii.com 10 39 0
Shadows and Phantoms http://shadowsandphantoms.blogspot.com 10 0 50
Total 250 250

Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 94,556 121,392
Media de tokens en cada comentario 378 485
Total sentencias 4,881 3,137
Media de sentencias en cada comentario 20 13

Rushdi-Saleh, M., Martín-Valdivia, M. T., Alfonso Ureña-López, L. & Perea-Ortega, J. M. (2011). OCA: Opinion corpus for Arabic. Journal of the American Society for Information Science and Technology.

http://dx.doi.org/10.1002/asi.21598

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

OCA-corpus.zip

» SFU-Review-SP-Neg

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

Este corpus es una ampliación del SFU Spanish Review Corpus (Brooke et al., 2009) con anotaciones sobre la negación y su ámbito. Se trata de una colección de 400 comentarios de coches, hoteles, lavadoras, libros, teléfonos móviles, música, ordenadores y películas de la web Ciao.es. Cada dominio contiene 25 comentarios positivos y 25 comentarios negativos. Cada comentario ha sido anotado a nivel de token con la raíz (lema) y la categoría gramatical (PoS), y a nivel de oración con partículas negativas, su ámbito lingüístico, el evento y cómo la polaridad de la oración se ve afectada por la negación (si hay un cambio en la polaridad o un incremento o reducción de su valor), teniendo en cuenta también intensificadores y atenuantes.

Cómo citar:

Jiménez-Zafra, S. M., Taulé, M., Martín-Valdivia, M. T., Ureña-López, L. A., & Martí, M. A. SFU ReviewSP-NEG: a Spanish corpus annotated with negation for sentiment analysis. A typology of negation patterns. Language Resources and Evaluation, 1-37.

Jiménez-Zafra, S. M., Martın-Valdivia, M. T., Urena-López, L. A., Martı, M. A., & Taulé, M. (2016). Problematic Cases in the Annotation of Negation in Spanish. ExProM 2016, 42.

Martí, M. A., Martín-Valdivia, M. T., Taulé, M., Jiménez-Zafra, S. M., Nofre, M., & Marsó, L. (2016). La negación en español: análisis y tipología de patrones de negación. Procesamiento del Lenguaje Natural, 57, 41-48.

Archivos del recurso:

Versión 1.0.0: SFU_Review_SP_Neg.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

» SinaiSACorpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Este corpus ha sido preparado por el grupo SINAI en Diciembre de 2008. SINAI SA (Análisis de Sentimientos) fue creado rastreando la página web de Amazon. Casi 2000 comentarios se extrajeron de diferentes cámaras.

Estructura: El corpus de SINAI contiene 5 directorios y cada uno representa el número de estrellas por comentario. (ej. el directorio 1 contiene los valorados con una estrella). Cada directorio contiene un fichero en texto plano por documento/comentario.

La cantidad de comentarios se detalla a continuación:

    • 1…estrella: 78 comentarios
    • 2…estrellas: 67 comentarios
    • 3…estrellas: 97 comentarios
    • 4…estrellas: 411 comentarios
    • 5…estrellas: 1,290 comentarios

Total: 1,943 comentarios

Camara Comentarios
CanonA590IS 400
CanonA630 300
CanonSD1100IS 426
KodakCx7430 64
KodakV1003 95
KodakZ740 155
Nikon5700 119
Olympus1030SW 168
PentaxK10D 126
PentaxK200D 90
Total 1,943

Rushdi-Saleh, M., Martín-Valdivia, M. T., Montejo-Ráez, A., & Alfonso Ureña-López, L. (2011). Experiments with SVM to classify opinions in different domains. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2011.05.070

Archivos del recurso:

SINAI-SA-corpus.zip

» SOL

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

SOL es una lista de palabras indicadoras de opinión en español independiente del dominio.

Para la elaboración del recurso se ha partido de la lista de palabras que mantiene el profesor Bing Liu (Bing Liu’s Opinion Lexicon). La lista de palabras ha sido traducida automáticamente usando el traductor Reverso.

La lista está formada por 1.397 palabras positivas y por 3.151 negativas. Para más información sobre como se ha desarrolla la lista puede consultar el artículo: Bilingual Experiments on an Opinion Comparable Corpus (in press).

Martínez-Cámara, E., Martín-Valdivia, M. T., Molina-Gonzalez, M. L. & Alfonso Ureña-López, L. (2013). Bilingual Experiments on an Opinion Comparable Corpus. Proceedings of the 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis
http://aclweb.org/anthology/W13-1612

Archivos del recurso:

sol.tar.gz

» Spanish QC

Ver ficha completa »

Tipo de recurso:

Corpora

Descripcion:

Este recurso son 6305 preguntas en español etiquetadas para clasificación de Búsqueda de Respuestas, siguiendo la taxonomía definida en el artículo “X. Li and D. Roth. Learning Question Classifiers”, y que tiene las siguientes categorías generales y detalladas:

  • ABBR: abbreviation, expansion
  • DESC: definition, description, manner, reason
  • ENTY: animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word
  • HUM: description, group, individual, title
  • LOC: city, country, mountain, other, state
  • NUM code, count, date, distance, money, order, other, percent, period, speed, temperature, size, weight

Partiendo de un conjunto de preguntas etiquetadas para inglés se ha generado este recurso con preguntas diversas en español etiquetadas y revisadas por 3 personas.

García-Cumbreras, M. A., Ureña-López, L. A. & Martínez-Santiago, F. (2006). BRUJA: Question Classification for Spanish. Using Machine Translation and an English Classifier. EACL 2006 Workshop on Multilingual Question Answering – MLQA06.

Archivos del recurso:

Clasificacion-QA-6305.label_.txt

» TeCat

Ver ficha completa »

Tipo de recurso:

Software

Descripcion:

TECAT representa la categorización de textos. Es una herramienta para la creación de etiquetas multi-clasificadores de texto automático. Con TECAT usted puede experimentar con diferentes colecciones y clasificadores con el fin de construir un multi-etiqueta.

Montejo-Ráez A., Ureña-López, L. A., Steinberger, R. Adaptive Selection of Base Classifiers in One-Against-All Learning for Large Multi-labeled Collections. Lecture Notes in Computer Science Volume 3230, 2004, pp 1-12.

Por favor, envía un correo a amontejo AT ujaen punto es notificando su uso.
Licencia: GPL

Archivos del recurso:

tecat-0.2.tar__0.gz