Corpora

COPOD

Tipo de recurso:

Corpus

Descripción:

El corpus COPOD (Corpus Of Patient Opinions in Dutch) está compuesto por opiniones en holandés extraídas del foro médico Zorgkaart Nederland a fecha de 28 de junio de 2016. Se trata de una colección de 156.975 opiniones de pacientes sobre sus experiencias con médicos de 60 especialidades diferentes. Cada opinión contiene una valoración sobre distintos aspectos (lugar, cita, terapia, atención del personal, información y escucha), en un rango de 1 a 10 estrellas, y una valoración general que se corresponden con la media de dichos aspectos.

Cómo citar:

Jiménez-Zafra, S. M., Martín-Valdivia, M. T., Maks, I., & Izquierdo, R. (2017). Analysis of patient satisfaction in Dutch and Spanish online reviews. Procesamiento del Lenguaje Natural, 58, 101-108.

Archivos del recurso:

COPOD.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez Zafra o a M. Teresa Martín-Valdivia.

DOS

Tipo de recurso:

Corpus

Descripción:

El corpus Drug Opinion Spanish (DOS) ha sido extraído del portal web https://www.mimedicamento.es que es una plataforma independiente en la que los usuarios comparten sus experiencias con los medicamentos. Está formado por 877 comentarios sobre los 30 medicamentos que más opiniones habían recibido en este portal web a fecha de 14 de Marzo de 2017. Cada comentario contiene información sobre la fecha en la que se publicó, el género y edad del consumidor, la dolencia tratada, la opinión textual y una valoración mediante estrellas para las siguientes categorías de satisfacción: general, eficacia, cantidad de efectos secundarios, severidad de los efectos secundarios y facilidad de ingestión. Además, cada comentario ha sido anotado a nivel de aspecto con los efectos secundarios descritos en él y con una etiqueta de polaridad y de intensidad relacionada con la opinión del paciente. El corpus cuenta con 3.784 oraciones que contienen un total de 2.230 efectos secundarios, de los cuales 98 son positivos, 2.119 negativos y 13 neutros. En relación con la intensidad de los efectos secundarios, 655 son de intensidad alta, 1.486 de intensidad media y 89 de intensidad baja.

Cómo citar:

Jiménez-Zafra, S. M.,Martín-Valdivia, M. T., Molina-González, M. D. & Ureña-López, L. A. (2017). Corpus Annotation for Aspect Based Sentiment Analysis in Medical Domain. Proceedings of the 2nd International Workshop on Extraction and Processing of Rich Semantics from Medical Texts

Archivos del recurso:

DOS.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

COPOS

Tipo de recurso:

Corpus

Descripción:

Este corpus ha sido extraído de la página Web www.masquemedicos.com. Es una colección de opiniones de pacientes sobre entidades médicas que provienen de seis países (Chile, Colombia,Ecuador, España, Méjico, Venezuela). Está compuesto de 743 opiniones sobre 34 especialidades médicas. Del total de las opiniones, 109 son negativas y 634 son positivas. Las opiniones están etiquetadas por el paciente en una escala de 0 a 5 estrellas.

Cómo citar:

del Arco, F. M. P., Valdivia, M. T. M., Zafra, S. M. J., González, M. D. M., & Cámara, E. M. (2016). COPOS: Corpus Of Patient Opinions in Spanish. Application of Sentiment Analysis Techniques. Procesamiento del Lenguaje Natural, 57, 83-90.

Para cualquier consulta sobre el corpus envía un email a M. Teresa Martín-Valdivia o Flor Miriam Plaza-del-Arco.

COAR

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de restaurantes destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hostelero (turismo-hostelería). El corpus está formado por 2202 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de intensidad de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 565 246 188 333 870 2202

Archivos del recurso:

CorpusCOAR.xlsx

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

SFU-Review-SP-Neg

Tipo de recurso:

Corpus

Descripción:

Este corpus es una ampliación del SFU Spanish Review Corpus (Brooke et al., 2009) con anotaciones sobre la negación y su ámbito. Se trata de una colección de 400 comentarios de coches, hoteles, lavadoras, libros, teléfonos móviles, música, ordenadores y películas de la web Ciao.es. Cada dominio contiene 25 comentarios positivos y 25 comentarios negativos. Cada comentario ha sido anotado a nivel de token con la raíz (lema) y la categoría gramatical (PoS), y a nivel de oración con partículas negativas, su ámbito lingüístico, el evento y cómo la polaridad de la oración se ve afectada por la negación (si hay un cambio en la polaridad o un incremento o reducción de su valor), teniendo en cuenta también intensificadores y atenuantes.

Cómo citar:

Jiménez-Zafra, S. M., Taulé, M., Martín-Valdivia, M. T., Ureña-López, L. A., & Martí, M. A. (2018). SFU Review SP-NEG: a Spanish corpus annotated with negation for sentiment analysis. A typology of negation patterns. Language Resources and Evaluation, 52(2), 533-569.

Jiménez-Zafra, S. M., Martín-Valdivia, M. T., Molina-González, M. D., & Ureña-López, L. A. (2018). Relevance of the SFU Review SP-NEG corpus annotated with the scope of negation for supervised polarity classification in Spanish. Information Processing & Management, 54(2), 240-251.

Jiménez-Zafra, S. M., Martin, M., Lopez, L. A. U., Marti, T., & Taulé, M. (2016). Problematic cases in the annotation of negation in Spanish. In Proceedings of the Workshop on Extra-Propositional Aspects of Meaning in Computational Linguistics (ExProM) (pp. 42-48).

Martí, M. A., Martín-Valdivia, M. T., Taulé, M., Jiménez-Zafra, S. M., Nofre, M., & Marsó, L. (2016). La negación en español: análisis y tipología de patrones de negación. Procesamiento del Lenguaje Natural, 57, 41-48.

Archivos del recurso:

Versión 1.0.0: SFU_Review_SP_Neg.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

COAH

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de hoteles destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hotelero (turismo-hoteles). El corpus está formado por 1816 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 312 199 285 489 531 1816

Algunos datos lingüísticos del corpus son:

Número de opiniones 1816
Número de tokens 272446
Número de palabras 239749
Número de palabras únicas 154297
Diversidad léxica 0,6435
Número de caracteres 1372737
Número de caracteres sin espacios 1135306
Número de nombres 55530
Número de verbos 40318
Número de adjetivos 19935
Número de adverbios 16629
Número de lemas 239749
Número de lemas únicos 138549
Diversidad de lemmas 0,577
Número de sentidos 106205
Número de sentidos únicos 77397
Longitud media de sentencia 23,245
Número medio de nombres 0,231
Número medio de verbos 0,168
Número medio de adjetivos 0.083
Número medio de adverbios 0.069

Cómo citar:

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A. (2014). Cross-domain sentiment analysis using spanish opinionated words. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, vol. 8455, pp. 214-219. Springer International Publishing. DOI: 10.1007/978-3-319-07983-7_28

Archivos del recurso:

corpus_coah.xml

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

COST

Tipo de recurso:

Corpora

Descripción:

Corpus de tweets en español para investigación en análisis de opiniones. La polaridad de los tweets está determinada por los emoticonos que aparecen en los tweets, por lo que aquellos mensajes que tienen emoticonos positivos son positivos, mientras que los que tienen emoticonos negativos son negativos. Se trata de un corpus balanceado de 34634 tweets (17317 positivos y 17317 negativos).

Cómo citar:

Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A., Mitkov, R. (2015). Polarity classification for Spanish tweets using the COST corpus. Journal of Information Science, 41(3), 263-272. DOI: 10.1177%2F0165551514566564.

Archivos del recurso:

Si quiere tener una copia del corpus debe enviar un correo a Eugenio Martínez Cámara (emcamara@ujaen.es).

Reuters Corpus

Tipo recurso:

Corpora

Descripción:

2 CDs que contienen 810.000 Noticias en inglés de la agencia Reuters. En idioma Inglés. Descomprimido ocupa 2,5 GB. De licencia libre (no comercial). Se entrega bajo petición firmada y comprometiéndose a referenciarlos cada vez que se use para un artículo.

Enlace al recurso:

OSHUMED

Tipo recurso:

Corpora

Descripción:

Colección de documentos (incluye documentos, asuntos y juicios de relevancia) usados en el TREC-9. La colección de prueba consiste en un conjunto de 348,566 referencias de MEDLINE

Enlace al recurso:

20-Newsgroups

Tipo recurso:

Corpora

Descripción:

20000 mensajes tomados a partir de 20 grupos de noticias de Usenet. Disponible para uso científico

Enlace al recurso:

Reuters

Tipo recurso:

Corpora

Descripción:

Colección de categorización de texto. Recurso para investigación en recuperación de información, aprendizaje automático y otras investigaciones basadas en corpus. Disponible para uso científico

Enlace al recurso:

Colección HEP

Tipo de recurso:

Corpora

Descripción:

Este corpus está orientado al estudio de clasificadores de texto multi-etiquetado. Está compuesto por artículos científicos en el área de la Física de Altas Energías (HEP – High Energy Physics) obtenidos del servidor de documentos CDS del Laboratorio de Física Nuclear Europeo (CERN). El corpus está dividido en tres subconjuntos (denominadas particiones), donde cada partición se compone, a su vez, de dos ficheros: uno que contiene los registros de cada artículo (con información como los abstract, los autores y, por supuesto, las clases o palabras clave) en formato XML comprimido, y otro que contiene una versión en texto plano del artículo completo generado a partir del PDF disponible en las bases de datos del CERN (en formato tar + gzip) Las clases están delimitadas por la marca XML KEYWORD. Estas son las etiquetas del tesauro de DESY asignadas manualmente. Puede obtener más información sobre el tesauro de DESY.

  • Partición hepth: 18,114 documentos de Física Teórica (metadatos – 5,3 Mb) (artículos – 226 Mb)
  • Partición hepex: 2,599 documentos de Física Experimental (metadatos – 1,6 Mb) (artículos – 28 Mb)
  • Partición astroph: 2,716 documentos de Astrofísica (metadatos – 1,1 Mb) (artículos – 29 Mb)

Actualizado el 23.04.2007: Gracias a Ioannis Katakis, de la Aristotle University of Thessaloniki, (Grecia) por corregir algunos problemas en el XML proporcionado. Cómo referenciar Este corpus ha sido preparado por Arturo Montejo Ráez, con metadatos facilitados por Jens Vigen y la ayuda del CDS Team. Para referencias usar:

@Article{montejo2004,
  author =        {Montejo-Ráez, A. and Steinberger, R. and Ureña-López,  L. A.}
  title =            {Adaptive selection of base classifiers in one-against-all
                      learning for large multi-labeled collections},
  booktitle =     {Advances in Natural Language Processing: 4th International
                      Conference, EsTAL 2004},
  pages =        {1--12},
  year =           {2004},
  editor =         {Vicedo J. L. et al.},
  location =      {Alicante, Spain},
  number =      {3230},
  series =        {Lectures notes in artifial intelligence},
  publisher =    {Springer}
}

Archivos del recurso: hep-collection.rar