» COAH

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de hoteles destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hotelero (turismo-hoteles). El corpus está formado por 1816 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 312 199 285 489 531 1816

Algunos datos lingüísticos del corpus son:

Número de opiniones 1816
Número de tokens 272446
Número de palabras 239749
Número de palabras únicas 154297
Diversidad léxica 0,6435
Número de caracteres 1372737
Número de caracteres sin espacios 1135306
Número de nombres 55530
Número de verbos 40318
Número de adjetivos 19935
Número de adverbios 16629
Número de lemas 239749
Número de lemas únicos 138549
Diversidad de lemmas 0,577
Número de sentidos 106205
Número de sentidos únicos 77397
Longitud media de sentencia 23,245
Número medio de nombres 0,231
Número medio de verbos 0,168
Número medio de adjetivos 0.083
Número medio de adverbios 0.069

Cómo citar:

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., Ureña-López, L. A. (2014). Cross-domain sentiment analysis using spanish opinionated words. Natural Language Processing and Information Systems, Lecture Notes in Computer Science, vol. 8455, pp. 214-219. Springer International Publishing. DOI: 10.1007/978-3-319-07983-7_28

Archivos del recurso:

corpus_coah.xml

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

» COAR

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de opiniones de restaurantes destinado a la investigación en el ámbito de la clasificación de la polaridad a nivel de documento, y se circunscribe en el dominio de alojamiento hostelero (turismo-hostelería). El corpus está formado por 2202 opiniones extraídas de TripAdvisor, las cuales están catalogadas en una escala de cinco niveles de intensidad de opinión (1 (negativo) – 5 (positivo)). El número de opiniones por clase es:

Puntuación 1 2 3 4 5 Total
#Opiniones 565 246 188 333 870 2202

Archivos del recurso:

CorpusCOAR.xlsx

Para cualquier consulta sobre el corpus envía un email a M. Dolores Molina o Eugenio Martínez

» Colección HEP

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Este corpus está orientado al estudio de clasificadores de texto multi-etiquetado. Está compuesto por artículos científicos en el área de la Física de Altas Energías (HEP – High Energy Physics) obtenidos del servidor de documentos CDS del Laboratorio de Física Nuclear Europeo (CERN). El corpus está dividido en tres subconjuntos (denominadas particiones), donde cada partición se compone, a su vez, de dos ficheros: uno que contiene los registros de cada artículo (con información como los abstract, los autores y, por supuesto, las clases o palabras clave) en formato XML comprimido, y otro que contiene una versión en texto plano del artículo completo generado a partir del PDF disponible en las bases de datos del CERN (en formato tar + gzip) Las clases están delimitadas por la marca XML KEYWORD. Estas son las etiquetas del tesauro de DESY asignadas manualmente. Puede obtener más información sobre el tesauro de DESY.

  • Partición hepth: 18,114 documentos de Física Teórica (metadatos - 5,3 Mb) (artículos - 226 Mb)
  • Partición hepex: 2,599 documentos de Física Experimental (metadatos - 1,6 Mb) (artículos - 28 Mb)
  • Partición astroph: 2,716 documentos de Astrofísica (metadatos - 1,1 Mb) (artículos - 29 Mb)

Actualizado el 23.04.2007: Gracias a Ioannis Katakis, de la Aristotle University of Thessaloniki, (Grecia) por corregir algunos problemas en el XML proporcionado. Cómo referenciar Este corpus ha sido preparado por Arturo Montejo Ráez, con metadatos facilitados por Jens Vigen y la ayuda del CDS Team. Para referencias usar:

@Article{montejo2004,
  author =        {Montejo-Ráez, A. and Steinberger, R. and Ureña-López,  L. A.}
  title =            {Adaptive selection of base classifiers in one-against-all
                      learning for large multi-labeled collections},
  booktitle =     {Advances in Natural Language Processing: 4th International
                      Conference, EsTAL 2004},
  pages =        {1--12},
  year =           {2004},
  editor =         {Vicedo J. L. et al.},
  location =      {Alicante, Spain},
  number =      {3230},
  series =        {Lectures notes in artifial intelligence},
  publisher =    {Springer}
}

Archivos del recurso: hep-collection.rar

» COPOD

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

El corpus COPOD (Corpus Of Patient Opinions in Dutch) está compuesto por opiniones en holandés extraídas del foro médico Zorgkaart Nederland a fecha de 28 de junio de 2016. Se trata de una colección de 156.975 opiniones de pacientes sobre sus experiencias con médicos de 60 especialidades diferentes. Cada opinión contiene una valoración sobre distintos aspectos (lugar, cita, terapia, atención del personal, información y escucha), en un rango de 1 a 10 estrellas, y una valoración general que se corresponden con la media de dichos aspectos.

Cómo citar:

Jiménez-Zafra, S. M., Martín-Valdivia, M. T., Maks, I., & Izquierdo, R. (2017). Analysis of patient satisfaction in Dutch and Spanish online reviews. Procesamiento del Lenguaje Natural, 58, 101-108.

Archivos del recurso:

COPOD.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez Zafra o a M. Teresa Martín-Valdivia.

» COPOS

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

Este corpus ha sido extraído de la página Web www.masquemedicos.com. Es una colección de opiniones de pacientes sobre entidades médicas que provienen de seis países (Chile, Colombia,Ecuador, España, Méjico, Venezuela). Está compuesto de 743 opiniones sobre 34 especialidades médicas. Del total de las opiniones, 109 son negativas y 634 son positivas. Las opiniones están etiquetadas por el paciente en una escala de 0 a 5 estrellas.

Cómo citar:

del Arco, F. M. P., Valdivia, M. T. M., Zafra, S. M. J., González, M. D. M., & Cámara, E. M. (2016). COPOS: Corpus Of Patient Opinions in Spanish. Application of Sentiment Analysis Techniques. Procesamiento del Lenguaje Natural, 57, 83-90.

Para cualquier consulta sobre el corpus envía un email a M. Teresa Martín-Valdivia o Flor Miriam Plaza-del-Arco.

» COST

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de tweets en español para investigación en análisis de opiniones. La polaridad de los tweets está determinada por los emoticonos que aparecen en los tweets, por lo que aquellos mensajes que tienen emoticonos positivos son positivos, mientras que los que tienen emoticonos negativos son negativos. Se trata de un corpus balanceado de 34634 tweets (17317 positivos y 17317 negativos).

Archivos del recurso:

Si quiere tener una copia del corpus debe enviar un correo a Eugenio Martínez Cámara (emcamara@ujaen.es).

» CRiSOL

Ver ficha completa »

Tipo de recurso:

Lexicón

Descripción:

CRiSOL es el resultado de la combinación de dos recursos lingüísticos destinados al Análisis de Opiniones. Uno de esos recursos es la lista de palabras de opinión en español iSOL, y el otro es el lexicón de opinión en inglés SentiWordNet. El resultado ha sido un filtrado de SentiWordNet a partir de los términos de iSOl, así como un recurso en que cada palabra tiene dos fuentes de información, las cuales se pueden aprovechar conjuntamente o por separado.

CRiSOL cuenta con las 8135 entradas de iSOL, de las cuales 4434 tienen asociado además el valor de polaridad de SentiWordnet.

Cómo citar:

Molina González, M. Dolores, Martínez Cámara, Eugenio, & Martín Valdivia, M. Teresa. (2015). CRiSOL: Base de Conocimiento de Opiniones para el Español. Procesamiento Del Lenguaje Natural, 55, 143-150.
http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5226

Archivos del recurso:

crisol.tar.gz

» DOS

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

El corpus Drug Opinion Spanish (DOS) ha sido extraído del portal web https://www.mimedicamento.es que es una plataforma independiente en la que los usuarios comparten sus experiencias con los medicamentos. Está formado por 877 comentarios sobre los 30 medicamentos que más opiniones habían recibido en este portal web a fecha de 14 de Marzo de 2017. Cada comentario contiene información sobre la fecha en la que se publicó, el género y edad del consumidor, la dolencia tratada, la opinión textual y una valoración mediante estrellas para las siguientes categorías de satisfacción: general, eficacia, cantidad de efectos secundarios, severidad de los efectos secundarios y facilidad de ingestión. Además, cada comentario ha sido anotado a nivel de aspecto con los efectos secundarios descritos en él y con una etiqueta de polaridad y de intensidad relacionada con la opinión del paciente. El corpus cuenta con 3.784 oraciones que contienen un total de 2.230 efectos secundarios, de los cuales 98 son positivos, 2.119 negativos y 13 neutros. En relación con la intensidad de los efectos secundarios, 655 son de intensidad alta, 1.486 de intensidad media y 89 de intensidad baja.

Cómo citar:

Jiménez-Zafra, S. M.,Martín-Valdivia, M. T., Molina-González, M. D. & Ureña-López, L. A. (2017). Corpus Annotation for Aspect Based Sentiment Analysis in Medical Domain. Proceedings of the 2nd International Workshop on Extraction and Processing of Rich Semantics from Medical Texts

Archivos del recurso:

DOS.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

» emoti-sp

Ver ficha completa »

Tipo de recurso:

Lexicón

Descripción:

Recurso para investigación en Análisis de Opiniones.  El léxico está compuesto por 70 emoticonos positivos, y por 46 emoticonos negativos.

Archivos del recurso:

Para obtener el recurso, previamente tiene que enviar un correo a Salud M. Jiménez Zafra (sjzafra@ujaen.es) o a Eugenio Martínez Cámara (emcamara@ujaen.es).

» eSOL

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

eSOL es una lista de palabras indicadoras de opinión en español dependientes del dominio. El dominio del conjunto de palabras es el de críticas de cine.

Para la elaboración de la lista se ha seguido un enfoque basado en corpus. En este caso se ha seleccionado el corpus de críticas de cine en español Spanish Movie Reviews. La lista está formada por 2.535 palabras positivas y 5.639 palabras negativas. Para más información sobre como se ha elaborado la lista puede consultar el artículo: Semantic Orientation for Polarity Classification in Spanish Reviews (In revision).

Molina-González M.D., Martínez-Cámara, E., Martín-Valdivia, M. T. & Perea-Ortega, J. M. (2012). Semantic orientation for polarity classification in Spanish reviews. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2013.06.076

Archivos del recurso:

esol.tar.gz

» eSOLdomainGlobal

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

Uno de los principales problemas del Análisis de Opiniones es la generación de recursos adaptados a un dominio concreto. eSOLdomainGlobal es un conjunto de listas de palabras indicadoras de opinión en español que abarcan 8 dominios distintos: coches, hoteles, lavadoras, libros, teléfonos móviles, música, ordenadores y películas. Las listas se han generado a partir del lexicón iSOL, y siguiendo un método basado en corpus tomando la versión española del corpus SFU Review Corpus se han generado las 8 listas.

Palabras

Positivas

Negativas

Coches

2528

5648

Hoteles

2517

5636

Lavadoras

2520

5639

Libros

2529

5651

Móviles

2529

5657

Música

2538

5645

Ordenadores

2527

5644

Películas

2535

5648

Archivos del recurso:

eSOLdomainGlobal.rar

» EVOCA Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

EVOCA (English Version of OCA) es un corpus en inglés generado a partir de la traducción del corpus OCA en árabe. Este corpus contiene comentarios de películas y está dividido en 250 comentarios considerados positivos y 250 negativos. Algunas estadísticas sobre EVOCA corpus. Este corpus fue traducido en Abril de 2011. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 122.135 153.581
Media de tokens en cada comentario 488,54 614,32
Total sentencias 5.030 3.483
Media de sentencias en cada comentario 20,12 13,93

Cómo citar:

Rushdi Saleh, M., Martín-Valdivia, M. T., Ureña-López, L. A. & Perea-Ortega, J. M. (2011). Bilingual Experiments with an Arabic-English Corpus for Opinion Mining. Proceedings of Recent Advances in Natural Language Processing, pages 740–745.

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

EVOCA-corpus.rar

» Hashtags-sp

Ver ficha completa »

Tipo de recurso:

Lexicón

Descripción:

Recurso para investigación en Análisis de Opiniones sobre tweets en español. El léxico está compuesto por 172 hashtags positivos, y por 127 hashtags negativos.

Archivos del recurso:

Para obtener el recurso, previamente tiene que enviar un correo a Salud M. Jiménez Zafra (sjzafra@ujaen.es) o a Eugenio Martínez Cámara (emcamara@ujaen.es).

» iSOL

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

iSOL es una lista de palabras indicadoras de opinión en español independiente del dominio.

Para la elaboración del recurso se ha partido de la lista de palabras que mantiene el profesor Bing Liu (Bing Liu’s Opinion Lexicon). La lista de palabras ha sido traducida automáticamente usando el traductor Reverso y posteriormente se han corregido manualmente.

La lista está formada por 2.509 palabras positivas y por 5.626 negativas. Para más información sobre como se ha desarrolla la lista puede consultar el artículo: Semantic Orientation for Polarity Classification in Spanish Reviews.

Referencia:

Si utiliza el recurso, por favor, cite el siguiente artículo:

Molina-González, M. D., Martínez-Cámara, E., Martín-Valdivia, M. T., & Perea-Ortega, J. M. (2013). Semantic orientation for polarity classification in Spanish reviews. Expert Systems with Applications, 40(18), 7250-7257.

Archivos del recurso:

isol.tar.gz

» MCE Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

MuchoCine corpus en Inglés (MCE) es la versión traducida del corpus MuchoCine (Spanish Movies Reviews). El corpus de MuchoCine fue elaborado por el investigador Fermín Cruz Mata y presentado en el año 2008 en el número 41 de la revista Procesamiento del Lenguaje Natural en el artículo titulado Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español.

En el artículo Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches comprueba la validez de una metodología para la clasificación de la polaridad  en español que consiste en combinar tres clasificadores, dos supervisados (sobre textos en inglés y en otro idioma) y otro no supervisado usando algún recurso lingüístico en inglés para análisis de opiniones. Esta metodología fue propuesta previamente para opiniones en árabe en el artículo Improving Polarity Classification of Bilingual Parallel Corpora combining Machine Learning and Semantic Orientation approaches (in press).

La polaridad de los documentos del corpus está medida en una escala de 1 a 5, siendo 1 muy negativo y 5 muy positivo. Los datos del corpus son:

Polaridad Nº de documentos
1 351
2 923
3 1253
4 890
5 461

 

Solo se permite el uso de este corpus para investigación. En tal caso, debe citar el siguiente artículo:

Martín-Valdivia, M. T., Martínez-Cámara, E., Perea-Ortega, J. M., & Alfonso Ureña-López, L. (2012). Sentiment polarity detection in Spanish reviews combining supervised and unsupervised approaches. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2012.12.084

Para cualquier consulta sobre el corpus envía un email a José M. Perea o a Eugenio Martínez Cámara

Archivos del recurso:

MCE-corpus.tar.gz