» COPOD

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

El corpus COPOD (Corpus Of Patient Opinions in Dutch) está compuesto por opiniones en holandés extraídas del foro médico Zorgkaart Nederland a fecha de 28 de junio de 2016. Se trata de una colección de 156.975 opiniones de pacientes sobre sus experiencias con médicos de 60 especialidades diferentes. Cada opinión contiene una valoración sobre distintos aspectos (lugar, cita, terapia, atención del personal, información y escucha), en un rango de 1 a 10 estrellas, y una valoración general que se corresponden con la media de dichos aspectos.

Cómo citar:

Jiménez-Zafra, S. M., Martín-Valdivia, M. T., Maks, I., & Izquierdo, R. (2017). Analysis of patient satisfaction in Dutch and Spanish online reviews. Procesamiento del Lenguaje Natural, 58, 101-108.

Archivos del recurso:

COPOD.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez Zafra o a M. Teresa Martín-Valdivia.

» COPOS

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

Este corpus ha sido extraído de la página Web www.masquemedicos.com. Es una colección de opiniones de pacientes sobre entidades médicas que provienen de seis países (Chile, Colombia,Ecuador, España, Méjico, Venezuela). Está compuesto de 743 opiniones sobre 34 especialidades médicas. Del total de las opiniones, 109 son negativas y 634 son positivas. Las opiniones están etiquetadas por el paciente en una escala de 0 a 5 estrellas.

Cómo citar:

del Arco, F. M. P., Valdivia, M. T. M., Zafra, S. M. J., González, M. D. M., & Cámara, E. M. (2016). COPOS: Corpus Of Patient Opinions in Spanish. Application of Sentiment Analysis Techniques. Procesamiento del Lenguaje Natural, 57, 83-90.

Para cualquier consulta sobre el corpus envía un email a M. Teresa Martín-Valdivia o Flor Miriam Plaza-del-Arco.

» COST

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Corpus de tweets en español para investigación en análisis de opiniones. La polaridad de los tweets está determinada por los emoticonos que aparecen en los tweets, por lo que aquellos mensajes que tienen emoticonos positivos son positivos, mientras que los que tienen emoticonos negativos son negativos. Se trata de un corpus balanceado de 34634 tweets (17317 positivos y 17317 negativos).

Archivos del recurso:

Si quiere tener una copia del corpus debe enviar un correo a Eugenio Martínez Cámara (emcamara@ujaen.es).

» CRiSOL

Ver ficha completa »

Tipo de recurso:

Lexicón

Descripción:

CRiSOL es el resultado de la combinación de dos recursos lingüísticos destinados al Análisis de Opiniones. Uno de esos recursos es la lista de palabras de opinión en español iSOL, y el otro es el lexicón de opinión en inglés SentiWordNet. El resultado ha sido un filtrado de SentiWordNet a partir de los términos de iSOl, así como un recurso en que cada palabra tiene dos fuentes de información, las cuales se pueden aprovechar conjuntamente o por separado.

CRiSOL cuenta con las 8135 entradas de iSOL, de las cuales 4434 tienen asociado además el valor de polaridad de SentiWordnet.

Cómo citar:

Molina González, M. Dolores, Martínez Cámara, Eugenio, & Martín Valdivia, M. Teresa. (2015). CRiSOL: Base de Conocimiento de Opiniones para el Español. Procesamiento Del Lenguaje Natural, 55, 143-150.
http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/5226

Archivos del recurso:

crisol.tar.gz

» DOS

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

El corpus Drug Opinion Spanish (DOS) ha sido extraído del portal web https://www.mimedicamento.es que es una plataforma independiente en la que los usuarios comparten sus experiencias con los medicamentos. Está formado por 877 comentarios sobre los 30 medicamentos que más opiniones habían recibido en este portal web a fecha de 14 de Marzo de 2017. Cada comentario contiene información sobre la fecha en la que se publicó, el género y edad del consumidor, la dolencia tratada, la opinión textual y una valoración mediante estrellas para las siguientes categorías de satisfacción: general, eficacia, cantidad de efectos secundarios, severidad de los efectos secundarios y facilidad de ingestión. Además, cada comentario ha sido anotado a nivel de aspecto con los efectos secundarios descritos en él y con una etiqueta de polaridad y de intensidad relacionada con la opinión del paciente. El corpus cuenta con 3.784 oraciones que contienen un total de 2.230 efectos secundarios, de los cuales 98 son positivos, 2.119 negativos y 13 neutros. En relación con la intensidad de los efectos secundarios, 655 son de intensidad alta, 1.486 de intensidad media y 89 de intensidad baja.

Cómo citar:

Jiménez-Zafra, S. M.,Martín-Valdivia, M. T., Molina-González, M. D. & Ureña-López, L. A. (2017). Corpus Annotation for Aspect Based Sentiment Analysis in Medical Domain. Proceedings of the 2nd International Workshop on Extraction and Processing of Rich Semantics from Medical Texts

Archivos del recurso:

DOS.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

» Email SPAM ENRON Corpus

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Filtro de Spam con Naive Bayes

Enlaces relacionados:

» emoti-sp

Ver ficha completa »

Tipo de recurso:

Lexicón

Descripción:

Recurso para investigación en Análisis de Opiniones.  El léxico está compuesto por 70 emoticonos positivos, y por 46 emoticonos negativos.

Archivos del recurso:

Para obtener el recurso, previamente tiene que enviar un correo a Salud M. Jiménez Zafra (sjzafra@ujaen.es) o a Eugenio Martínez Cámara (emcamara@ujaen.es).

» eSOL

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

eSOL es una lista de palabras indicadoras de opinión en español dependientes del dominio. El dominio del conjunto de palabras es el de críticas de cine.

Para la elaboración de la lista se ha seguido un enfoque basado en corpus. En este caso se ha seleccionado el corpus de críticas de cine en español Spanish Movie Reviews. La lista está formada por 2.535 palabras positivas y 5.639 palabras negativas. Para más información sobre como se ha elaborado la lista puede consultar el artículo: Semantic Orientation for Polarity Classification in Spanish Reviews (In revision).

Molina-González M.D., Martínez-Cámara, E., Martín-Valdivia, M. T. & Perea-Ortega, J. M. (2012). Semantic orientation for polarity classification in Spanish reviews. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2013.06.076

Archivos del recurso:

esol.tar.gz

» eSOLdomainGlobal

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

Uno de los principales problemas del Análisis de Opiniones es la generación de recursos adaptados a un dominio concreto. eSOLdomainGlobal es un conjunto de listas de palabras indicadoras de opinión en español que abarcan 8 dominios distintos: coches, hoteles, lavadoras, libros, teléfonos móviles, música, ordenadores y películas. Las listas se han generado a partir del lexicón iSOL, y siguiendo un método basado en corpus tomando la versión española del corpus SFU Review Corpus se han generado las 8 listas.

Palabras

Positivas

Negativas

Coches

2528

5648

Hoteles

2517

5636

Lavadoras

2520

5639

Libros

2529

5651

Móviles

2529

5657

Música

2538

5645

Ordenadores

2527

5644

Películas

2535

5648

Archivos del recurso:

eSOLdomainGlobal.rar

» EVOCA Corpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

EVOCA (English Version of OCA) es un corpus en inglés generado a partir de la traducción del corpus OCA en árabe. Este corpus contiene comentarios de películas y está dividido en 250 comentarios considerados positivos y 250 negativos. Algunas estadísticas sobre EVOCA corpus. Este corpus fue traducido en Abril de 2011. Algunas estadísticas sobre él se muestran en la siguiente tabla:

Negativos Positivos
Total documentos 250 250
Total tokens 122.135 153.581
Media de tokens en cada comentario 488,54 614,32
Total sentencias 5.030 3.483
Media de sentencias en cada comentario 20,12 13,93

Cómo citar:

Rushdi Saleh, M., Martín-Valdivia, M. T., Ureña-López, L. A. & Perea-Ortega, J. M. (2011). Bilingual Experiments with an Arabic-English Corpus for Opinion Mining. Proceedings of Recent Advances in Natural Language Processing, pages 740–745.

Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea

Archivos del recurso:

EVOCA-corpus.rar

» FIRE

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Flexible Image Retrieval Engine. Sistema de recuperación de imágenes. Dada una imagen como pregunta, el objetivo es encontrar las imágenes de una base de datos que son similares a la imagen dada. GNU Public Licence

Enlace al recurso:

» FOIL

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Algoritmo de aprendizaje inductivo de primer orden (First Order Inductive Learner). Se emplea para generar reglas de Asociación de Clasificación (CARs). Número máximo de tres atributos en el antecedente de una regla

Enlace al recurso:

» Freeling

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Librería que proporciona servicios para el análisis del lenguaje. Se puede usar como biblioteca externa o a través de una interfaz que permite analizar archivos desde línea de comandos. Algunas carácterísticas: tokenización de texto, división de oraciones, análisis morfológico, detección y clasificación de entidades, reconocimiento de fechas/números/dinero/proporciones, PoS tagging, Chart-based shallow parsing, detección de magnitudes físicas (velocidad, peso, temperatura, densidad, etc), anotación de sentido basado en Wordnet. Para español, catalán, italiano, gallego.

Enlace al recurso:

» GALib

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Librería C++ para el desarrollo de aplicaciones basadas en algoritmos genéticos. Para Linux, MacOS y DOS/Windows. Licencia GPL

Enlace al recurso:

» GATE

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Una plataforma para el desarrollo de sistemas IR y de procesamiento del lenguaje natural. Muy completa y con muchos módulos. Basada en Java. Usado para todos los tipos de tareas de procesamiento del lenguaje. Licencia LGPL

Enlace al recurso: