» Otter

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Sistema de detección automático para demostrar teoremas indicados en la lógica de primer orden con la igualdad. Codificado en ANSI C, es portable, fácil de instalar y rápido. Usado sobre todo en sistemas Unix, aunque algunas versiones limitadas funcionan en Windows. Uso libre sin restricción.

Enlace al recurso:

» Pai’s Text Utilities

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Conjunto de programas y scripts para el procesamiento de textos. Licencia GPL

Enlace al recurso:

» PDL

Ver ficha completa »

Tipo recurso:

Software matemático

Descripción:

Lenguaje basado en Perl para modelado y visualización de datos. Soporta sistemas 64-bit, MS Windows, Cygwin. Licencia GPL

Enlace al recurso:

» PHPbb

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Conjunto de paquetes de código PHP que proporciona fácilmente, y con alta posibilidad de personalización, un sistema de foros. Funciona sobre bases de datos SQL, Microsoft Access y Oracle. Multiplataforma. Licencia GPL2

Enlace al recurso:

» Porter’s Stemmer

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Algoritmo para normalizar términos en inglés en Sistemas de Recuperación de Información. Disponible en varios lenguajes de programación (ANSI C, Perl, java, python, php…). Licencia GPL

Enlace al recurso:

» R-Project

Ver ficha completa »

Tipo recurso:

Software matemático

Descripción:

Lenguaje para cáculo estadístico y gráficos estadísticos. Funciona en una gran variedad de plataformas UNIX, Windows y MacOS. Licencia GPL

Enlace al recurso:

» RapidMiner

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Software para Data Mining y Visualización. Licencia GPL, la versión no libre (aunque gratuíta) añade interfaz gráfica basada en Eclipse. Anteriormente conocido como YALE Disponible para Windows y Linux (escrito en Java)

Enlace al recurso:

» Reuters

Ver ficha completa »

Tipo recurso:

Corpora

Descripción:

Colección de categorización de texto. Recurso para investigación en recuperación de información, aprendizaje automático y otras investigaciones basadas en corpus. Disponible para uso científico

Enlace al recurso:

» Reuters Corpus

Ver ficha completa »

Tipo recurso:

Corpora

Descripción:

2 CDs que contienen 810.000 Noticias en inglés de la agencia Reuters. En idioma Inglés. Descomprimido ocupa 2,5 GB. De licencia libre (no comercial). Se entrega bajo petición firmada y comprometiéndose a referenciarlos cada vez que se use para un artículo.

Enlace al recurso:

» SFU-Review-SP-Neg

Ver ficha completa »

Tipo de recurso:

Corpus

Descripción:

Este corpus es una ampliación del SFU Spanish Review Corpus (Brooke et al., 2009) con anotaciones sobre la negación y su ámbito. Se trata de una colección de 400 comentarios de coches, hoteles, lavadoras, libros, teléfonos móviles, música, ordenadores y películas de la web Ciao.es. Cada dominio contiene 25 comentarios positivos y 25 comentarios negativos. Cada comentario ha sido anotado a nivel de token con la raíz (lema) y la categoría gramatical (PoS), y a nivel de oración con partículas negativas, su ámbito lingüístico, el evento y cómo la polaridad de la oración se ve afectada por la negación (si hay un cambio en la polaridad o un incremento o reducción de su valor), teniendo en cuenta también intensificadores y atenuantes.

Cómo citar:

Jiménez-Zafra, S. M., Taulé, M., Martín-Valdivia, M. T., Ureña-López, L. A., & Martí, M. A. SFU ReviewSP-NEG: a Spanish corpus annotated with negation for sentiment analysis. A typology of negation patterns. Language Resources and Evaluation, 1-37.

Jiménez-Zafra, S. M., Martın-Valdivia, M. T., Urena-López, L. A., Martı, M. A., & Taulé, M. (2016). Problematic Cases in the Annotation of Negation in Spanish. ExProM 2016, 42.

Martí, M. A., Martín-Valdivia, M. T., Taulé, M., Jiménez-Zafra, S. M., Nofre, M., & Marsó, L. (2016). La negación en español: análisis y tipología de patrones de negación. Procesamiento del Lenguaje Natural, 57, 41-48.

Archivos del recurso:

Versión 1.0.0: SFU_Review_SP_Neg.zip

Para cualquier consulta sobre el corpus envía un email a Salud María Jiménez-Zafra o M. Teresa Martín-Valdivia.

» SinaiSACorpus

Ver ficha completa »

Tipo de recurso:

Corpora

Descripción:

Este corpus ha sido preparado por el grupo SINAI en Diciembre de 2008. SINAI SA (Análisis de Sentimientos) fue creado rastreando la página web de Amazon. Casi 2000 comentarios se extrajeron de diferentes cámaras.

Estructura: El corpus de SINAI contiene 5 directorios y cada uno representa el número de estrellas por comentario. (ej. el directorio 1 contiene los valorados con una estrella). Cada directorio contiene un fichero en texto plano por documento/comentario.

La cantidad de comentarios se detalla a continuación:

    • 1…estrella: 78 comentarios
    • 2…estrellas: 67 comentarios
    • 3…estrellas: 97 comentarios
    • 4…estrellas: 411 comentarios
    • 5…estrellas: 1,290 comentarios

Total: 1,943 comentarios

Camara Comentarios
CanonA590IS 400
CanonA630 300
CanonSD1100IS 426
KodakCx7430 64
KodakV1003 95
KodakZ740 155
Nikon5700 119
Olympus1030SW 168
PentaxK10D 126
PentaxK200D 90
Total 1,943

Rushdi-Saleh, M., Martín-Valdivia, M. T., Montejo-Ráez, A., & Alfonso Ureña-López, L. (2011). Experiments with SVM to classify opinions in different domains. Expert Systems with Applications.

http://dx.doi.org/10.1016/j.eswa.2011.05.070

Archivos del recurso:

SINAI-SA-corpus.zip

» SMART

Ver ficha completa »

Tipo recurso:

Software para PLN y RI

Descripción:

Salton’s Magic Automatic Retriever of Text. Sistema de Recuperación de Información que fue concebido como una herramienta de evaluación de la efectividad de muchos tipos de análisis y procedimientos de búsqueda. Incorpora tres procedimientos diferentes de análisis del lenguaje: palabra, lema y tesauro.

Enlace al recurso:

» SOL

Ver ficha completa »

Tipo recurso:

Lexicón

Descripción:

SOL es una lista de palabras indicadoras de opinión en español independiente del dominio.

Para la elaboración del recurso se ha partido de la lista de palabras que mantiene el profesor Bing Liu (Bing Liu’s Opinion Lexicon). La lista de palabras ha sido traducida automáticamente usando el traductor Reverso.

La lista está formada por 1.397 palabras positivas y por 3.151 negativas. Para más información sobre como se ha desarrolla la lista puede consultar el artículo: Bilingual Experiments on an Opinion Comparable Corpus (in press).

Martínez-Cámara, E., Martín-Valdivia, M. T., Molina-Gonzalez, M. L. & Alfonso Ureña-López, L. (2013). Bilingual Experiments on an Opinion Comparable Corpus. Proceedings of the 4th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis
http://aclweb.org/anthology/W13-1612

Archivos del recurso:

sol.tar.gz

» SOM_PAK

Ver ficha completa »

Tipo recurso:

Software para Machine Learning y Data Mining

Descripción:

Paquete de programas para los mapas autoorganizativos de kohonen Self Organizing Maps. Implementación del algoritmo de Kohonen, usados para diferentes aplicaciones: clustering, visualización, clasificación, interpolación de una función, cuantización vectorial… Para Windows y Unix. Licencia desconocida

Enlace al recurso:

» Spanish QC

Ver ficha completa »

Tipo de recurso:

Corpora

Descripcion:

Este recurso son 6305 preguntas en español etiquetadas para clasificación de Búsqueda de Respuestas, siguiendo la taxonomía definida en el artículo “X. Li and D. Roth. Learning Question Classifiers”, y que tiene las siguientes categorías generales y detalladas:

  • ABBR: abbreviation, expansion
  • DESC: definition, description, manner, reason
  • ENTY: animal, body, color, creation, currency, disease/medical, event, food, instrument, language, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word
  • HUM: description, group, individual, title
  • LOC: city, country, mountain, other, state
  • NUM code, count, date, distance, money, order, other, percent, period, speed, temperature, size, weight

Partiendo de un conjunto de preguntas etiquetadas para inglés se ha generado este recurso con preguntas diversas en español etiquetadas y revisadas por 3 personas.

García-Cumbreras, M. A., Ureña-López, L. A. & Martínez-Santiago, F. (2006). BRUJA: Question Classification for Spanish. Using Machine Translation and an English Classifier. EACL 2006 Workshop on Multilingual Question Answering – MLQA06.

Archivos del recurso:

Clasificacion-QA-6305.label_.txt