Skip to content

Todo lo accesorio y entorno al proyecto sobre Análisis de textos con R

Notifications You must be signed in to change notification settings

7PartidasDigital/AnalisisTextual

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DOI

Análisis Textual

En este repositorio se incluyen todos los materiales y scripts que se desarrollen referentes al Análisis Textual (minería de textos, estilometría, análisis de sentimientos, PLN, etc.) que sean colaterales al proyecto base y que se utlizan tanto para trabajo interno como para cursos y talleres.

En MdT están los materiales usados para analizar los diálogos del Ministerio del tiempo. Consisten en una tabla bajo formato .txt separada por tabs con cinco columnas. La primera indica la temporada, la segunda el episodio (de manera correlativa de 1 a 34), la tercera el título del episodio, la cuarta el nombre del personaje y la quinta el texto de pronuncia el personaje. El otro es una tabla excel con algunas estadística básicas y datos de audiencia sobre la serie.

En Scripts están todos los pequeños scripts de R que se emplean para las diversas tareas colaterales del proyecto y de otras investigaciones sobre lectura a distancia, estilometría, análisis textual automatizado, etc.

En textos están todos los textos necesarios para la enseñanza y experimentación de Análisis textual con R.

vacias contiene los ficheros planos de varios orígenes que recogen listas de palabras vacías (stopwords) y con el que se construye el dataset vacias_esp que se utiliza en los scripts necesarios.

lexicones contiene los lexicones que se han preparado para el análisis de sentimientos, tanto para realizarlo con el paquete tidytext como con syuzhet. La carpeta tidytext contiene la tabla con todos los diccionarios en español. Se ha mantenido la estructura "palabra" "sentimiento" "lexicon" "valor" de la dataframe original del paquete tidytext. Se ha eliminado el lexicon loughran y se han incorporado dos nuevos: syuzhet, que es una traducción adaptada del syuzhet_dict de ML Jockers y otro designado uva que se basa en todos los demás pero con positivo y negativo. En esa misma carpeta se encuentra la función get_sentiments ligeramente reescrita para puentear la función get_sentiments del paquete tidytext original.

En la carpeta syuzhet se encuentran los diccionarios bing_es, afinn_es, syuzhet_es y uva_es para que puedan ser cargados como diccionarios custom en el paquete syuzhet.

Aviso: el lexicón bing está siendo objeto de una revisión, por lo que es previsible que un futuro cercano (finales verano 2018) haya una nueva versión.