Syllabus
Docente
Ayudantes
Detalles de los talleres
- Clases: Lunes 10, Martes 11 y Miércoles 13, 16.00-19.00
- Enero
- Online, en link de Zoom
- Slack
Contacto
El canal de contacto de preferencia es Slack, y en segunda instancia, email.
Presentación
R es uno de los lenguajes de programación estadística más populares y demandados del último tiempo. Una de las razones principales es que tanto el software como la comunidad que hace uso de este se maneja en un marco de la ciencia abierta (r Open Science Tools o rOpensci), permitiendo el desarrollo constante de una serie de herramientas que permiten mejorar nuestras investigaciones, de manera libre, gratis y colaborativa.
Para las ciencias sociales estos elementos no son triviales. Es frecuente encontrarse con personas de nuestro campo que se están iniciando en R y desisten de este intento dada la frustración y pensamientos de incapacidad. Aprender R puede ser difícil al iniciar – es como aprender cualquier otro lenguaje o idioma -, y poco se ha pensado en cómo implementar enseñanza a grupos más expuestos a estos prejuicios, como en las ciencias sociales y humanidades.
Se propone que un curso de introducción de R para análisis de datos sociales puede abordar estos desafíos basado en enseñar herramientas concretas que faciliten y potencien las investigaciones sociales. Basada en la experiencia de enseñanza de R en contextos similares, esto implica introducir prácticas del rOpensci como la colaboración y reproducibilidad, que facilitan sin duda el aprendizaje colectivo y la calidad de los productos desarrollados durante el curso.
¡Iniciemos este desafío juntas/os!
Descripción
Este curso busca introducir a estudiante en el uso de R y RStudio para el análisis de datos sociales. En ese sentido, será una introducción al entorno R y a la interfaz de RStudio para su uso en contextos académicos. Al mismo tiempo, el curso profundiza en temas específicos para las ciencias sociales como el análisis estadístico y la presentación de resultados (visualización de datos).
Objetivos
Objetivo general
Aprender las principales herramientas para el análisis de datos sociales en RStudio, con el fin de lograr un uso autónomo del software
Objetivos específicos
El curso no es un curso de programación en R , sino que una aplicación concreta del uso de R para ciencias sociales. Por ello, el curso tiene como propósito específico que los estudiantes sean capaces de
Manejar R y herramientas asociadas a su utilización (rOpensci), utilizando prácticas que les permitan avanzar en su aprendizaje de manera autónoma (Unidad 1)
Manipular, procesar y limpiar datos sociales utilizando R (Unidad 2)
Aplicar herramientas para análisis estadísticos descriptivos en R (Unidad 3)
Aplicar herramientas para análisis estadísticos inferenciales en R (Unidad 4)
Presentar de resultados, a partir de la visualización de datos y construcción de documentos (transversal a todas las unidades)
I. Contenidos
Unidad 1. Elementos y herramientas básicos de R
1.1 R enviroment: interfaz de RStudio, elementos de script, workspace
1.2 Prácticas y herramientas de consulta: CRAN, stackoverflow, Rcommunity
1.3 Herramientas para la colaboración y comunicación: Rprojects, GitHub y Slack
1.4 Librerías y funciones para las ciencias sociales: tidyverse y sj (sjmisc y sjPlot)
1.5 Construcción de reportes reproducibles e integrados con código: RMarkdown
Unidad 2. Manipulación y limpieza de datos
2.1 Importar y exportar datos en diferentes formatos
2.2 Validación y limpieza de variables (missing values)
2.3 Transformación y selección de variables
2.4 Transformación de datos en tidydata con tidyr
Unidad 3. Análisis estadístico descriptivo en R
3.1 Análisis descriptivos univariados: medidas de tendencia central, dispersión y frecuencias
3.2 Análisis descriptivo bivariado: tablas de contingencia, correlaciones y ANOVA
3.3 Representación gráfica con sjPlot: Likert, proporciones agrupadas y distribuciones
Unidad 4. Análisis estadístico inferencial en R
4.1 Muestras complejas y precisión de inferencia estadística con survey y srvyr
4.2 Pruebas de hipótesis y representación gráfica
4.3 Regresiones lineales, predictores categóricos y representación gráfica
4.4 Regresiones logísticas, exponenciación y representación gráfica
4.5 Ajuste de modelos (performance) y otras representaciones gráficas (predicción, efectos marginales e interacciones)
II. Metodología del curso
Dado el contexto de pandemia se tendrán tres espacios principales de aprendizaje:
Sesiones de clases lectivas (), donde se presentarán los aspectos centrales de los contenidos correspondientes a la semana vía Zoom. Tanto el documento de presentación como el video de la clase se encontrará disponible en la pestaña de Clases de este sitio web del curso.
Prácticas guiadas (): cada tema de las sesiones se acompaña de una guía práctica de aplicación de contenidos, y que estarán disponibles en la pestaña Prácticos. Estas guías están diseñadas para ser desarrolladas de manera autónoma por cada estudiante semana a semana. También serán desarrolladas y revisadas cada semana en grupos pequeños con supervisión de ayudantes para dar mayor oportunidad de participación y resolver las dudas respectivas. Existe un reporte de progreso asociado a estas guías que deberá ser completado semanalmente con fines de monitoreo y retroalimentación.
Tareas: se desarrollarán 6 tareas que les permitirán aplicar contenidos y replicar lo aprendido en los prácticos en base a una base de datos seleccionada por ustedes al inicio de semestre. Esto permitirá no solo recibir retroalimentación constante, sino que aprender con datos que puedan ser útiles para otros proyectos de investigación que sean de su interés.
Recursos principales de aprendizaje
1. Sitio web
El curso tiene disponible este sitio web, que he programado pues permite integrar texto y código de R, junto con hacer interactuar con otras plataformas como el foro Disqus y Github.
2. R, RStudio y RStudio Cloud
El software que se utilizará principalmente será R y su interfaz RStudio. Ahora bien, muchos usuario/as de R presentan problemas de instalación dada la capacidad de sus computadores y sistemas operativos. Por ello se promoverá el uso del servicio gratuito de RStudio.cloud , que permite ejecutar la interfaz de RStudio en el navegador web y compartir el código de manera sincrónica con la docente. Dado el enfoque rOpensci, las plantillas para ejemplos, ejercicios y mini proyectos podrán ser implementados en esta plataforma. Si bien no es ideal pues tiene limitantes de memoria, mientras ustedes asimilan el programa será una buena herramienta.
3. Slack
Slack es una herramienta de uso frecuente en equipos de trabajo que utilizan R pues permite integrar script (o código) de distintos lenguajes en el chat. Se tendrá un espacio de trabajo en la app Slack que permite que cualquier persona del curso pueda hacer preguntas y cualquiera pueda responder. Esta es una de las prácticas que se promoverán en el curso pues es probable que los estudiantes tengan dudas similares a las de sus compañeros, por lo que las respuestas de la docente, ayudante y otros compañeros serán de libre disposición de todo el curso. Dentro del Slack se tendrán canales para hacer preguntas sobre las sesiones, tareas y proyectos, y el link que permite unirse a este estará disponible en el sitio del curso.
4. GitHub
Github es una plataforma online que permite depositar archivos y el control de versiones (VCS), por lo que se ha transformado una herramienta fácil y popular para corregir, colaborar y compartir códigos de distintos lenguajes (no solo R). Utilizaremos esta plataforma para subir las tareas, ayudarlos/as de manera directa con su código y darles feedback.
5. Zotero
Zotero es un gestor bibliográfico que permite sistematizar las referencias y archivos utilizados en una investigación o informe. Enseñaremos este de manera complementaria pues este software se puede integrar en los documentos escritos hechos en R.
III. Evaluación de aprendizajes
Las evaluaciones del curso se componen de tareas (70% de la nota final) y la entrega de una investigación (30% de la nota final), en dónde en ambos casos la/el estudiante deberá seleccionar datos y temas de interés de modo de acercar la aplicación del software a contextos de investigación propios de la/el estudiante. En concreto, cada evaluación consiste en:
1. Tareas (70% de la nota final): consisten en evaluaciones parciales temáticas que buscan poner en práctica los aprendizajes expuestos en la sesión de clases y herramientas reforzadas en los prácticos. El promedio de notas las de tareas será calculado solo con las cuatro mejores entregas a partir de la Tarea 1 (25% c/u)1.
2. Investigación final (30% de la nota final): consiste en una evaluación final que aplica los conocimientos y herramientas entregadas a lo largo de curso, a un proyecto de investigación de elección por el/la estudiante.
IV. Calendario de actividades
El calendario de actividades se puede revisar con detención en la pestaña planificación. Un resumen breve de las tareas es
Evaluación | Formato | Fecha | Ponderación Nota Final |
---|---|---|---|
Tarea | 4 tareas2 | Hasta Viernes de la semana informada | 70% (25% c/u) |
Investigación | Única entrega | 22 de noviembre | 30% |
V. Recursos pedagógicos
1. Referencias bibliográficas
Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data (First edition). Sebastopol: O’Reilly. Libro con enfoque en el aprendizaje de R. Disponible en español como “R para ciencia de datos”
Daniel Lüdecke (2021) Data Visualization for Statistics in Social Science R package version 2.8.7
Wickham et al., (2019). Welcome to the tidyverse. Journal of Open Source Software, 4(43), 1686
Yihui Xie, J. J. Allaire, Garrett Grolemund (2021) R Markdown: The Definitive Guide
2. Sitios de consulta
- rOpensci (R Open Scicnce Tools)
- Laboratorio de Ciencia Social Abierta, Centro de Estudios de Conflicto y Cohesión Social (LISA-COES)
- Stackoverflow
- RStudio Community
- RMarkdown
- sjPlot
- tidyverse
Es decir, a lo largo del semestre deberá entregar 6 tareas: 5 calificadas (Tarea 1 a Tarea 5) y 1 no (Tarea 0). De las 5 tareas restantes, solo las 4 mejores serán consideradas en su promedio de las tareas.↩︎
Es decir, a lo largo del semestre deberá entregar 6 tareas: 5 calificadas (Tarea 1 a Tarea 5) y 1 no (Tarea 0). De las 5 tareas restantes, solo las 4 mejores serán consideradas en su promedio de las tareas.↩︎