Conceptos Básicos de R. Aplicaciones Generales y Análisis de Datos Genéticos

Duración del Curso: 16 hs
Fechas de dictado: lunes 1 al jueves 4 de julio, de 9 a 13 hs
Modalidad: Clases Teórico-Prácticas a desarrollarse en el aula Turing del Pabellón 1.
Cupo: 30 alumnos.
Requisitos: Docentes e Investigadores Postdoctorales.
Curso No arancelado
No se requieren conocimientos previos de R
Preinscripción: hasta el 24 de junio de 2013.

Enviar mail a: , colocando en el asunto: INSCRPCION CURSO R

Objetivos del curso:

R es un sistema para análisis estadísticos y gráficos creado por Ross Ihaka y Robert Gentleman (1996) cuyo uso ha ido creciendo fuertemente en el ámbito académico, ampliando de manera exponencial sus aplicaciones a diferentes campos de la ciencia. R tiene una naturaleza doble de programa y lenguaje de programación, por lo que ofrece una amplia gama de posibilidades dependiendo de los intereses particulares y el grado de entrenamiento en el campo de la programación.
El objetivo del curso es proporcionar un punto de partida para su uso general, manejo de objetos y análisis de datos genéticos.
Entre las principales razones para comenzar a utilizar R se podría mencionar:

1. Su incomparable amplitud en relación con los campos de aplicación y la disponibilidad de avanzadas herramientas estadísticas tales como los modelos mixtos y aditivos generalizados.
2. Ante el notorio incremento de contribuciones científicas que presentan sus resultados en el contexto de R, un mayor conocimiento de este programa es importante para una mejor comprensión de la literatura.
3. La contribución de un gran número de investigadores de diferentes áreas proveen continuamente nuevos paquetes que amplían día a día las aplicaciones disponibles.
4. R se distribuye gratuitamente bajo los términos de la GNU General Public Licence, disponible en varias formas, pudiéndose instalar en diferentes sistemas operativos (Linux, Windows, MacIntosh). Esto asegura su permanente actualización y perfeccionamiento.
El uso del entorno R tiene la ventaja de facilitar el uso de las tablas de datos para diferentes tipos de análisis, manteniendo una estructura básica generalizada, gracias a la existencia de comandos específicos para importación, exportación y conversión entre formatos. Asimismo existen paquetes para diferentes tipos de análisis estadísticos en general y específicos para distintas ramas de la ciencia. En el caso de la genética existen paquetes diversos que permiten estudios de estructura y variabilidad genética, evolución y filogenia, estudios de asociación entre síndromes clínicos y marcadores genéticos, mapeo genético, genética cuantitativa, etc.

El presente curso propone brindar herramientas elementales que permitan a los participantes conocer las principales virtudes de R, aprender el manejo general de tablas de datos, incluyendo datos numéricos y genéticos dentro de este ambiente y realizar algunos análisis de uso frecuente en estudios poblacionales.
Más que una visión exhaustiva, se pretende que el curso sea un punto de partida para que los participantes puedan explorar las posibilidades que ofrece R para estudios más específicos vinculados a las respectivas líneas de trabajo.

Programa del curso

Introducción.
Qué es R? Por qué usar R? Ventajas de R sobre otros entornos. Conceptos básicos del uso de R. Instalación y uso de R en distintos sistemas operativos. La página de inicio. Interfases gráficas disponibles. Espacio de trabajo. Directorio de trabajo. Operadores elementales. Funciones o comandos básicos. Guardado de datos. Guardado de historial de comandos. Instalación y Carga de Paquetes. Paquetes para análisis de datos genéticos. Cierre de sesión

Los objetos en R
Variables. Vectores. Matrices. Tablas de datos (“data frames”). Funciones. Organización y manejo de los datos. Preparación de los datos en hojas de cálculo. Exportación de datos: formatos compatibles. Importación de datos desde R. Recodificación de datos = conversión de objetos. Objetos con datos genéticos. Tablas de datos. Objetos genind. Objetos genpop. Objetos hierfstat. Tipos de marcadores genéticos. Microsatélites. SNP. Secuencias de ADN. Secuencias proteicas.

Análisis elementales de datos genético-poblacionales
Datos Poblacionales Básicos. Número de Alelos por población. Número de Alelos por locus. Frecuencias alélicas. Heterocigosidad observada y esperada. Graficación de resultados. Funciones plot() y text(). Mejora del aspecto de los gráficos. Comparación entre H observada y H esperada. Prueba de ajuste a Hardy Weinberg. Ji cuadrado tradicional y simulación de Monte Carlo. Ajuste para comparaciones múltiples.
Análisis de Estructura Poblacional y Diferenciación Genética

Estadísticos F. Significación de los estadísticos F por permutaciones. Análisis Jerarquizado de Estructura Genética. Estimación de Componentes de la Varianza. Intervalos de Confianza para los Componentes de Varianza y Estadísticos F. Estimación de Distancias. Datos genotípicos. Datos de secuencias. Análisis de agrupamiento. Test para Hipótesis de Aislamiento por Distancia. Manejo de datos Presencia/Ausencia. Análisis de Varianza Molecular (AMOVA). Preparación de los datos. Estimación de componentes de varianza y estadísticos Phi (Φ). Significación de los resultados por test de permutaciones.

Bibliografía recomendada

Benjamini, Y.; Bretz, F.; Sarkar, S. K. 2004. Recent Developments in Multiple Comparison Procedures. IMS lecture notes-monograph series, 47. Beachwood, Ohio : Institute of Mathematical Statistics,.
Chessel D, Dufour A.B., Thioulouse J. 2004. The ade4 package – I: One-table methods. R News, 4:5-10.
Crawley , M. J. 2007. The R Book. John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester, West Sussex PO19 8SQ, England.
Dalgaard, P. 2002. Introductory Statistics with R. Springer-Verlag. New York.
Excoffier L.; Heckel G . 2006. Computer programs for population genetics data analysis: a survival guide . Nature Reviews Genetics 7: 745-758
Foulkes, A. S. 2009. Applied Statistical Genetics with R For Population-based Association Studies. Springer Dordrecht Heidelberg London New York. ISBN 978-0-387-89553-6
Goudet J. 2005. Hierfstat, a package for R to compute and test variance components and F-statistics. Molecular Ecology Notes. 5:184-186
Hartl, D. L.; Clark, A. G. 2007. Principles of Population Genetics (4ª Ed.). Sinauer Associates, Inc. Sunderland, Massachusetts.
Ihaka R.; Gentleman R. 1996. R: a language for data analysis and graphics. Journal of Computational and Graphical Statistics 5: 299–314
Jombart T. 2008. “adegenet”: a R package for the multivariate analysis of genetic markers. Bioinformatics 24: 1403-1405.
Maindonald, J. H. 2004 . Using R for Data Analysis and Graphics . Introduction, Code and Commentary. http://cran.r-project.org/.
McCullagh P. and Nelder, J. A. 1989. Generalized Linear Models. London: Chapman and Hall.
Paradis , E. 2002. R para Principiantes . http://cran.r-project.org/.
Paradis E., Claude J., Strimmer K. 2004. APE: Analyses of Phylogenetics and Evolution in R language . Bioinformatics 20: 289-290.
R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org