DATA SCIENCE IN R 

Cornell Certificate Program



Los datos programados en R se está convirtiendo rápidamente en uno de los lenguajes de programación más populares y efectivos de la ciencia de datos.

En este programa, se aplicará herramientas de ciencia de datos a la recopilación de datos y la traducción de datos en información, construyendo modelos que se pueden usar para abordar las preguntas que está investigando. Tendrá la oportunidad de aplicar el análisis de datos como un proceso de cuatro partes: recopilar datos, buscar patrones en esos datos, encontrar información en cualquier patrón que descubra y usar esa información para tomar decisiones. Este proceso no toma decisiones por usted, pero lo ayudará a comprender mejor los efectos de las decisiones que podría tomar. A través de un examen de conjuntos de datos del mundo real y diferentes técnicas de modelado, así como una mirada profunda a cómo se puede usar el lenguaje de programación R para ayudarlo a encontrar patrones y obtener información, obtendrá una valiosa experiencia trabajando en cada etapa de el proceso de análisis de datos, ayudándole a usted y a su organización a tomar mejores decisiones y obtener una sólida comprensión científica de por qué está tomando las decisiones que está tomando.

Para tener éxito en este programa, deberá tener competencia en programación R, conocimientos previos en conceptos básicos de probabilidad y estadística, y cálculo de nivel universitario.

Los cursos en este programa de certificación deben completarse en el orden en que aparecen.

1.- Comprension el análisis de datos

2.- Búsqueda de patrones en los datos mediante reglas de asociación, PCA y análisis factorial

3.- Búsqueda de patrones en los datos mediante el análisis de conglomerados y puntos de acceso

4.- Análisis de regresión y modelos de elección discreta

5.- Técnicas de aprendizaje supervisado

6.- Redes neuronales y aprendizaje automático

7.- Hacer recomendaciones basadas en datos mediante la optimización

8.- Hacer predicciones usando simulación

Desarrollo de los Cursos

1.- Comprension el análisis de datos

Según algunas estimaciones, el 90 % de los datos que han existido se han creado en los últimos dos años. Esta es una cifra asombrosa y ha dado lugar a nuevos desafíos y oportunidades en casi todas las industrias: ¿qué tipo de datos necesita recopilar para competir y cómo puede entenderlos una vez que los haya recopilado? A medida que la tecnología evoluciona y el volumen de datos aumenta, ¿cómo puede aprovechar al máximo toda esta información? ¿Cómo puede usar los datos para ayudar a impulsar su toma de decisiones? ¿Cómo puede hacer que los datos trabajen para usted? ¿Cómo puede asegurarse de que sus datos reflejen con precisión la población en la que está interesado?

En este curso, determinará los tipos de preguntas comerciales y de ingeniería que puede responder, los tipos de problemas que puede resolver y las decisiones que puede tomar, todo mediante el uso de análisis de datos. Explorará las mejores prácticas para recopilar información para que pueda hacer predicciones informadas, desarrollar conocimientos e informar mejor la toma de decisiones organizacionales. Verá ejemplos del mundo real que demuestran cómo funcionan esas herramientas. Además, tendrá la oportunidad de aplicar algunos de los conceptos a su propio trabajo. Explorará las mejores prácticas para el muestreo y examinará cómo los diferentes tipos de muestreo son adecuados para diferentes situaciones. Finalmente, verá ejemplos del mundo real que demuestran cómo funcionan esas herramientas y tendrá la oportunidad de practicar técnicas de muestreo en algunos escenarios de estudio de casos.

2.- Búsqueda de patrones en los datos mediante reglas de asociación, PCA y análisis factorial

La visualización es una de las formas más simples y efectivas de encontrar patrones en los datos. Estos patrones incluyen: ¿Cuál es el rango general y la forma del conjunto de datos? ¿Hay grupos de observaciones? ¿Qué variables se correlacionan entre sí? ¿Hay valores atípicos obvios?

Sin embargo, a medida que su conjunto de datos crece en términos de cantidad de puntos de datos y variables, se vuelve cada vez más difícil visualizar toda esta información a la vez. A lo sumo, puede trazar puntos de datos en un eje tridimensional y agregar más distinciones de tamaño, color, forma, etc. Sin embargo, esto puede volverse demasiado ocupado y difícil de leer. Entonces, ¿cómo encontramos patrones en conjuntos de datos realmente grandes?

En este curso, explorará varias técnicas poderosas y comúnmente utilizadas para destilar patrones a partir de datos. Implementará cada una de estas técnicas utilizando el lenguaje de programación estadístico gratuito y de código abierto R con conjuntos de datos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

Debe haber completado los siguientes cursos o tener experiencia equivalente antes de tomar este curso de: Comprension del análisis de datoso:

3.- Búsqueda de patrones en los datos mediante el análisis de conglomerados y puntos de acceso

Cuando tiene grandes grupos de objetos, a menudo es útil dividirlos en grupos o grupos significativos. Un ejemplo de esto sería identificar diferentes tipos de clientes para que una empresa pueda enrutar sus llamadas de manera más eficiente a una línea de ayuda. Como segundo ejemplo, suponga que un fabricante de automóviles quisiera segmentar su mercado para orientar los anuncios con más cuidado. Un enfoque podría ser tomar una base de datos de ventas recientes de automóviles, incluidos los datos demográficos sociales asociados con cada cliente, y segmentar la población que compra cada tipo de automóvil en grupos significativos.

Existen enfoques especializados si sus datos contienen información relacionada con el tiempo y la geografía. Puede utilizar esta información adicional para identificar puntos de acceso geográficos y temporales. Los hotspots son regiones de alta actividad o un alto valor de una variable en particular. Estos resultados pueden ayudarlo a centrar su atención en una región en particular donde un problema ocurre más de lo habitual, como la incidencia de asma en una gran ciudad. Tanto en el análisis de conglomerados como en el de puntos críticos, los resultados pueden ayudarlo a descubrir nuevas e interesantes características, problemas y señales de alerta con respecto a los datos que se analizan.

En este curso, explorará varias técnicas poderosas y de uso común para realizar análisis de conglomerados y puntos críticos. Implementará estas técnicas utilizando el lenguaje de programación estadístico gratuito y de código abierto R con conjuntos de datos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles y aplicables a su trabajo.

4.- Análisis de regresión y modelos de elección discreta

Una historia puede desempeñar un papel importante en la comprensión de los datos. Puede ayudar a destilar información compleja en algo manejable, algo en lo que podamos pensar fácilmente, relacionarnos y usar para tomar decisiones. Sin embargo, para muchos problemas que encontramos globalmente, una historia que describa lo que ya sucedió no es suficiente precisión para el trabajo que queremos realizar. A menudo, nos gustaría usar los datos disponibles para hacer predicciones numéricamente precisas sobre lo que podría suceder en el futuro. Esta tarea requiere la construcción de modelos matemáticos que se adapten bien a nuestros problemas del mundo real.

En este curso, explorará varios tipos de modelos estadísticos utilizados con datos para hacer predicciones. Estos modelos traen consigo toda una serie de preocupaciones importantes, como la estimación y la validación, que hacen que todo el proceso se convierta tanto en un arte como en una ciencia. Implementará cada una de estas técnicas utilizando el lenguaje de programación estadístico gratuito y de código abierto R con conjuntos de datos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

5.- Técnicas de aprendizaje supervisado

El aprendizaje supervisado es un término general para cualquier técnica de aprendizaje automático que intente descubrir la relación entre un conjunto de datos y algunas etiquetas asociadas para la predicción. En regresión, las etiquetas son números continuos. Este curso se centrará en la clasificación, donde las etiquetas se toman de un conjunto finito de números o caracteres. El ejemplo prototípico y quizás más conocido de clasificación es el reconocimiento de imágenes. El objetivo es tomar una imagen (representada por sus valores de píxel) y determinar qué objetos hay en la imagen. ¿Es un perro? ¿Una toronja? ¿Una señal de alto?

Hay muchas tareas prácticas de clasificación, como determinar si el historial financiero de un individuo lo hace de alto riesgo para un préstamo, si hay un defecto en un material según las lecturas de algunos sensores, o si un nuevo correo electrónico es correo no deseado o no. Estos problemas comparten la misma forma básica y se pueden resolver con muchos tipos diferentes de modelos matemáticos, estadísticos y probabilísticos desarrollados por la comunidad de aprendizaje automático.

En este curso, explorará varias técnicas poderosas y comúnmente utilizadas para el aprendizaje supervisado. Implementará cada una de estas técnicas utilizando el lenguaje de programación estadístico gratuito y de código abierto R con conjuntos de datos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

6.- Redes neuronales y aprendizaje automático

Las redes neuronales, una herramienta de modelado de aprendizaje supervisado no lineal, se han vuelto muy populares en las últimas dos décadas porque se han aplicado con éxito a una amplia gama de problemas, incluido el procesamiento automático del lenguaje, la clasificación de imágenes, la detección de objetos, el reconocimiento de voz y el reconocimiento de patrones. Son modelos matemáticos que se construyen libremente en base a una analogía con la neurona interconectada en el cerebro. Toman un vector o matriz de datos de entrada y generan un valor de clasificación o una aproximación a un valor funcional. La belleza es que las relaciones entre las entradas y salidas pueden ser altamente no lineales y complejas.

En este curso, explorará la mecánica de las redes neuronales y las complejidades involucradas en ajustarlas a los datos para la predicción. Mediante el uso de paquetes en el lenguaje de programación estadístico gratuito y de código abierto R con conjuntos de datos del mundo real, implementará estas técnicas. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

7.- Hacer recomendaciones basadas en datos mediante la optimización

La estadística se trata de usar datos para estimar ciertos valores y evaluar ciertas hipótesis; esto tiene mucho sentido para estudiar pasivamente cómo funciona el mundo (es decir, el método científico). Sin embargo, la mayoría de las veces nos encontramos queriendo utilizar esta información estadística para tomar decisiones con respecto a los sistemas involucrados. Supongamos que estimamos que la demanda de combustible para aviones el próximo mes será mayor de lo normal. ¿Cómo afecta esta información la decisión de una refinería de petróleo de comprar crudo de sus diversas fuentes? ¿Cómo decidir una compañía aérea que tenga tripulaciones de vuelo emplear en función del horario de vuelo actual? ¿Cómo influye la información de ventas pasadas en los EE. UU. en la decision de una empresa sobre donde ubicar sus almacenes?

La cuantificación y solución matemática de este tipo de problemas de toma de decisiones se conocen ampliamente como optimización. Las características generales de un problema de optimización son un conjunto de decisiones cuantificables que tienen un efecto cuantificable que debe minimizarse o maximizarse (piense en costos o ingresos) y un conjunto de restricciones sobre los posibles valores de esas decisiones. Hay muchas ramas de optimización diferentes, pero la más destacada, debido a su amplia aplicabilidad y eficiencia computacional, es la programación lineal, donde la función objetivo y las restricciones son todas lineales.

En este curso, explorará las matemáticas de los programas lineales, cómo resolverlos y cómo evaluar su modelo. Implementará estas técnicas utilizando paquetes en el lenguaje de programación estadístico R gratuito y de código abierto para resolver problemas comerciales logísticos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

8.- Hacer predicciones usando simulación

La simulación se trata de cuantificar el resultado de preguntas específicas de "qué pasaría si". ¿Qué pasa si la demanda promedio de boletos en un avión de 150 asientos es en realidad 200? ¿Qué pasa si las personas que han comprado un boleto no se presentan? ¿Qué pasa si ofrecemos un número diferente, o boletos económicos y de primera clase? Quizás lo más importante, ¿qué efecto tienen estos escenarios hipotéticos sobre los ingresos totales?

Como puede suponer, muchas preguntas de "qué pasaría si" en el mundo real son fundamentalmente inciertas; no existe una fórmula determinista para predecir exactamente cuántas personas no se presentarán a un vuelo determinado. Sin embargo, puede usar datos históricos para estimar las probabilidades de no presentarse. Una vez que concluya que la incertidumbre juega un papel importante en su problema, es posible que deba recurrir a una simulación probabilística. Ejecutar muchas réplicas de la simulación lo ayudará a analizar estadísticamente el comportamiento del sistema y evaluar los efectos de las diferentes opciones de diseño.

En este curso, explorará las complejidades del diseño y análisis de simulaciones probabilísticas. También ejecutará simulaciones utilizando paquetes en el lenguaje de programación estadístico gratuito y de código abierto R para resolver problemas comerciales logísticos del mundo real. La atención se centrará en hacer que estos métodos sean accesibles para usted en su propio trabajo.

https://online.cornell.edu/certificates/data-science/data-science-in-r/

Comentarios

Entradas populares de este blog

Support Vector Machine (SVM) in 2 minutes