EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos llegan, por ejemplo un archivo CSV que nos entregan y deberemos intentar comprender “¿de qué se trata?”
Los coeficientes de correlación lineal son estadísticos que cuantifican la asociación lineal entre dos variables numéricas. Existen diferentes tipos, de entre los que destacan el Pearson, Rho de Spearman y Tau de Kendall.
• Su valor está comprendido en el rango [+1 , -1]. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.
| Coeficiente | |
|---|---|
| Pearson | |
| Funciona bien con variables cuantitativas que tienen una distribución normal o próxima a la normal | |
| Spearman | |
| Se emplea con variables cuantitativas (continuas o discretas), es un método no paramétrico muy utilizado cuando no se satisface la condición de normalidad | |
| Kendall | |
| Recomendable cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango |

Coeficiente de Pearson poblacional

Coeficiente de Pearson muestral

Coeficiente de Spearman

Coeficiente Tau de Kendall
Top Hits Spotify from 2000-2019