¿Qué es el EDA?

EDA es la sigla en inglés para Exploratory Data Analysis y consiste en una de las primeras tareas que tiene que desempeñar el Científico de Datos. Es cuando revisamos por primera vez los datos que nos llegan, por ejemplo un archivo CSV que nos entregan y deberemos intentar comprender “¿de qué se trata?”

Preguntas a responder


Correlación

Correlación lineal con Python

Los coeficientes de correlación lineal son estadísticos que cuantifican la asociación lineal entre dos variables numéricas. Existen diferentes tipos, de entre los que destacan el PearsonRho de Spearman y Tau de Kendall.

• Su valor está comprendido en el rango [+1 , -1]. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.

Coeficiente
Pearson
Funciona bien con variables cuantitativas que tienen una distribución normal o próxima a la normal
Spearman
Se emplea con variables cuantitativas (continuas o discretas), es un método no paramétrico muy utilizado cuando no se satisface la condición de normalidad
Kendall
Recomendable cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango

Untitled

Coeficiente de Pearson poblacional

Untitled

Coeficiente de Pearson muestral

Untitled

Coeficiente de Spearman

Untitled

Coeficiente Tau de Kendall

Top Hits Spotify from 2000-2019


Documentación del proyecto

Acerca del dataset