Tendencia central vs dispersión
En las estadísticas descriptivas e inferenciales, se utilizan varios índices para describir un conjunto de datos correspondiente a su tendencia central, dispersión y sesgo: las tres propiedades más importantes que determinan la forma relativa de la distribución de un conjunto de datos..
¿Qué es la tendencia central??
La tendencia central se refiere y ubica el centro de la distribución de valores. La media, el modo y la mediana son los índices más utilizados para describir la tendencia central de un conjunto de datos. Si un conjunto de datos es simétrico, entonces la mediana y la media del conjunto de datos coinciden entre sí.
Dado un conjunto de datos, la media se calcula tomando la suma de todos los valores de datos y luego dividiéndola por el número de datos. Por ejemplo, los pesos de 10 personas (en kilogramos) se miden en 70, 62, 65, 72, 80, 70, 63, 72, 77 y 79. Entonces, el peso medio de las diez personas (en kilogramos) puede ser calculado de la siguiente manera. La suma de los pesos es 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Media = (suma) / (número de datos) = 710/10 = 71 (en kilogramos). Se entiende que los valores atípicos (puntos de datos que se desvían de la tendencia normal) tienden a afectar la media. Por lo tanto, en presencia de valores atípicos, la media por sí sola no proporcionará una imagen correcta sobre el centro del conjunto de datos.
La mediana es el punto de datos que se encuentra en la mitad exacta del conjunto de datos. Una forma de calcular la mediana es ordenar los puntos de datos en orden ascendente y luego ubicar el punto de datos en el centro. Por ejemplo, si una vez ordenado el conjunto de datos anterior parece ser 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Por lo tanto, (70 + 72) / 2 = 71 está en el centro. A partir de esto, se ve que la mediana no necesita estar en el conjunto de datos. La mediana no se ve afectada por la presencia de los valores atípicos. Por lo tanto, la mediana servirá como una mejor medida de la tendencia central en presencia de valores atípicos.
El modo es el valor más frecuente en el conjunto de datos. En el ejemplo anterior, el valor 70 y 72 aparecen dos veces y, por lo tanto, ambos son modos. Esto muestra que, en algunas distribuciones, hay más de un valor modal. Si solo hay un modo, se dice que el conjunto de datos es unimodal, en este caso, el conjunto de datos es bimodal.
¿Qué es la dispersión??
Dispersión es la cantidad de difusión de datos sobre el centro de la distribución. El rango y la desviación estándar son las medidas de dispersión más utilizadas..
El rango es simplemente el valor más alto menos el valor más bajo. En el ejemplo anterior, el valor más alto es 80 y el valor más bajo es 62, por lo que el rango es 80-62 = 18. Pero el rango no proporciona una imagen suficiente sobre la dispersión.
Para calcular la desviación estándar, primero se calculan las desviaciones de los valores de los datos de la media. La media cuadrática de las desviaciones se llama desviación estándar. En el ejemplo anterior, las desviaciones respectivas de la media son (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, (80 - 71) = 9, (70 - 71) = -1, (63 - 71) = -8, (72 - 71) = 1, (77 - 71) = 6 y (79 - 71) = 8. La suma de cuadrados de desviación es (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1)2 + (-8)2 + 12 + 62 + 82 = 366. La desviación estándar es √ (366/10) = 6.05 (en kilogramos). A menos que el conjunto de datos esté muy sesgado, de esto se puede concluir que la mayoría de los datos está en el intervalo de 71 ± 6.05, y de hecho lo es en este ejemplo particular.
¿Cuál es la diferencia entre tendencia central y dispersión?? • La tendencia central se refiere y ubica el centro de la distribución de valores. • Dispersión es la cantidad de difusión de datos sobre el centro de un conjunto de datos.
|