Desviación estándar y diferencia son medidas estadísticas de dispersión de datos, es decir, representan cuánta variación hay desde el promedio, o en qué medida los valores típicamente "se desvían" de la media (promedio). Una varianza o desviación estándar de cero indica que todos los valores son idénticos.
La varianza es la media de los cuadrados de las desviaciones (es decir, la diferencia en los valores de la media), y la desviación estándar es la raíz cuadrada de esa varianza. La desviación estándar se utiliza para identificar valores atípicos en los datos.
Desviación estándar | Diferencia | |
---|---|---|
Fórmula matemática | Raíz cuadrada de la varianza | Promedio de los cuadrados de desviaciones de cada valor de la media en una muestra. |
Símbolo | Sigma letra griega - σ | Ningún símbolo dedicado; Expresado en términos de desviación estándar u otros valores.. |
Valores en relación con el conjunto de datos dado | La misma escala que los valores en el conjunto de datos dado; por lo tanto, expresado en las mismas unidades.. | Escala más grande que los valores en el conjunto de datos dado; No expresado en la misma unidad que los propios valores.. |
¿Son los valores negativos o positivos?? | Siempre no negativo | Siempre no negativo |
Aplicación en el mundo real | Muestreo poblacional; identificando valores atípicos | Fórmulas estadísticas, finanzas.. |
La fórmula para la desviación estándar y la varianza a menudo se expresa mediante:
La varianza de un conjunto de norte Valores igualmente probables pueden escribirse como:
La desviación estándar es la raíz cuadrada de la varianza:
Las fórmulas con letras griegas tienen una forma de parecer desalentadora, pero esto es menos complicado de lo que parece. Para ponerlo en simples pasos:
Eso da la varianza. Saca la raíz cuadrada de la varianza para encontrar la desviación estándar.
Este excelente video de Khan Academy explica los conceptos de variación y desviación estándar:
Digamos que un conjunto de datos incluye la altura de seis dientes de león: 3 pulgadas, 4 pulgadas, 5 pulgadas, 4 pulgadas, 11 pulgadas y 6 pulgadas.
Primero, encuentra la media de los puntos de datos: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5
Así que la altura media es de 5,5 pulgadas. Ahora necesitamos las desviaciones, por lo que encontramos la diferencia de cada planta con respecto a la media: -2.5, -1.5, -.5, -1.5, 5.5, 1.5
Ahora cuadre cada desviación y encuentre su suma: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Ahora divida la suma de los cuadrados por el número de puntos de datos, en este caso plantas: 43.5 / 6 = 7.25
Por lo tanto, la varianza de este conjunto de datos es 7.25, que es un número bastante arbitrario. Para convertirlo en una medida del mundo real, tome la raíz cuadrada de 7.25 para encontrar la desviación estándar en pulgadas.
La desviación estándar es de aproximadamente 2.69 pulgadas. Eso significa que para la muestra, cualquier diente de león dentro de 2.69 pulgadas de la media (5.5 pulgadas) es "normal".
Las desviaciones se ajustan al cuadrado para evitar que los valores negativos (desviaciones por debajo de la media) cancelen los valores positivos. Esto funciona porque un número cuadrado negativo se convierte en un valor positivo. Si tenía un conjunto de datos simple con desviaciones de la media de +5, +2, -1 y -6, la suma de las desviaciones saldrá como cero si los valores no son cuadrados (es decir, 5 + 2 - 1 - 6 = 0).
La varianza se expresa como una dispersión matemática. Dado que es un número arbitrario en relación con las mediciones originales del conjunto de datos, es difícil de visualizar y aplicar en el sentido del mundo real. Encontrar la varianza generalmente es solo el último paso antes de encontrar la desviación estándar. Los valores de variación se utilizan a veces en las fórmulas financieras y estadísticas..
La desviación estándar, que se expresa en las unidades originales del conjunto de datos, es mucho más intuitiva y más cercana a los valores del conjunto de datos original. Se utiliza con más frecuencia para analizar datos demográficos o muestras de población para tener una idea de lo que es normal en la población..
En una distribución normal, aproximadamente el 68% de la población (o valores) cae dentro de 1 desviación estándar (1σ) de la media y aproximadamente el 94% cae dentro de 2σ. Los valores que difieren de la media en 1.7σ o más generalmente se consideran valores atípicos.
En la práctica, los sistemas de calidad como Six Sigma intentan reducir la tasa de errores para que los errores se conviertan en valores atípicos. El término "proceso six sigma" proviene de la idea de que si uno tiene seis desviaciones estándar entre la media del proceso y el límite de especificación más cercano, prácticamente ningún elemento no cumplirá con las especificaciones.[1]
En aplicaciones del mundo real, los conjuntos de datos utilizados generalmente representan muestras de población, en lugar de poblaciones completas. Se utiliza una fórmula ligeramente modificada si se van a extraer conclusiones de toda la población a partir de una muestra parcial.
Se usa una 'desviación estándar de muestra' si lo único que tiene es una muestra, pero desea hacer una declaración sobre la desviación estándar de la población de la cual se extrae la muestra
La única forma en que la fórmula de desviación estándar de la muestra difiere de la fórmula de desviación estándar es el "-1" en el denominador.
Usando el ejemplo del diente de león, esta fórmula sería necesaria si probáramos solo 6 dientes de león, pero queríamos usar esa muestra para establecer la desviación estándar para todo el campo con cientos de dientes de león.
La suma de cuadrados ahora se dividiría por 5 en lugar de 6 (n - 1), lo que da una varianza de 8.7 (en lugar de 7.25), y una muestra de desviación estándar de 2.95 pulgadas, en lugar de 2.69 pulgadas para la desviación estándar original. Este cambio se utiliza para encontrar un margen de error en una muestra (9% en este caso).