Desviación estándar contra varianza

Desviación estándar y diferencia son medidas estadísticas de dispersión de datos, es decir, representan cuánta variación hay desde el promedio, o en qué medida los valores típicamente "se desvían" de la media (promedio). Una varianza o desviación estándar de cero indica que todos los valores son idénticos.

La varianza es la media de los cuadrados de las desviaciones (es decir, la diferencia en los valores de la media), y la desviación estándar es la raíz cuadrada de esa varianza. La desviación estándar se utiliza para identificar valores atípicos en los datos.

Gráfica comparativa

Tabla de comparación de desviación estándar contra varianza
Desviación estándarDiferencia
Fórmula matemática Raíz cuadrada de la varianza Promedio de los cuadrados de desviaciones de cada valor de la media en una muestra.
Símbolo Sigma letra griega - σ Ningún símbolo dedicado; Expresado en términos de desviación estándar u otros valores..
Valores en relación con el conjunto de datos dado La misma escala que los valores en el conjunto de datos dado; por lo tanto, expresado en las mismas unidades.. Escala más grande que los valores en el conjunto de datos dado; No expresado en la misma unidad que los propios valores..
¿Son los valores negativos o positivos?? Siempre no negativo Siempre no negativo
Aplicación en el mundo real Muestreo poblacional; identificando valores atípicos Fórmulas estadísticas, finanzas..

Contenidos: Desviación Estándar vs Varianza

  • 1 conceptos importantes
  • 2 simbolos
  • 3 fórmulas
  • 4 Ejemplo
    • 4.1 ¿Por qué cuadran las desviaciones??
  • 5 aplicaciones del mundo real
    • 5.1 Encontrar los valores atípicos
  • Desviación estándar de 6 muestras
  • 7. Referencias

Conceptos importantes

  • Media: el promedio de todos los valores en un conjunto de datos (agregue todos los valores y divida su suma por el número de valores).
  • Desviación: La distancia de cada valor desde la media. Si la media es 3, un valor de 5 tiene una desviación de 2 (resta la media del valor). La desviación puede ser positiva o negativa.

Simbolos

La fórmula para la desviación estándar y la varianza a menudo se expresa mediante:

  • x̅ = la media, o promedio, de todos los puntos de datos en el problema
  • X = un punto de datos individual
  • N = el número de puntos en el conjunto de datos
  • ∑ = la suma de [los cuadrados de las desviaciones]

Fórmulas

La varianza de un conjunto de norte Valores igualmente probables pueden escribirse como:

La desviación estándar es la raíz cuadrada de la varianza:

Las fórmulas con letras griegas tienen una forma de parecer desalentadora, pero esto es menos complicado de lo que parece. Para ponerlo en simples pasos:

  1. encuentra el promedio de todos los puntos de datos
  2. Averigüe qué tan lejos está cada punto de la media (esta es la desviación)
  3. cuadrar cada desviación (es decir, la diferencia de cada valor de la media)
  4. Divide la suma de los cuadrados por el número de puntos..

Eso da la varianza. Saca la raíz cuadrada de la varianza para encontrar la desviación estándar.

Este excelente video de Khan Academy explica los conceptos de variación y desviación estándar:

Ejemplo

Digamos que un conjunto de datos incluye la altura de seis dientes de león: 3 pulgadas, 4 pulgadas, 5 pulgadas, 4 pulgadas, 11 pulgadas y 6 pulgadas.

Primero, encuentra la media de los puntos de datos: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5.5

Así que la altura media es de 5,5 pulgadas. Ahora necesitamos las desviaciones, por lo que encontramos la diferencia de cada planta con respecto a la media: -2.5, -1.5, -.5, -1.5, 5.5, 1.5

Ahora cuadre cada desviación y encuentre su suma: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5

Ahora divida la suma de los cuadrados por el número de puntos de datos, en este caso plantas: 43.5 / 6 = 7.25

Por lo tanto, la varianza de este conjunto de datos es 7.25, que es un número bastante arbitrario. Para convertirlo en una medida del mundo real, tome la raíz cuadrada de 7.25 para encontrar la desviación estándar en pulgadas.

La desviación estándar es de aproximadamente 2.69 pulgadas. Eso significa que para la muestra, cualquier diente de león dentro de 2.69 pulgadas de la media (5.5 pulgadas) es "normal".

Por qué cuadran las desviaciones?

Las desviaciones se ajustan al cuadrado para evitar que los valores negativos (desviaciones por debajo de la media) cancelen los valores positivos. Esto funciona porque un número cuadrado negativo se convierte en un valor positivo. Si tenía un conjunto de datos simple con desviaciones de la media de +5, +2, -1 y -6, la suma de las desviaciones saldrá como cero si los valores no son cuadrados (es decir, 5 + 2 - 1 - 6 = 0).

Aplicaciones del mundo real

La varianza se expresa como una dispersión matemática. Dado que es un número arbitrario en relación con las mediciones originales del conjunto de datos, es difícil de visualizar y aplicar en el sentido del mundo real. Encontrar la varianza generalmente es solo el último paso antes de encontrar la desviación estándar. Los valores de variación se utilizan a veces en las fórmulas financieras y estadísticas..

La desviación estándar, que se expresa en las unidades originales del conjunto de datos, es mucho más intuitiva y más cercana a los valores del conjunto de datos original. Se utiliza con más frecuencia para analizar datos demográficos o muestras de población para tener una idea de lo que es normal en la población..

Encontrar valores atípicos

Una distribución normal (curva de campana) con bandas correspondientes a 1σ

En una distribución normal, aproximadamente el 68% de la población (o valores) cae dentro de 1 desviación estándar (1σ) de la media y aproximadamente el 94% cae dentro de 2σ. Los valores que difieren de la media en 1.7σ o más generalmente se consideran valores atípicos.

En la práctica, los sistemas de calidad como Six Sigma intentan reducir la tasa de errores para que los errores se conviertan en valores atípicos. El término "proceso six sigma" proviene de la idea de que si uno tiene seis desviaciones estándar entre la media del proceso y el límite de especificación más cercano, prácticamente ningún elemento no cumplirá con las especificaciones.[1]

Muestra de desviación estándar

En aplicaciones del mundo real, los conjuntos de datos utilizados generalmente representan muestras de población, en lugar de poblaciones completas. Se utiliza una fórmula ligeramente modificada si se van a extraer conclusiones de toda la población a partir de una muestra parcial.

Se usa una 'desviación estándar de muestra' si lo único que tiene es una muestra, pero desea hacer una declaración sobre la desviación estándar de la población de la cual se extrae la muestra

La única forma en que la fórmula de desviación estándar de la muestra difiere de la fórmula de desviación estándar es el "-1" en el denominador.

Usando el ejemplo del diente de león, esta fórmula sería necesaria si probáramos solo 6 dientes de león, pero queríamos usar esa muestra para establecer la desviación estándar para todo el campo con cientos de dientes de león.

La suma de cuadrados ahora se dividiría por 5 en lugar de 6 (n - 1), lo que da una varianza de 8.7 (en lugar de 7.25), y una muestra de desviación estándar de 2.95 pulgadas, en lugar de 2.69 pulgadas para la desviación estándar original. Este cambio se utiliza para encontrar un margen de error en una muestra (9% en este caso).

Referencias

  • Ejemplo simple de cálculo de la desviación estándar - AppSpot
  • Fórmulas de desviación estándar - La matematica es divertida
  • Desviación absoluta y varianza - Estadísticas de Laerd
  • Desviación estándar y varianza - La matematica es divertida
  • Wikipedia: Desviación estándar
  • Wikipedia: Varianza # Propiedades
  • Rango, varianza y desviación estándar como medidas de dispersión. - academia Khan
  • Modos, medianas y medios: una perspectiva unificadora