La recopilación y el cálculo de datos estadísticos para obtener la media suele ser un proceso largo y tedioso. La prueba t y el análisis de varianza de una vía (ANOVA) son las dos pruebas más comunes usadas para este propósito.
La prueba t es una prueba de hipótesis estadística en la que la estadística de prueba sigue una distribución t de Student si se admite la hipótesis nula. Esta prueba se aplica cuando el estadístico de prueba sigue una distribución normal y se conoce el valor de un término de escala en el estadístico de prueba. Si se desconoce el término de escala, se reemplaza por una estimación basada en los datos disponibles. La estadística de prueba seguirá una distribución t de Student..
William Sealy Gosset presentó la estadística t en 1908. Gosset era un químico para la fábrica de cerveza Guinness en Dublín, Irlanda. La cervecería Guinness tenía la política de reclutar a los mejores graduados de Oxford y Cambridge, seleccionando entre aquellos que podrían proporcionar aplicaciones de bioquímica y estadísticas a los procesos industriales establecidos de la compañía. William Sealy Gosset era uno de esos graduados. En el proceso, William Sealy Gosset ideó la prueba t, que originalmente fue concebida como una forma de controlar la calidad de la cerveza negra (la cerveza oscura que produce la cervecería) de una manera rentable. Gosset publicó la prueba con el seudónimo de "Estudiante" en Biometrika, alrededor de 1908. La razón del apellido de pila fue la insistencia de Guinness, ya que la compañía quería mantener su política sobre el uso de estadísticas como parte de sus "secretos comerciales"..
Las estadísticas de la prueba T generalmente siguen la forma T = Z / s, donde Z y s son funciones de los datos. La variable Z está diseñada para ser sensible a la hipótesis alternativa; efectivamente, la magnitud de la variable Z es mayor cuando la hipótesis alternativa es verdadera. Mientras tanto, 's' es un parámetro de escala, que permite determinar la distribución de T. Los supuestos subyacentes a una prueba t son que a) Z sigue una distribución normal estándar bajo la hipótesis nula; b) ps2 sigue una distribución de Ï ‡ 2 con p grados de libertad bajo la hipótesis nula (donde p es una constante positiva); yc) el valor Z y el valor s son independientes. En un tipo específico de prueba t, estas condiciones son consecuencias de la población estudiada, así como la forma en que se muestrean los datos..
Por otro lado, el análisis de varianza (ANOVA) es una colección de modelos estadísticos. Si bien los investigadores y estadísticos han utilizado los principios de ANOVA durante mucho tiempo, no fue hasta 1918 que Sir Ronald Fisher hizo una propuesta para formalizar el análisis de varianza en un artículo titulado 'La correlación entre parientes sobre la suposición de la herencia mendeliana' . Desde entonces, ANOVA se ha ampliado en su alcance y aplicación. ANOVA es en realidad un nombre inapropiado, ya que no se deriva de las diferencias de varianzas sino más bien de las diferencias entre los medios de los grupos. Incluye los procedimientos asociados donde la varianza observada en una variable particular se divide en componentes atribuibles a diferentes fuentes de variación.
Esencialmente, un ANOVA proporciona una prueba estadística para determinar si los medios de varios grupos son todos iguales y, como resultado, generaliza la prueba t a más de dos grupos. Un ANOVA puede ser más útil que una prueba t de dos muestras, ya que tiene menos posibilidades de cometer un error de tipo I. Por ejemplo, tener múltiples pruebas t de dos muestras tendría una mayor probabilidad de cometer un error que un ANOVA de las mismas variables involucradas para obtener la media. El modelo es el mismo y el estadístico de prueba es el cociente F. En términos más simples, las pruebas t son solo un caso especial de ANOVA: hacer una prueba ANOVA tendrá el mismo resultado que las pruebas t múltiples. Hay tres clases de modelos ANOVA: a) Modelos de efectos fijos que asumen que los datos provienen de poblaciones normales, que difieren solo en sus medios; b) Los modelos de efectos aleatorios que suponen que los datos describen una jerarquía de poblaciones variables cuyas diferencias están limitadas por la jerarquía; y, c) Modelos de efectos mixtos que son situaciones donde están presentes tanto los efectos fijos como los aleatorios..