jueves, 26 de julio de 2007

Análisis de la Varianza (Anova)

El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias. Es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student.

En resumen, el análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El método para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

El ANOVA parte de algunos supuestos que han de cumplirse:
  • La variable dependiente debe medirse al menos a nivel de intervalo.
  • Independencia de las observaciones.
  • La distribución de la variable dependiente debe ser normal.
  • Homocedasticidad: homogeneidad de las varianzas.
Existen tres tipos de modelos:
  • El modelo de efectos fijos asume que el experimentador ha considerado para el factor todos los posibles valores que éste puede tomar. Ejemplo: Si el género del individuo es un factor, y el experimentador ha incluido tantos individuos masculinos como femeninos, el género es un factor fijo en el experimento.
  • Los modelos de efectos aleatorios asumen que en un factor se ha considerado tan sólo una muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado en el experimento sólo tres de los muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento.
  • Los modelos mixtos describen situaciones donde están presentes ambos tipos de factores: fijos y aleatorios.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal).
 
SSTotal = SSError + SSFactores
 
El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.
glTotal = glError + glFactores
 
Nota: Por grados de libertad "degrees of freedom" entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros.

viernes, 20 de julio de 2007

Distribuciones de Frecuencias

El histograma es una representación visual de los datos en la que pueden observarse más fácilmente tres propiedades esenciales de una distribución como son: forma, tendencia central y dispersión. Cuando los datos son numerosos, es muy útil reunirlos en clases.

Las clases deben tener amplitud uniforme y se construye la primera de ellas comenzando con un límite inferior un poco menor que el valor más pequeño de los datos y la última clase finaliza con un límite superior un poco mayor que el valor más grande de los datos.

El agrupamiento de datos en clases condesa los datos originales, lo que da como resultado una pérdida una pequeña pérdida de detalle. Así cuando el número de observaciones es relativamente pequeño o cuando las observaciones sólo toman pocos valores, puede construirse el histograma a partir de la distribución de frecuencias de los datos sin agrupar, dando lugar a los diagramas de barras.
Conceptos:
  • Frecuencia absoluta ni: Es el número de veces ni que se repite un valor xi.
  • Frecuencia relativa: Se denomina frecuenta relativa del valor xi de la variable X la relación por cociente entre el número de veces que aparece al valor xi y el número total de valores de la variable (N). fi= ni / N.
  • Frecuencia absoluta acumulada Ni: Se denomina frecuencia absoluta acumulada del valor xi a la suma de las frecuencias absolutas de los valores de la variable X anteriores o iguales a xi. Su valor es Ni=Σ ni
  • Frecuencia relativa acumulada Fi: Es la frecuencia absoluta acumulada dividida por el número total de valores de la variable. Su valor es Fi = Ni / N.