Seminario de Estadística Aplicada a la Educación: Medidas de Asociación

En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.

Ejemplos de Estadísticos de Asociación

Las tablas de contingencia y la matriz de correlación de tabulaciones cruzadas. Estos dos ejemplos de estadísticos miden asociaciones entre dos tablas de características con dos diferentes tratamientos y se pueden usan conjuntamente y son no parametricas, sino establecemos probabilidades.

Correlación

La correlación es aquello que indicará la fuerza y la dirección lineal que se establece entre dos variables aleatorias.

Se considera que dos variables de tipo cuantitativo presentan correlación la una respecto de la otra cuando los valores de una ellas varíen sistemáticamente con respecto a los valores homónimos de la otra.

Por ejemplo, si tenemos dos variables que se llaman A y B, existirá el mencionado fenómeno de correlación si al aumentar los valores de A lo hacen también los valores correspondientes a B y viceversa.

De todas maneras, vale aclarar que la correlación que pueda darse entre dos variables no implicará por si misma ningún tipo de relación de causalidad. Los principales elementos componentes de una correlación de este tipo serán: la fuerza, el sentido y la forma.

Coeficiente de Correlación de Pearson

En estadística, el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.

En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística; el coeficiente de correlación de Pearson se simboliza con la letra $\rho_{x,y}$ , siendo la expresión que nos permite calcularlo:

$\rho_{X,Y}={\sigma_{XY} \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},$

Donde:

$\sigma_{XY}$ es la covarianza de $(X,Y)$
$\sigma_{X}$ es la desviación típica de la variable $X$
$\sigma_{Y}$ es la desviación típica de la variable $Y$

De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como $r_{xy}$ a:

$r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i} {\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.$

TIPOS DE CORRELACIÓN

La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:

Correlación simple: se estudia la dependencia únicamente entre dos variables
Correlación múltiple: se estudia la dependencia entre mas de 2 variables
Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.

Dependiendo del tipo de relación lineal el coeficiente relaciona:

Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.
Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente.

A partir de ello la ecuación puede mejorar su correlación si se hace pruebas para determinar si se ajusta mas a una recta, una curva exponencial o parabólica.

Diagrama de Dispersión

Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.

Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.

Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.

Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito.

Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos.

El diagrama de dispersión es una de las herramientas básicas de control de calidad, que incluyen además el histograma, el diagrama de Pareto, la hoja de verificación, los gráficos de control, eldiagrama de Ishikawa y el (diagrama de flujo).

Métodos de correlación

Correlación directa

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

2º Correlación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

3º Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

Grado de correlación

El grado de correlación indica la proximidad que hay entre los
puntos de la nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte

La correlación será fuerte cuanto más cerca estén los puntos de la recta.

2. Correlación débil

La correlación será débil cuanto más separados estén los puntos de la recta.

Seminario de Estadística Aplicada a la Educación

viernes, 15 de junio de 2012

Medidas de Asociación