viernes, 15 de junio de 2012

Estadistica No Parametrica


La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.
Las principales pruebas no paramétricas son las siguientes:
La mayoría de estos test estadísticos están programados en los paquetes estadísticos más frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas hipótesis nulas que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables. Esto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin verificar si se cumplen las hipótesis necesarias. La violación de las hipótesis necesarias para un test invalidan cualquier resultado posterior y son una de las causas más frecuentes de que un estudio sea estadísticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce la naturaleza interna de los test y se limita a aplicarlos sistemáticamente


PRUEBA BINOMIAL

La prueba binomial analiza variables dicotómicas y compara las frecuencias observadas en cada categoría con las que cabría esperar según una distribución binomial de parámetro especificado en la hipótesis nula tal como se ha explicado en elcapítulo anterior *.
La secuencia para realizar este contraste es:
Analizar
Pruebas no paramétricas
Binomial


Escalas de medición


Escalas de medición son una sucesión de medidas que permiten organizar datos en orden jerárquico. Las escalas de medición, pueden ser clasificadas de acuerdo a una degradación de las características de las variables.

Estas escalas son: nominales, ordinales, intervalares o racionales. Según pasa de una escala a otra el atributo o la cualidad aumenta.

 Las escalas de medición ofrecen información sobre la clasificación de variables discretas o continuas, tambien mas conocidas como escalas grandes o pequeñas. Toda vez que dicha clasificación determina la selección de la gráfica adecuada.

Prueba de la mediana

 
La prueba de la mediana es una prueba no paramétrica que podemos considerar un caso especial de la prueba de chi-cuadrado, pues se basa en esta última.

Su objetivo es comparar las medianas de dos muestras y determinar si pertencen a la misma población o no.

Para ello, se calcula la mediana de todos los datos conjuntamente. Después, se divide cada muestra en dos subgrupos: uno para aquellos datos que se sitúen por encima de la mediana y otro para los que se sitúen por debajo.

 La prueba de chi-cuadrado determinará si las frecuencias observadas en cada grupo difieren de las esperadas con respecto a una distribución de frecuencias que combine ambas muestras.

Esta prueba está especialmente indicada cuando los datos sean extremos o estén sesgados.


PRUEBA DE WILCOXON
Sea X una variable aleatoria continua. Podemos plantear cierta hipótesis sobre la mediana de dicha variable en la población, por ejemplo, M=M0. Extraigamos una muestra de tamaño m y averigüemos las diferencias Di = X - M0. Consideremos únicamente las n diferencias no nulas (n " m). Atribuyamos un rango u orden (0i) a cada diferencia según su magnitud sin tener en cuenta el signo.
Sumemos por un lado los 0+i , rangos correspondientes a diferencias positivas y por otro lado los 0-i , rangos correspondientes a diferencias negativas.
La suma de los órdenes de diferencias positivas sería igual a la suma de los órdenes de diferencias negativas, caso que la mediana fuera el valor propuesto M0. En las muestras, siendo M0 el valor de la verdadera mediana, aparecerán por azar ciertas discrepancias, pero si la suma de los rangos de un ciclo es considerablemente mayor que la suma de los rangos de otro signo, nos hará concebir serias dudas sobre la veracidad de M0.
La prueba de Wilcoxon va a permitir contrastar la hipótesis de que una muestra aleatoria procede de una población con mediana M0. Además, bajo el supuesto de simetría este contraste se puede referir a la media, E(X). Esta prueba es mucho mas sensible y poderosa que la prueba de los signos; como se puede apreciar utiliza mas información, pues no solo tiene en cuenta si las diferencias son positivas o negativas, sino también su magnitud.
El contraste de Wilcoxon puede ser utilizado para comparar datos por parejas. Supongamos que la distribución de las diferencias es simétrica, y nuestro propósito es contrastar la hipótesis nula de que dicha distribución está centrada en 0. Eliminando aquellos pares para los cuales la diferencia es 0 se calculan los rangos en orden creciente de magnitud de los valores absolutos de las restantes diferencias. Se calculan las sumas de los rangos positivos y negativos, y la menor de estas sumas es el estadístico de Wilcoxon. La hipótesis nula será rechazada si T es menor o igual que el valor correspondiente.
Si el número n de diferencias no nulas es grande y T es el valor observado del estadístico de Wilcoxon los siguientes contrastes tienen nivel de significación .
  • Si la hipótesis alternativa es unilateral, rechazaremos la hipótesis nula si
  • T - µT
    --------- < -Z
    T
  • Si la hipótesis alternativa es bilateral, rechazaremos la hipótesis nula si
  • T - µT
    --------- < -Z /2
    T
    EJEMPLO
    La salud mental de la población activa de sujetos de 60 años tiene
    una mediana de 80 en una prueba de desajuste emocional (X). Un psicólogo cree que tras el retiro (jubilación) esta población sufre desajustes emocionales. Con el fin de verificarlo, selecciona al azar una muestra de sujetos retirados, les pasa la prueba de desajuste y se obtienen los siguientes resultados:
    X: 69,70,75,79,83,86,88,89,90,93,96,97,98,99
    ¿Se puede concluir, con un nivel de significación de 0,05, que tras el retiro aumenta el promedio de desajuste emocional?
    1.-
    H0: M " 80 La población no incrementa su promedio de desajuste.
    H1: M > 80 La población aumenta su nivel de desajuste tras el retiro.
    2.- Suponemos que la muestra es aleatoria, la variable es continua y el nivel de medida de intervalo.
    3.- Aunque la muestra es pequeña usemos los dos estadísticos:
  • Averigüemos Di = X - 80 y ordenemos las | Di |:
  • Di = -11, -10, -5, -1, +3, +6, +8, +9, +10, +13, +16, +17, +18, +19
    Oi = 9, 7,5, 3 , 1, 2, 5, 6, 7,5, 10, 11, 12, 13, 14
    W= "Oi = 9+7,5+3+1 = 20,5
    (20,5 + 0,5) - (14)(15)/4 21 - 52,5
  • Z = ---------------------------------- = --------------- = -1,98
  • "(14)(15)(28 + 1)/24 15,93
    4.- Puesto que = 0,05:
  • W14,0,05 = 26 > 20,5, por lo que rechazamos H0.
  • Z0.05 = -1,64 > -1,98, por lo que se rechaza H0.
  • Hay evidencia suficiente para concluir que tras el retiro, aumenta el nivel de desajuste, medido por X.

    Variables Nominales de Correlación PHI















    Método de Correlación de Sperman


    La correlación de Spearman (rs) es una medida de relación lineal entre dos variables. Se diferencia de la correlación de Pearson en que utiliza valores medidos a nivel de una escala ordinal. Si alguna de las variables está medida a nivel de escala de intervalo/razón deberá procederse antes de operar el estadístico a su conversión en forma ordinal.
    Por ejemplo, si tenemos las siguientes variables:
       X      Y
       7      4
       5      7
       8      9
       9      8
    
    Al convertirlas en una escala ordinal obtendriamos los resultados:
       X      Y
       2      1
       1      2
       3      4
       4      3
    
    El primer valor de X (en este caso 7) se convierte en 2 porque el 7 es el segundo valor más pequeño de X. El valor en X de 5 se convierte en 1 porque es el más pequeño.
    La formula clásica suele expresarse como: 
    Obteniendose las diferencias de rangos en primer lugar:
      di   di2
      --------
      2-1   1
      1-2   1
      3-4   1
      4-3   1
      --------
            4
    
                                           6*4
    y operando la formula anterior = 1 - _______ = 0.60
                                         4(16-1)
    

    Nota: La correlación de Spearman puede ser calculada con la formula de de Pearson si antes hemos transformado las puntuaciones en rangos.
    Por ejemplo, utilizando la formula de Pearson para típicas:
         Zx       Zy       Zx*Zy
      ---------------------------
       -.38730  -1.16190    .45
      -1.16190   -.38730    .45
        .38730   1.16190    .45
       1.16190    .38730    .45
                         --------
                           1.80
    
    y a continuación operamos r = 1.80/3 = 0.6
    
    (En este ejemplo r = rs = .60)

    Método de Correlación, Pearson


    El coeficiente de correlación es una medida de asociación entre dos variables y se simboliza con la literal r.
    Los valores de la correlación van de + 1 a - 1, pasando por el cero, el cual corresponde a ausencia de correlación. Los primeros dan a entender que existe una correlación directamente proporcional e inversamente proporcional, respectivamente.
    De lo anterior referimos que:
    • +1 ó -1 = Correlación perfecta.
    • 0.95 = Correlación fuerte.
    • 80% = Correlación significativa.
    • 70% = Correlación moderada.
    • 50% = Existe una relación parcial.
    Las 3 gráficas en coordenadas cartesianas posteriores, se muestra la variable independiente (X) se ubica en las abscisas y la dependiente (Y) en el eje de las ordenadas. Los coeficientes de correlación significan esa asociación entre los cambios que se observan en la variable dependiente con respecto a la variable independiente.
    La gráfica (a) representa una correlación positiva, es decir, conforme los valores de X aumentan, también aumentan los valores de Y. A su vez, la gráfica (b) muestra una correlación negativa, de modo que al incrementarse los valores de la variable independiente, los valores de la dependiente disminuyen. La gráfica (c) no indica correlación.
    El coeficiente de correlación lineal de Pearson se define matemáticamente con la ecuación siguiente:


    Donde:
    r = coeficiente de correlación de Pearson.
    Sxy = sumatoria de los productos de ambas variables.
    Sx = sumatoria de los valores de la variable independiente.
    Sy = sumatoria de los valores de la variable dependiente.
    Sx2 = sumatoria de los valores al cuadrado de la variable independiente.
    Sy2 = sumatoria de los valores al cuadrado de la variable dependiente.
    N = tamaño de la muestra en función de parejas.
    Este procedimiento estadístico es aplicable cuando las observaciones se miden según una escala de intervalo, por otra parte, el fenómeno debe ser lineal.
    Al igual que las otras pruebas paramétricas, la varianza de las variables X y Y deben guardar homogeneidad.

    Pasos.
    1. Ordenar los valores de la variable dependiente (Y) con respecto a los valores de la variable independiente (X).
    2. Elevar al cuadrado cada valor X y de Y.
    3. Obtener los productos de X y Y, para lo cual se deben multiplicar independientemente ambos valores.
    4. Efectuar las sumatorias Sx, Sy, Sx2Sy2, y Sxy.
    5. Calcular el tamaño de la muestra en función de parejas de X y Y.
    6. Aplicar la ecuación.
    7. Calcular los grados de libertad (gl): gl = N parejas -1.
    8. Comparar el valor de r calculado en la tabla de valores críticos de t de Kendall en función de la probabilidad.
    9. Decidir si se acepta o rechaza la hipótesis.

    Ejemplo:
    Elección de la prueba estadística para medir la asociación o correlación. Las edades en días están en escala de tipo intervalo, tenemos dos variables, entonces aplicamos esta prueba.
    Objetivo: Conocer que grado de asociación existe entre la edad y peso corporal de niños de edades desde el nacimiento hasta los 6 meses.
    Hipótesis.
    Ha. Entre las observaciones de edad de los niños y peso corporal existe correlación significativa.
    Ho. Entre las observaciones de edad de los niños y pero corporal no existe correlación significativa.



    gl = 21 - 2 = 19
    a = 0.05

    rc = 0.91
    rt = 0.444
    rc > rt se rechaza Ho. Entre las variables edad del niño y el peso corporal existe una correlación muy significativa. Elevando r al cuadrado obtenemos el error existente r2 = 0.8281 = 0.83, donde el 83% de los cambios observados en el peso de los niños se debe a los incrementos de la edad, sin embargo, el 17% se ignora.
    Creamos ahora una gráfica (hecha con el programa estadístico SPSS) para representar la correlación obtenida. Encontramos entonces una correlación positiva, es decir, conforme la edad aumenta, también aumenta el peso corporal de los niños.

    Medidas de Asociación

    En estadística hay datos cualitativos y cuantitativos para las pruebas de 1, 2 y 3 o más variables. Típicos estadísticos de asociación son la regresión y la correlación, que a su vez se divide en datos cardinales y ordinales.

    Ejemplos de Estadísticos de Asociación

    Las tablas de contingencia y la matriz de correlación de tabulaciones cruzadas. Estos dos ejemplos de estadísticos miden asociaciones entre dos tablas de características con dos diferentes tratamientos y se pueden usan conjuntamente y son no parametricas, sino establecemos probabilidades.

    Correlación


    La correlación es aquello que indicará la fuerza y la dirección lineal que se establece entre dos variables aleatorias.
    Se considera que dos variables de tipo cuantitativo presentan correlación la una respecto de la otra cuando los valores de una ellas varíen sistemáticamente con respecto a los valores homónimos de la otra.
    Por ejemplo, si tenemos dos variables que se llaman A y B, existirá el mencionado fenómeno de correlación si al aumentar los valores de A lo hacen también los valores correspondientes a B y viceversa.
    De todas maneras, vale aclarar que la correlación que pueda darse entre dos variables no implicará por si misma ningún tipo de relación de causalidad. Los principales elementos componentes de una correlación de este tipo serán: la fuerza, el sentido y la forma.


    Coeficiente de Correlación de Pearson

    En estadística, el coeficiente de correlación de Pearson es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
    De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
    En el caso de que se esté estudiando dos variables aleatorias x e y sobre una población estadística; el coeficiente de correlación de Pearson se simboliza con la letra \rho_{x,y}, siendo la expresión que nos permite calcularlo:
    \rho_{X,Y}={\sigma_{XY} \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},
    Donde:
    • \sigma_{XY} es la covarianza de (X,Y)
    • \sigma_{X} es la desviación típica de la variable X
    • \sigma_{Y} es la desviación típica de la variable Y
    De manera análoga podemos calcular este coeficiente sobre un estadístico muestral, denotado como r_{xy} a:
    
r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.

    TIPOS DE CORRELACIÓN


    La correlación puede clasificarse en dos tipos dependiendo de la cantidad de variables analizadas y  por el tipo de relación lineal, en el primer caso estamos haciendo referencia a:
    1. Correlación simple: se estudia la dependencia únicamente entre dos variables
    2. Correlación múltiple: se estudia la dependencia entre mas de 2 variables
    3. Correlación parcial: cuando se incluye la influencia de variables exógenas no consideradas en el cálculo de los coeficientes.
    Dependiendo del tipo de relación lineal el coeficiente relaciona:
    1. Relación directa entre las variables: un aumento en la variable independiente implica un aumento en la variable dependiente.
    2. Relación inversa entre las variables: un aumento en la variable independiente implica una disminución en la variable dependiente.
    A partir de ello la ecuación puede mejorar su correlación si se hace pruebas para determinar si se ajusta mas a una recta, una curva exponencial o parabólica.

    Diagrama de Dispersión

    Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.
    Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.
    Se emplea cuando una variable está bajo el control del experimentador. Si existe un parámetro que se incrementa o disminuye de forma sistemática por el experimentador, se le denomina parámetro de control o variable independiente = eje de x y habitualmente se representa a lo largo del eje horizontal. La variable medida o dependiente = eje de y usualmente se representa a lo largo del eje vertical. Si no existe una variable dependiente, cualquier variable se puede representar en cada eje y el diagrama de dispersión mostrará el grado de correlación (no causalidad) entre las dos variables.
    Un diagrama de dispersión puede sugerir varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva (aumento), negativa (descenso), o nula (las variables no están correlacionadas). Se puede dibujar una línea de ajuste (llamada también "línea de tendencia") con el fin de estudiar la correlación entre las variables. Una ecuación para la correlación entre las variables puede ser determinada por procedimientos de ajuste. Para una correlación lineal, el procedimiento de ajuste es conocido como regresión lineal y garantiza una solución correcta en un tiempo finito.
    Uno de los aspectos más poderosos de un gráfico de dispersión, sin embargo, es su capacidad para mostrar las relaciones no lineales entre las variables. Además, si los datos son representados por un modelo de mezcla de relaciones simples, estas relaciones son visualmente evidentes como patrones superpuestos.
    El diagrama de dispersión es una de las herramientas básicas de control de calidad, que incluyen además el histograma, el diagrama de Pareto, la hoja de verificación, los gráficos de control, eldiagrama de Ishikawa y el (diagrama de flujo).


    Métodos de correlación

    Correlación directa
    • La correlación directa se da cuando al aumentar una de las variables la otra aumenta.
    • La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

    nube
    2º Correlación inversa
    • La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
    • La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

    nube
    3º Correlación nula
    • La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
    • En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
    nube


    Grado de correlación

    El grado de correlación indica la proximidad que hay entre los
     puntos de la nube de puntos. Se pueden dar tres tipos:
    1. Correlación fuerte
    • La correlación será fuerte cuanto más cerca estén los puntos de la recta.
    nube
    2. Correlación débil
    • La correlación será débil cuanto más separados estén los puntos de la recta.
    nube




    jueves, 14 de junio de 2012

    Procedimiento de Calificación


    La calificación

    La “nota” la que establece la unión entre el proceso educativo que sucede en la clase con lo que espera la sociedad, especialmente padres y administradores de educación.
    Aunque la evaluación de los aprendizajes es mucho mas amplia y compleja que “poner notas”, el tema de la evaluación ha sido unas de las preocupaciones constantes de todos los que se interesan por la educación. No en vano se afirma que las formas que emplea un centro educativo para evaluar reflejan las concepciones sobre el aprendizaje que este tiene.
    La calificación es también una de las tantas actividades del docente que, en muchas ocasiones, se realiza en forma rutinaria y sin el alcance que merece. Sin embargo, la calificación, como parte del proceso de evaluación, tiene una relevancia especial puesto que despierta expectativas en los alumnos, en sus padres y en el sistema. Junto a esto, es la certificación del aprovechamiento escolar y la “carta de presentación” para futuras instancias educacionales.
    El objetivo de la evaluación, expresado en forma breve, es emitir un juicio acerca de los aprendizajes alcanzados por los alumnos, para tomar decisiones, corrigiendo lo que esta desmejorado o avanzado hacia la consecución de nuevos objetivos. Para que este juicio sea lo mas objetivo posible, se debe apoyar en mediciones y en la confrontación con los objetivos y estándares propuestos. El juicio que resulta del proceso evaluativo necesita ser comunicado. La calificación asume ese rol comunicativo, a través de símbolos numéricos, escalas, conceptos o descripciones.

    Procedimiento Decimal

    El procedimiento para dividir decimales es muy similar a la división de números enteros. Convierte el divisor en un número entero multiplicando ambos el divisor y el dividendo por el mismo número (tal como 10, 100, 1000, etc.) Una manera fácil de hacer esto es moviendo el punto decimal hacia la derecha del divisor y mueve el punto decimal del dividendo la misma cantidad de lugares.
    Como dividir un número decimal de cuatro dígitos por un número decimal de dos dígitos (ej. 0.424 ÷ 0.8).

     Procedimiento de Porcentaje

    Este tema se vió desde primaria y puede ser que no recuerde el tema ni cómo resolver problemas, puede ser que sepa como hacer algunos casos pero que no lo entienda o puede ser que lo entienda perfectamente y hasta que sepa manejarlo. En cualquier caso empezaremos por puntualizar que es el porcentaje y el material puede servir para cualquier nivel en que se encuentre el interesado.
    Empezaremos por establecer lo que es un porcentaje.
    Un porcentaje es la parte proporcional que corresponde si la relacionamos con 100, esto es; la cantidad que se obtiene si tomamos dicho porcentaje por cada cien.

    Por ejemplo si queremos el 7 % de 300, debemos tomar 7 de cada 100 o sea 21. Como si tuviéramos 300 piedras y separáramos en montones de 100 y de cada uno tomamos 7, serían 3 montones y por lo tanto se separan 21 piedras.



    Medidas de Dispersión o Variabilidad


    Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
    Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).

    Rango

    El rango o recorrido estadístico es la diferencia entre el valor máximo y el valor mínimo en un grupo de números aleatorios. Se le suele simbolizar con R.
    Requisitos del rango

    • Ordenamos los números según su tamaño.
    • Restamos el valor mínimo del valor máximo


    Ejemplo
    Para una muestra (8,7,6,9,4,5), el dato menor es 4 y el dato mayor es 9 (Valor unitario inmediatamente posterior al dato mayor menos el dato menor). Sus valores se encuentran en un rango de:Rango = 5


    Medio Rango


    El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia, el medio rango es:
    medioRango = \frac{\ (Min + Max)}{2}

    Desviación Intercuartil.

    Esta medida de dispersión se construye basándose en la diferencia entre el tercer y primer cuartil. En realidad es la mitad de esa diferencia.
    Si se escribe Q1 y Q3 para el primer y tercer cuartil respectivamente, entonces la 'desviación intercuartil' está definida por:
    Esta estadística cumple una función similar a la desviación estádar, pero es mucho más resistente al efecto de valores extremos en los datos. De hecho, los cuartiles primero y tercero dejan entre sí la mitad de la muestra, La otra mitad se encuentra fuera y por lo tanto la presencia de un bajo número de datos extremos no cambia el valor de la desviación intercuartil.

    Desviación media

    La desviación media es la media aritmética de los valores absolutos de las desviaciones respecto a la media.

    La desviación media se representa por signo

    desviación media
    desviación media

    Ejemplo

    Calcular la desviación media de la distribución:
    9, 3, 8, 8, 9, 8, 9, 18
    media
    desviación media


    Desviación media para datos agrupados

    Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la desviación media es:

    delegación media
    desviación media
    Ejemplo
    Calcular la desviación media de la distribución:
    xifix· fi|x - x||x - x| · fi
    [10, 15)12.5337.59.28627.858
    [15, 20)17.5587.54.28621.43
    [20, 25)22.57157.50.7144.998
    [25, 30)27.541105.71422.856
    [30, 35)32.526510.17421.428
    21457.598.57
    media
    desviación media

    Desviación Estándar


    La desviación estándar o desviación típica (denotada con el símbolo σ o s, dependiendo de la procedencia del conjunto de datos) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva.
    Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable.
    Para conocer con detalle un conjunto de datos, no basta con conocer las medidas de tendencia central, sino que necesitamos conocer también la desviación que presentan los datos en su distribución respecto de la media aritmética de dicha distribución, con objeto de tener una visión de los mismos más acorde con la realidad al momento de describirlos e interpretarlos para la toma de decisiones.

    Interpretación y Aplicación


    La desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio. Dicho de otra manera, la desviación estándar es simplemente el "promedio" o variación esperada con respecto a la media aritmética.
    Por ejemplo, las tres muestras (0, 0, 14, 14), (0, 6, 8, 14) y (6, 6, 8, 8) cada una tiene una media de 7. Sus desviaciones estándar muestrales son 8,085,77 y 1,15respectivamente. La tercera muestra tiene una desviación mucho menor que las otras dos porque sus valores están más cerca de 7.
    La desviación estándar puede ser interpretada como una medida de incertidumbre. La desviación estándar de un grupo repetido de medidas nos da la precisión de éstas. Cuando se va a determinar si un grupo de medidas está de acuerdo con el modelo teórico, la desviación estándar de esas medidas es de vital importancia: si la media de las medidas está demasiado alejada de la predicción (con la distancia medida en desviaciones estándar), entonces consideramos que las medidas contradicen la teoría. Esto es coherente, ya que las mediciones caen fuera del rango de valores en el cual sería razonable esperar que ocurrieran si el modelo teóricofuera correcto. La desviación estándar es uno de tres parámetros de ubicación central; muestra la agrupación de los datos alrededor de un valor central (la media o promedio).