Tema 5: Estadísticos univariables: medidas resumen para variables cuantitativas


MEDIDAS ESTADÍSTICAS

En este tema se dan a conocer los tres grandes tipos de medidas estadísticas, es decir, valores representativos de datos que resumen en unos pocos valores la información del total de datos. Los tres grandes tipos de medidas estadísticas son: medidas de tendencia central, medidas de dispersión o variabilidad y medidas de posición.

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central dan idea de los valores alrededor de los cuales el resto de los datos tienen tendencia a agruparse. Las medidas de tendencia central son la media, moda y mediana.


  • MEDIA ARITMÉTICA O MEDIA: se trata de un parámetro que se calcula para variables cuantitativas y es el centro geométrico/de gravedad de los datos. Es la suma de todos los valores de la variable observada entre el total de observaciones. 
Propiedades de la media: la suma de las desviaciones respecto de la media es igual a cero, la media no se altera por una transformación lineal de escala, es muy sensible a puntuaciones extremas.
  • MEDIANA: es la puntuación que ocupa la posición central de la distribución. Para hallarla necesitamos que nuestros datos estén ordenados, de forma creciente o decreciente. Es el valor de la observación tal que un 50% de los datos es menor y otro 50% es mayor.Si la media y la mediana son iguales, la distribución de la variable es simétrica.Si el número de observaciones es impar, el valor de la observación será justamente la observación que ocupa la posición (n/2) +1. Si n es par (40 por ejemplo), el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, la media entre la observación n/2 y la observación (n/2) +1. Hay que hacer la media entre el niño 20 y el 21. Propiedad: robustez. Sólo tiene en cuenta la posición de los valores en la muestra y por tanto tiene mucho mejor comportamiento que la media cuando hay observaciones extremas.        
  • MODA: es el valor con mayor frecuencia (que más veces se repite). Por ejemplo: en una clase, la edad más frecuente es 18 años, por lo tanto, ésta es la moda. Las distribuciones que tienen una sola moda se llaman unimodales. Si hay más de una, se dice que la muestra es bimodal (dos modas) o multimodal (más de dos). Si por ejemplo tenemos a 4 personas con 18 años y 4 personas con 19 años, es una muestra bimodal. Se puede calcular para cualquier tipo de variable (cualitativa y cuantitativa). Por ejemplo: la moda del sexo: el sexo más frecuente en clase es femenino.mSi los datos están agrupados, se habla de clase modal y corresponde al intervalo en el que el cociente entre la frecuencia relativa y la amplitud es mayor (hi/ci), cuando el cociente es mayor, ese intervalo es el modal.


MEDIDAS DE POSICIÓN

Las medidas de posición dividen un conjunto ordenado de datos e grupos con la misma cantidad de individuos, es decir, ordenamos de menor a mayor. Entre ellas se encuentran los cuartiles, deciles y percentiles. Los cuantiles son usados para variables continuas y cuantitativas, teniendo únicamente en cuenta la posición de los valores en la muestra.
  • CUARTILES: dividen la muestra ordenada en 4 partes. El primer cuartil (Q1) indica el valor que ocupa una posición en la serie numérica de forma que el 25% de las observaciones son menores y que el 75% son mayores. El segundo cuartil (Q2) es el 50%, el tercer cuartil (Q3), el 75% y el cuarto cuartil (Q4), indica el valor mayor que se alcanza en la serie numérica.
  • DECILES: dividen la muestra en 10 partes. El decil “i”, es aquél valor que, ordenadas las observaciones en forma creciente, el i/10% de ellas son menores que él y el (100- i) /10% restante son mayores. El valor del decil 5 corresponde al valor de la mediana y, por tanto, al del percentil 50.

  • PERCENTIL: dividen la muestra ordenada en 100 partes. El percentil “i” (PI), es aquél valor que, ordenadas las observaciones en forma crecente, el i% de ellas son menores que él y el (100-i) % restante son mayores. Para buscar la posición de un percentil en una serie de datos agrupados, buscamos el intervalo en el que la frecuencia relativa acumulada sea superior al valor del percentil. El valor del percentil 50 es igual que la mediana. En la tabla de consulta del niño sano: el percentil 30 estaría en el intervalo [4,25,4,75) puesto que en la frecuencia relativa acumulada ese intervalo es el primero que pasa el 30% o 0,3.


MEDIDAS DE DISPERSIÓN O VARIABILIDAD

Las medidas de dispersión dan información acerca de la heterogeneidad u homogeneidad de nuestras observaciones. Se calculan porque la información aportada por las medidas de tendencia central son limitadas. Cuanto más concentrados estén los valores, más homogénea será la serie. Entre ellas se encuentran el rango o recorrido, desviación media, varianza, desviación típica, recorrido intercuartílico y coeficiente de variación.

  • RANGO O RECORRIDO (R): medida de dispersión más simple. Es la diferencia entre el valor mayor y el menor de la muestra xn-x1. Es el recorrido de una variable. Se ve muy afectado por valores extremos. 
  • DESVIACIÓN MEDIA (DM): es la media aritmética de las distancias de cada observación con respecto a la media de la muestra. 
  • VARIANZA (S2:) es el cuadrado de la desviación típica. Expresa la misma información en valores cuadráticos. La fórmula es la misma que la desviación típica, pero sin raíz. Siempre tiene un valor positivo. Se mide en unidades de la variable estudiada al cuadrado. Cuanto menor sea la varianza, mayor homogeneidad y menor dispersión de datos.
  • DESVIACIÓN TÍPICA O ESTÁNDAR: cuantifica el error que cometemos si representamos una muestra únicamente por su media (el parámetro en la población se representa por ơ). Expresa lo mismo que la desviación media. Para las muestras se representa con una s. Contempla una serie de ajustes en la fórmula que permite estandarizar los datos y conocer el error que cometemos. Nunca puede ser superior a la media. Expresa la dispersión de la distribución mediante un valor que siempre es positivo o cero y en las mismas unidades de medida de la variable, siendo la medida de dispersión más utilizada en estadística descriptiva.
  • RECORRIDO INTERCUARTÍLICO: diferencia entre el tercer y el primer cuartil = |Q3-Q1|.
  • COEFICIENTE DE VARIACIÓN (variabilidad relativa): es una medida de dispersión relativa (adimensional) ya que todas las demás se expresan en la unidad de medida de la variable. Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia de las unidades de medidas. Adopta valores entre 0 y 1.
He aquí un vídeo aclaratorio que resume las medidas de dispersión o variabilidad:


DISTRIBUCIONES NORMALES

LA CAMPANA DE GAUSS: gráfica de su función de densidad que tiene una forma acampanada y es simétrica respecto de los valores de posición central (media, mediana y moda).






ASIMETRÍAS: Coeficiente de asimetría de una variable: Grado de asimetría de la distribución de sus datos en torno a su media.
  • Si el grado de asimetría es 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media). GRÁFICA EN MEDIO.
  • Si el grado de asimetría es > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda). Gráfica de la izquierda. Cuanto más se acerque al 1 más asimétrica es ASIMETRÍA POSITIVA.
  • Si el grado de asimetría <0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha). Gráfica de la derecha. Cuanto más se acerque al -1 más asimétrica es ASIMETRÍA NEGATIVA.

CURTOSIS: coeficiente de apuntamiento o curtosis de una variable (pico de una curva), sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia de una variable con distribución normal, de modo que para ella el coeficiente de curtosis es 0. Adopta también valores entre -1 y 1. Es una medida adimensional.
  • Si el grado de curtosis es 0 (distribución MESOCÚRTICA). Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).
  • Si el grado de curtosis es >0 (distribución LEPTOCÚRTICA). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.
  • Si el grado de curtosis es <0 (distribución PLATICÚRTICA). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable. La platicúrtica tiene una mayor medida de dispersión.




Comentarios

Entradas populares de este blog

Tema 13: Pruebas paramétricas más utilizadas en Enfermería. T- de Student, Anova

Tema 9: Introducción a la Inferencia Estadística. Intervalos de confianza y contraste de hipótesis

Enfermera sin límites