Archivo de la categoría: Descriptiva

La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y describe un conjunto de datos con el propósito de facilitar su uso generalmente con el apoyo de tablas, medidas numéricas o gráficas. Además, calcula parámetros estadísticos como las medidas de centralización y de dispersión que describen el conjunto estudiado

Estadística Descriptiva

Estadística Descriptiva

Usaremos la estadística descriptiva para describir el comportamiento de una característica, a partir de la masa de datos que nos proporciona la observación de la misma en la población, llevaremos a cabo una serie de operaciones como son:

  • La reducción de la masa de datos, mediante la construcción de tablas de frecuencias y la realización del algunos gráficos
  • En el caso de las variables cuantitativas, también podemos tomar algunas medidas que nos permitan caracterizar el comportamiento de la variable. Para ello debemos calcular algunos estadísticos como son las medidas de posición, de dispersión y de forma

Con todo ello, podemos describir perfectamente el comportamiento de nuestra variable

Descripción y organización de los datos

Cuando se usan programas de ordenador es habitual nombrar a las variables de forma que no haya equívocos respecto al contenido de las mismas, pero no nos debemos olvidar de que lo normal en estadística, sobre todo cuando se dan resultados generales es nombrar a las variables estadísticas usando letras mayúsculas, preferentemente las últimas del abecedario: X, Y, Z, \cdots, y los distintos valores que toma dicha variable se nombran con la misma letra pero en minúsculas: x_1, x_2, x_3, \cdots

Usaremos esta notación, para dar las siguientes definiciones:

Frecuencia absoluta de un determinado valor, x_i, de la variable (y la representaremos por n_i): es el número de veces que se presenta ese determinado valor x_i

Frecuencia relativa de un determinado valor, x_i, de la variable (y la representaremos por f_i): es la proporción de veces que aparece ese valor en el conjunto de observaciones y se calcula como el cociente de su frecuencia absoluta (n_i) y el número total de datos (N)

Es decir: \frac{n_i}{N}

Frecuencia absoluta acumulada de un determinado valor, x_i, de la variable (y la representaremos por N_i): es la suma de las frecuencias absolutas de todos los valores de la variable menores o iguales que dicho valor x_i

Es decir: N_i=n_1+\cdots+n_i=\sum\limits_{j=1}^{i} n_j; N_k=N

Frecuencia relativa acumulada de un determinado valor, x_i, de la variable (y la representaremos por F_i): es la suma de las frecuencias relativas de todos los valores de la variable menores o iguales que dicho valor, x_i

Es decir: F_i=f_1+\cdots+f_i=\sum\limits_{j=1}^{i} f_j=\frac{N_i}{N}; F_k=1

Las frecuencias acumuladas sólo tienen sentido si la escala es ordinal o cuantitativa. Cuando en un conjunto de valores observados de una variable se realizan las operaciones de ordenación y agrupación de los valores que se repiten (determinación de la frecuencia de cada valor), se obtiene una tabla estadística de distribución de frecuencias

A dicho conjunto de operaciones se le denomina tabulación

Cuando una variable tiene muchos valores diferentes, en ocasiones (aunque no suele ser recomendable), antes de su análisis se procede a agrupar los valores observados en intervalos

En estos casos, lo que se hace es definir los intervalos (que pueden ser de amplitud constante o no) y luego calcular la frecuencia para los valores de la variable que están en cada uno de los intervalos. Es decir, las frecuencias no representan las veces o proporción de veces que aparece un valor, sino cuántas veces (o qué proporción de veces) se han obtenido valores de la variable en cada intervalo

Cada intervalo queda perfectamente delimitado por sus límites, así para el i-ésimo intervalo: l_{i-1} sería el límite inferior y l_i sería el límite superior

La amplitud del intervalo a_i es la distancia entre ambos límites: a_i = l_i - l_{i-1}

Para facilitar el manejo matemático de los intervalos es necesario considerar un valor concreto de la variable como representante de cada intervalo, al que se llama marca de clase, y se denota por x_i. Generalmente se toma como marca de clase, el punto medio del intervalo, aunque hay que tener cuidado ya que no siempre es el mejor representante del mismo

En el caso de que los intervalos tengan distinta amplitud, un valor a tener en cuenta es la densidad de frecuencia, que es el número de observaciones de la variable por unidad
de longitud

Es decir: h_i = \frac{n_i}{a_i}

Por afinidad con la función de densidad (que se tratará más adelante), en algunas ocasiones también se utiliza la densidad de frecuencias relativas, que no es otra cosa que la proporción de observaciones por unidad de longitud

Es decir: h'_i = \frac{f_i}{a_i}

Medidas estadísticas

Las medidas estadísticas con valores numéricos nos indican los rasgos más importantes de las distribuciones de frecuencias y se clasifican en los siguientes grupos en función de lo que tratan de medir:

\text{Medidas}\left\{\begin{matrix}\text{de posici\'on}& \left\{\begin{matrix}\text{central}& \\\text{no central}\end{matrix}\right.& \\ \text{de dispersi\'on}& \left\{\begin{matrix}\text{absoluta}& \\\text{relativa}\end{matrix}\right.& \\\text{de forma}& \left\{\begin{matrix}\text{de asimetr\'ia}& \\\text{de curtosis}\end{matrix}\right.& \\\text{de concentraci\'on}\end{matrix}\right.

Gráficos

Para resumir la información también es muy habitual utilizar gráficos. Veamos algunos de los más sencillos:

  • Diagrama de barras: Se utiliza en variables sin agrupar en intervalos. Sobre un sistema de ejes coordenados se colocan, en el eje de abscisas los valores de la variable y sobre el eje de ordenadas las frecuencias absolutas, entonces, sobre cada valor de la variable se levanta una barra cuya altura es igual a su frecuencia absoluta

    Si en lugar de frecuencias absolutas usamos frecuencias relativas el gráfico resultante es análogo pero N veces menor

    También se suele utilizar para mostrar los valores observados de una variable

  • Diagrama de sectores: Se utiliza, generalmente, para variables no agrupadas en intervalos y consiste en dividir el área de un círculo en sectores proporcionales a las frecuencias (absolutas o relativas)). Los grados que abarca cada sector los obtenemos mediante una sencilla regla de tres, teniendo en cuenta que al total de datos (N) le corresponden 360^o
  • Histograma de frecuencias: Se utiliza para variables agrupadas en intervalos. Se construye levantando sobre cada intervalo, representado en el eje de abscisas, un rectángulo cuya área es proporcional a la frecuencia (absoluta o relativa) en dicho intervalo.En general, la altura del rectángulo del intervalo i-ésimo es proporcional a la densidad de frecuencia. En particular, si todos los intervalos tienen la misma amplitud podemos tomar, como altura de los rectángulos, las frecuencias

Medidas de posición

Medidas de posición

Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando

La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos dentro de un contexto de valores posible

Una vez definidos los conceptos básicos en el estudio de una distribución de frecuencias de una variable, estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posición (o de centralización), teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersión

Se trata de encontrar unas medidas que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos, eligiendo como resumen de los datos un valor alrededor del cual se encuentran distribuidos los valores de la variable

Medidas de posición central

Las medidas de posición central o promedios, son valores alrededor de los cuales se agrupan los valores de la variable y que nos resumen la posición de la distribución sobre el eje horizontal. Además nos pueden ayudar a sintetizar la información que proporcionan los valores de la variable

De las medidas de posición central, las más utilizadas son la media aritmética, la mediana y la moda. En algunos casos concretos se utilizan la media armónica o la media geométrica

Media aritmética

La media aritmética, \overline{x}, se define como la suma de todos los valores observados dividido por el número total de observaciones:

Es decir: \overline{x}=\frac{x_1\cdot n_1+\cdots+x_k\cdot n_k}{N}=\frac{\sum\limits_{i=1}^{k} (x_i\cdot n_i)}{N}

Este es el promedio más utilizado en la práctica, por las siguientes ventajas:

  • Tiene en cuenta todos los valores observados
  • Es fácil de calcular y tiene un claro significado estadístico
  • Es única

Sin embargo, tiene el inconveniente de la influencia que ejercen los valores extremos de la distribución sobre ella

La media recortada se obtiene calculando la media de los valores observados una
vez que se han eliminado un determinado porcentaje de los valores extremos (el mismo porcentaje a ambos lados)

Se suele utilizar para calcular la media de una variable en la que sabemos, o sospechamos, que hay valores extremos, ya que estos pueden «desviar» la media

Propiedades de la media aritmética

  1. La suma de las desviaciones (diferencias con el correspondiente signo) de los valores de la variable, respecto a su media aritmética, es igual a cero

    \sum\limits_{i=1}^{k} (x_i-\overline{x})\cdot n_i=\sum\limits_{i=1}^{k} (x_i\cdot n_i)-\overline{x}\cdot \sum\limits_{i=1}^{k} n_i=N\cdot\overline{x}-N\cdot\overline{x}=0

  2. A la media le afectan los cambios de origen y escala. Si tenemos que u_i=a+b\cdot x_i, siendo a y b valores cualesquiera, con b distinto de cero (lo que equivale a hacer un cambio de origen y escala), la media aritmética puede expresarse de la forma siguiente: \overline{u}=a+b\cdot\overline{x}

    Y demostrarlo es muy sencillo:

    \overline{u}=\frac{\sum\limits_{i=1}^{k} (u_i\cdot n_i)}{N}=\frac{\sum\limits_{i=1}^{k} (a+b\cdot x_i)\cdot n_i}{N}=\frac{a}{N}\cdot \sum\limits_{i=1}^{k} n_i+\frac{b}{N}\cdot \sum\limits_{i=1}^{k} (x_i\cdot n_i)=\frac{a\cdot N}{N}+\frac{b}{N}\cdot \sum\limits_{i=1}^{k} (x_i\cdot n_i)=a+b\cdot\overline{x}

    Esta propiedad, eligiendo convenientemente los valores a y de b, es de gran utilidad en muchos casos, para simplificar el cálculo de la media aritmética

Ejemplo de media aritmética

En una campaña de vacunación, el número de personas vacunadas por horas en el transcurso de 50 horas, ha sido:

0, 3, 2, 2, 1, 4, 5, 2, 3, 2, 1, 0, 4, 3, 5, 3, 1, 4, 6, 1, 2, 3, 0, 4, 4, 5, 3, 1, 4, 2, 3, 1, 0, 6, 3, 2, 5, 3, 2, 3, 6, 2, 2, 5, 7, 4, 2, 7, 4, 2

Queremos calcular el número medio de personas vacunadas en esas 50 horas

Antes de ponernos a calcular la media, agrupamos los resultados en una tabla de frecuencias:

x_i n_i f_i N_i F_i
0 4 0.08 4 0.08
1 6 0.12 10 0.2
2 12 0.24 22 0.44
3 10 0.2 32 0.64
4 8 0.16 40 0.8
5 5 0.1 45 0.9
6 3 0.06 48 0.96
7 2 0.04 50 1

Calculamos la media aritmética:

\overline{x}=\frac{\sum\limits_{i=1}^{k} (x_i\cdot n_i)}{N}=\frac{0 \cdot 4 + 1 \cdot 6 + 2 \cdot 12 + 3 \cdot 10 + 4 \cdot 8 + 5 \cdot 5 + 6 \cdot 3 + 7 \cdot 2}{50}=\frac{149}{50}=2.98\simeq 3

Por tanto, el número medio de personas vacunadas por hora en ese intervalo de 50 horas ha sido de 3, porque se ha redondeado al alza

Mediana

La mediana se define como aquel valor de la variable que divide a la distribución en dos partes con el mismo número de observaciones, cuando estas están ordenadas de menor a mayor

Esta medida tiene la ventaja, respecto a la media, de que es menos sensible a los valores extremos

Ejemplo de mediana

Siguiendo con el ejemplo de la campaña de vacunación, ahora queremos calcular su mediana

Consultamos la tabla de frecuencias anterior y vemos que tenemos 50 datos, para encontrar el valor central lo dividimos entre 2 y como es par le sumaremos 1 al resultado. Si hubiese sido impar no sería necesario sumarle esa unidad, porque ya estaría dividido en dos partes con el mismo número de observaciones

\frac{50+1}{2}=25.5

Al salirnos de resultado un valor cercano a 26 tomaremos 2 posiciones centrales: 25 y 26

Miramos en la columna de las frecuencias absolutas acumuladas en los valores 25 y 26, cuyos valores ambos son 3

Ahora calculamos el valor de la mediana: Me=\frac{3+3}{2}=3

Por tanto, la mitad de las personas vacunadas por hora en ese intervalo de 50 horas ha sido de 3 o menos y la otra mitad 3 o más

Moda

La moda se define como aquel valor de la variable cuya frecuencia no es superada por la de ningún otro valor

Puede darse el caso de que la máxima frecuencia corresponde a 2 o más valores de la variable, en ese caso, las distribuciones se dice que son bimodales o multimodales

Ejemplo de moda

Siguiendo con el ejemplo de la campaña de vacunación, ahora queremos calcular su moda

Miramos en la columna de las frecuencias absolutas y vemos que el mayor es 12, que corresponde al valor 2

Por tanto, el mayor número de personas vacunadas por hora en ese intervalo de 50 horas ha sido de 2

Media armónica

La media armónica se define como: Ma(X)=\frac{N}{\frac{x_1}{n_1}+\cdots+\frac{x_k}{n_k}}=\frac{N}{\sum\limits_{i=1}^{k} \frac{x_i}{n_i}}

Las ventajas de este promedio son:

  • Es única
  • Utiliza todos los valores observados de la variable

Tiene el inconveniente de que le influyen mucho los valores de la variable próximos a cero

Este promedio se utiliza en variables que miden velocidades, rendimientos y, en general, para variables que son el cociente de dos magnitudes

Ejemplo de Media armónica

Un ciclista de realiza un entrenamiento que consiste en 12 series de 1 km, cada una de ellas a velocidad constante. Los datos recogidos de su entrenamiento quedan recogidos en la siguiente tabla:

Serie Velocidad (km/h)
1 54
2 47
3 46
4 50
5 52
6 47
7 51
8 52
9 49
10 51
11 47
12 50

Queremos calcular la velocidad media del corredor durante su entrenamiento

No se puede aplicar la media aritmética porque la variable es el cociente de dos magnitudes (V=\frac{e}{t}), en este caso hay que aplicar la media armónica

Ma(X)==\frac{N}{\sum\limits_{i=1}^{k} \frac{x_i}{n_i}}=\frac{12}{\frac{1}{54}+\frac{2}{47}+\frac{3}{46}+\frac{4}{50}+\frac{5}{52}+\frac{6}{47}+\frac{7}{51}+\frac{8}{52}+\frac{9}{49}+\frac{10}{51}+\frac{11}{47}+\frac{12}{50}}=49.55139

Por tanto, la velocidad media del ciclista ha sido de 49.55139 Km/h en las 12 series

Media geométrica

La media geométrica se define como: Mg(X)=\sqrt[N]{x_1^{n_1}+\cdots+x_k^{n_k}}=\sqrt[N]{\prod\limits_{i=1}^{k} x_i^{n_i}}

Tiene como ventaja, que en su cálculo se usan todos los valores observados de la variable

Tiene el inconveniente de la influencia que ejercen los valores cercanos a cero y los valores negativos si N es par

Este promedio se utiliza en variables que miden porcentajes, tasas o números índices

En cualquier conjunto de observaciones, si se pueden calcular, siempre se cumple que: Ma(X)< Mg(X)<\overline{X}

Ejemplo de media geomética

Tenemos el precio de cierto producto y sabemos que en los últimos 3 años su precio ha subido un 10%, un 20% y un 30%

Queremos saber cuánto ha sido la subida de media

Es decir, queremos saber a qué porcentaje tendría que haber subido cada año (el mismo porcentaje anual) para obtener al cabo de los tres años el mismo precio

Como se está calculando porcentajes no se puede usar la media aritmética, debemos usar la media geométrica

Mg(X)=\sqrt[N]{\prod\limits_{i=1}^{k} x_i^{n_i}}=\sqrt[3]{(1+\frac{10}{100})\cdot(1+\frac{20}{100})\cdot(1+\frac{30}{100})}=\sqrt[3]{1.1\cdot 1.20\cdot 1.3}=1.19721577

Ahora, el resultado, lo pasamos a porcentaje: 1.19721577\cdot 100 =11.9721577\%

Por tanto, la subida de media anual durante los 3 últimos años ha sido de 11.9721577%