Archivo de la categoría: Estadística

La estadística es la ciencia formal que estudia usos y análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional

Estadística

Estadística

La estadística (la forma femenina del alemán Statistik, y este derivado del italiano statista «hombre de Estado») es una ciencia formal y una herramienta que estudia usos y análisis provenientes de una muestra representativa de datos, busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional

Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad

Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales

La estadística se divide en dos grandes áreas:

  • Estadística descriptiva
  • Estadística inferencial

Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia

La palabra «estadísticas» también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, entre otros

Hoy en día, la estadística es una ciencia que se encarga de estudiar una determinada población por medio de la recolección, recopilación e interpretación de datos. Del mismo modo, es considerada una técnica especial apta para el estudio cuantitativo de los fenómenos de masa o colectivo

Estadística descriptiva

Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros

Estadística inferencial

Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos

Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. La estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica

Probabilidad

Probabilidad

Llamaremos probabilidad de un \Omega espacio muestral a cualquier aplicación que cumpla:

\begin{cases} \Omega \rightarrow R \\ \omega \rightarrow p(\omega) \in \left[0, 1\right] \end{cases}


donde el valor entre 0 y 1 trata de cuantificar la posibilidad que tiene ese suceso de ocurrir. Se suele medir también en tanto por ciento, por tanto una probabilidad de 1 equivale a 100% y una de 0 a 0%

  1. P(A) \ge 0, \forall A \text{ suceso}
  2. P( \Omega) = 1
  3. P(A \cup B) = P(A) + P(B)\text{ si }A \cap B = \emptyset

Propiedades

  1. P(A) \le 1
  2. P(\emptyset) = 0
  3. P(A^c) = 1 - P(A)
  4. Si B \subset A \Rightarrow P(A - B) = P(A) - P(B)
  5. P(A - B) = P(A) - P(A \cap B)
  6. P(A \cup B) = P(A) + P(B) - P(A \cap B)
  7. P(A_1 \cup \cdots \cup A_n) = P(A_1) + \cdots + P(A_n); \text{ Si } A_i \cap A_j = \emptyset; \forall \not= j
  8. P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C)- P(B \cap C) + P(A \cap B \cap C)
  9. P(A \cup B \cup C \cup D) = P(A) + P(B) + P(C) + P(D) - P(A \cap B) - P(A \cap C) - P(A \cap D) - P(B \cap D) - P(C \cap D) + P(A \cap B \cap C \cap D) + P(B \cap C \cap D) - P(A \cap B \cap C \cap D)

Regla de la adición

La regla de la adición o regla de la suma establece que la probabilidad de ocurrencia de cualquier evento en particular es igual a la suma de las probabilidades individuales, si es que los eventos son mutuamente excluyentes, es decir, que dos no pueden ocurrir al mismo tiempo

P(A) \cup P(B) = P(A) + P(B) si A y B son mutuamente excluyentes

P(A\cup B) = P(A) + P(B) - P(A\cap B) si A y B son no excluyentes

Siendo:

\scriptsize\begin{cases}\text{P(A) = probabilidad de ocurrencia del evento A}\\ \text{P(B) = probabilidad de ocurrencia del evento B}\\P(A \cap B)\text{ = probabilidad de ocurrencia simult}\acute{a}\text{nea de los eventos A y B}\end{cases}

Regla de la multiplicación

La regla de la multiplicación establece que la probabilidad de ocurrencia de dos o más eventos estadísticamente independientes es igual al producto de sus probabilidades individuales

P(A \cap B) = P(A\cdot B) = P(A) \cdot P(B) si A y B son independientes

P(A \cap B) = P (A \cdot B) = P(A)\cdot P(B|A) si A y B son dependientes

Siendo P(B|A) la probabilidad de que ocurra B habiéndose dado o verificado el evento A

Regla de Laplace

Sea \Omega espacio muestral donde los puntos muestrales tienen la misma posibilidad de ocurrencia, A suceso, entonces:

P(A) = \frac{n^{\underline{0}}\text{ de casos favorables}}{n^{\underline{0}}\text{ de casos posibles}}

Probabilidad frecuentista (Von Mises)

Sea \Omega espacio muestral asociado a un fenómeno aleatorio, sea A suceso. La probabilidad frecuentista de que ocurra A es la frecuencia relativa del nº de veces que ocurre cuando repetimos el fenómeno aleatorio \infty veces

\lim\limits_{n\to\infty} \frac{n^{\underline{0}}\text{ de veces que ocurre}}{n}

Sucesos

Sucesos

Un suceso o un conjunto de sucesos, es cada uno de los resultados posibles de un experimento aleatorio

Experimento aleatorio

Es aquel que bajo condiciones similares nos da diferentes resultados

Ejemplos de experimentos aleatorios

  • Lanzar una moneda y contar el número de caras o cruces
  • Extraer una carta de una baraja
  • Calcular el tiempo de vida de una bombilla
  • Medir la temperatura de un procesador después de una hora de trabajo
  • Calcular el número de llamadas enviadas o recibidas por una línea de teléfono tras una hora

Espacio muestral

Conjunto formado por todos los posibles resultados asociados al experimento aleatorio

Es el conjunto total

Se representa con \Omega

Ejemplo de espacio muestral

En el experimento de lanzar una moneda 3 veces y contar el número de caras

El espacio muestral será \Omega=\{0,1,2,3\} para el número de caras obtenidas

Punto muestral

Resultado individual obtenido de un espacio muestral

Se representa con \omega

Siendo A un conjunto

Y se define p(\omega)=\{A|A\subseteq\Omega\}

Ejemplo de punto muestral

En el experimento de lanzar una moneda 3 veces y contar el número de caras

Si tras lanzar la moneda 3 veces hemos contado 2 caras, entonces el punto muestral es p(3)=2

Suceso aleatorio

Es un conjunto de puntos muestrales

Se representa con A

Se denota con letras mayúsculas (A_i)_{i\in I} familia (finita o infinita)

Y se define (A_i)_{i\in I} \in p(\Omega)

Ejemplo de suceso aleatorio

En el experimento de lanzar una moneda 3 veces y contar el número de caras

Vamos a repetir el experimento 5 veces para obtener un suceso aleatorio, si tras lanzar la moneda 3 veces hemos contado:

  • 2 caras, entonces el punto muestral 1 es p(3_1)=2
  • 0 caras, entonces el punto muestral 2 es p(3_2)=0
  • 3 caras, entonces el punto muestral 3 es p(3_3)=2
  • 2 caras, entonces el punto muestral 4 es p(3_4)=2
  • 1 cara, entonces el punto muestral 5 es p(3_5)=1

El suceso aleatorio es A=\{2,0,2,2,1\}

Ocurrencia de un suceso

Diremos que ha ocurrido un suceso A si en una realización particular del experimento aleatorio se obtiene un punto muestral de P((A_i)_{i\in I})=\{A|A\subseteq\Omega\}

Ejemplo de ocurrencia de un suceso

En el experimento de lanzar una moneda 3 veces y contar el número de caras

Vamos a repetir el experimento 5 veces para obtener un suceso aleatorio

Vamos a repetir el experimento 5 veces para obtener un suceso aleatorio, si tras lanzar la moneda 3 veces hemos obtenido :

  • 2 caras, entonces la ocurrencia del suceso es P(3_1)=2
  • 0 caras, entonces la ocurrencia del suceso es P(3_2)=0
  • 2 caras, entonces la ocurrencia del suceso es P(3_3)=2
  • 2 caras, entonces la ocurrencia del suceso es P(3_4)=2
  • 1 cara, entonces la ocurrencia del suceso es P(3_5)=1

Suceso seguro

Es aquel que ocurre siempre

Se representa con \Omega

Siendo A un conjunto

Se denota
p(\omega)=\{A|A\subseteq\Omega\}=\Omega
\Omega=\{x, x\in\Omega\}\not =\{\{x\},x\in\Omega\}\subseteq p(\Omega)

Ejemplo de suceso seguro

En el experimento de lanzar una moneda 3 veces y contar el número de caras

Obtener un número de caras (incluyendo el 0), es un suceso seguro porque siempre podremos contar el número de caras (aunque no salga ninguna, porque hemos incluido el 0)

El suceso seguro entonces es
\omega=\{«obtener un número de caras»\}
p(\omega)=\Omega

Suceso imposible

Es aquel que no ocurre nunca

Se representa con \emptyset

Siendo A un conjunto

Se denota
p(\omega)=\{A|A\subseteq\Omega\}=\emptyset
p(\emptyset)=1

Ejemplo de suceso imposible

En el experimento de lanzar una moneda 3 veces y contar el número de caras

Obtener el color rojo, es un suceso imposible porque en el experimento estamos teniendo en cuenta el número de caras obtenidas, no estamos teniendo en cuenta el color del dado

El suceso seguro entonces es
\omega=\{«obtener el color rojo»\}
p(\omega)=\emptyset

Suceso contrario

Llamaremos suceso contrario de A, al suceso que ocurre cuando no ocurre A

Se representa con A^c

Se denota A^c=\Omega\backslash A

Ejemplo de suceso contrario

En el experimento de lanzar una moneda y contar el número de caras

Obtener cruz en vez de cara, es el suceso contrario porque estamos teniendo en cuenta el número de caras, no de cruces

Si A=\{«número de caras obtenidas»\} entonces el suceso contrario es A^c=\{«número de cruces obtenidas»\}

Unión de sucesos

Llamaremos suceso unión de A y B, al suceso que ocurre o A o B o los dos

Se representa con A\cup B

Siendo A un conjunto

Se denota \underset{i\in I}{\bigcup} A_i\in p(\Omega)

Ejemplo de unión de sucesos

En el experimento de lanzar una moneda y contar el número de caras o cruces

Siendo
A=\{«número de caras obtenidas»\}=\{3,4\}
B=\{«número de cruces obtenidas»\}=\{2,4,6\}
A\cup B=\{«número de caras o cruces obtenidas»\}=\{2,3,4,6\}

Intersección de sucesos

Llamaremos intersección de sucesos de A y B, al suceso que ocurre cuando ocurre A y B

Se representa con A\cap B

Siendo A un conjunto

Se denota \underset{i\in I}{\bigcap} A_i\in p(\Omega)

Ejemplo de intersección de sucesos

En el experimento de lanzar una moneda y contar el número de caras o cruces

Siendo
A=\{«número de caras obtenidas»\}=\{3,4\}
B=\{«número de cruces obtenidas»\}=\{2,4,6\}
A\cap B=\{«número par de caras y cruces obtenidas»\}=\{4\}

Diferencia de sucesos

Llamaremos diferencia de sucesos de A y B, al suceso que ocurre cuando ocurre A o B pero no los dos a la vez

Se representa con A \backslash B = A - B

Se denota A - B = A - A \cap B = A \cap B^c

Ejemplo de diferencia de sucesos

En el experimento de lanzar una moneda y contar el número de caras o cruces

Siendo
A=\{«número de caras obtenidas»\}=\{3,4\}
B=\{«número de cruces obtenidas»\}=\{2,4,6\}
A-B=\{«número impar de caras o cruces obtenidas pero no las dos a la vez»\}=A - A\cap B=\{3,4\}-\{4\}=\{3\}

Diferencia simétrica de sucesos

Llamaremos diferencia simétrica de sucesos de A y B, al suceso de todos los sucesos que ocurre cuando ocurre A\cup B pero no A\cap B

Se representa con A \triangle B

Se denota A \triangle B = (A \cup B) - (A \cap B)

Ejemplo de diferencia simétrica de sucesos

En el experimento de lanzar una moneda y contar el número de caras o cruces

Siendo
A=\{«número de caras obtenidas»\}=\{3,4\}
B=\{«número de cruces obtenidas»\}=\{2,4,6\}
A\triangle B=\{«número par de caras o cruces obtenidas pero no número par de caras y cruces»\}=(A \cup B) - (A \cap B)=\{2,3,4,6\}-\{4\}=\{2,3,6\}

Leyes de Morgan

Leyes propuestas por Augustus De Morgan (1806-1871), un matemático y lógico británico nacido en la India, que enuncian los siguientes principios fundamentales del álgebra de la lógica:

  • La negación de la conjunción es equivalente a la disyunción de las negaciones

  • La negación de la disyunción es equivalente a la conjunción de las negaciones

Dentro de la estadística se pueden utilizar las siguientes definiciones de las leyes de Morgan:

Siendo A, B y C conjuntos

  1. \left(A\cup B\right)^c = A^c\cap B^c
    cuya forma generalizada es
    \left(\underset{i\in I}{\bigcup} A_i\right)^c = \underset{i\in I}{\bigcap} \left(A_i\right)^c
  2. \left(A\cap B\right)^c = A^c\cup B^c
    cuya forma generalizada es
    \left(\underset{i\in I}{\bigcap} A_i\right)^c = \underset{i\in I}{\bigcup} \left(A_i\right)^c
  3. A\cap\left(B\cup C\right) = \left(A\cap B\right)\cup\left(A\cap C\right)
    cuya forma generalizada es
    \underset{j\in I}{\bigcap}\left(\underset{i\in I}{\bigcup} A_i\right) = \underset{i j\in I}{\bigcup}\left(\underset{j\in I}{\bigcap} A_{i j, j}\right)
  4. A\cup\left(B\cap C\right) = \left(A\cup B\right)\cap\left(A\cup C\right)
    cuya forma generalizada es
    \underset{j\in I}{\bigcup}\left(\underset{i\in I}{\bigcap} A_i\right) = \underset{i j\in I}{\bigcap}\left(\underset{j\in I}{\bigcup} A_{i j, j}\right)

Demostración 1

Queremos demostrar que \left(A\cup B\right)^c = A^c\cap B^c

\omega\in\left(A\cup B\right)^c \Rightarrow \omega \not \in A\cup B \Rightarrow \begin{cases} \omega \not \in A \\ \omega \not \in B \end{cases} \Rightarrow \begin{cases} \omega \in A^c \\ \omega \in B^c \end{cases} \Rightarrow \omega \in A^c\cap B^c

Con lo que llegamos a lo que queríamos, quedando probado

Demostración 2

Queremos demostrar que \left(A\cap B\right)^c = A^c\cup B^c

\omega\in\left(A\cap B\right)^c \Rightarrow \omega \not \in A\cap B \Rightarrow \begin{cases} \omega \not \in A \\ \omega \not \in B \end{cases} \Rightarrow \begin{cases} \omega \in A^c \\ \omega \in B^c \end{cases} \Rightarrow \omega \in A^c\cup B^c

Con lo que llegamos a lo que queríamos, quedando probado

Suceso incompatible

Diremos que A y B son sucesos incompatibles si no pueden ocurrir nunca a la vez

Se denota
A \cap B = \emptyset
A \cap A^c = \emptyset

Una familia \left(A_i\right)_{i\in I} de conjuntos 2 a 2 disjuntos (o mutuamente excluyentes) si A_i\cup A_j = \emptyset cuando i\not = j

Si una familia \left(A_i\right)_{i\in I} es mutuamente excluyente, la denotaremos \underset{i\in I}{\sqcup}A_i := \underset{i\in I}{\cup}A_i

Diremos que una familia \left(A_i\right)_{i\in I} es exhaustiva si A_i\cap A_j = \Omega

Conjunto numerable

Un conjunto se dice numerable si es biyectivo con \mathbb{N}

Conjunto contable

Un conjunto se dice contable si es numerable o finito

Combinatoria

Combinatoria

La combinatoria es una rama de la matemática perteneciente al área de matemáticas discretas que estudia la enumeración, construcción y existencia de propiedades de configuraciones que satisfacen ciertas condiciones establecidas

Además, estudia las ordenaciones o agrupaciones de un determinado número de elementos. Es utilizada en estadística para realizar cálculos probabilísticos

Variaciones

Supongamos que queremos contar el número total de posibles aplicaciones inyectivas que pueden construirse de un conjunto X, de k elementos, en otro conjunto Y, de n elementos (las cuales tendrán que ser k \le n)

Una aplicación f| X \rightarrow Y con f inyectiva, queda completamente determinada si conocemos cada una de las imágenes de los k elementos de X

Si consideramos la aplicación f como una palabra de k letras del alfabeto Y, ésta no tendrá letras repetidas. La aplicación f será f(x_1)f(x_2)\cdots f(x_n) entonces:

f(x_1) \in Y
f(x_2) \in Y \text{\ }\{f(x_1)\} = \{y \in Y | y \not= f(x_1)\}
f(x_3) \in Y \text{\ }\{f(x_1), f(x_2)\} = \{y \in Y | y \not= f(x_1), y \not= f(x_2)\}
\vdots
f(x_n) \in Y \text{\ }\{f(x_1), \cdots, f(x_{k - 1})\} = \{y \in Y | y \not= f(x_1), \cdots, y \not= f(x_{k - 1})\}

Si denotamos por V(n, k) al total de aplicaciones inyectivas de X en Y y lo llamamos variaciones de n elementos tomados de k en k, entonces tenemos por el principio del producto que:

V(n, k) = n \cdot (n - 1) \cdot (n -2)\cdots (n - k + 1) = \frac{n!}{(n-k)!}
 
Dónde n! = n \cdot (n - 1) \cdot (n -2) \cdot \cdots \cdot 2 \cdot 1 que es el producto de todos los números naturales desde 1 hasta n (a esta cantidad se la llama factorial de n)

Ejemplo de variaciones

¿Cuál es la probabilidad de que en entre un grupo de n personas haya 2 que celebren el cumpleaños el mismo día?

Calcular la probabilidad de los n conjuntos es muy tedioso, tenemos que calcular la probabilidad de que lo cumplieran 0, 1, \cdots, (n -1) el mismo día

Por eso es mejor calcular la probabilidad del suceso contrario. Es decir, la probabilidad de que n personas celebren su cumpleaños en días diferentes, viene a ser lo mismo que dar una lista ordenada de n días distintos de entre los 365 días del año. Por lo tanto tenemos que:

\text{Casos favorables = }V(365, n) = \frac{365!}{(365 - n)!}
 
Los casos posibles son todas las listas ordenadas de n días, por lo que se permiten repeticiones (son variaciones con repetición). Por lo tanto tenemos que:

\text{Casos posibles = }VR(365, n) = 365^n
 
Con lo que la solución a nuestro problema vendrá dada por:

p = 1 - \frac{\text{casos favorables}}{\text{casos posibles}} = 1 - \frac{V(365, n)}{VR(365, n)} = 1 - \frac{365!}{365^n \cdot (365 - n)!}
 
La siguiente tabla muestra la probabilidad p de que en un grupo de n personas haya al menos dos que celebren su cumpleaños el mismo día:

n p n p
5 0.027136 35 0.814383
10 0.116948 40 0.891223
15 0.252901 45 0.940976
20 0.411438 50 0.970374
21 0.443688 55 0.986262
22 0.475695 60 0.994123
23 0.507297 65 0.997683
24 0.538344 70 0.999160
25 0.568700 75 0.999720
26 0.598241 80 0.999914
27 0.626859 85 0.999976
28 0.654461 90 0.999994
29 0.680969 95 0.99999856
30 0.706316 100 0.99999969

Variaciones con repetición

Supongamos que queremos contar el total de posibles aplicaciones que pueden construirse de un conjunto X, de k elementos, en otro conjunto Y, de n elementos

Una aplicación f| X \rightarrow Y queda completamente determinada si conocemos cada una de las imágenes de los k elementos de X

Es decir, debemos conocer f(x_i) con 1 \le i \le k. Esto equivale a dar una k-tupla (f(x_1), f(x_2), \cdots, f(x_k)) del conjunto Y^k = \overbrace{Y x \cdots x Y}^{k\;\rm veces}

También es equivalente a dar una palabra de k letras del alfabeto Y (f(x_1), f(x_2), \cdots, f(x_k)) o dar una selección ordenada de k elementos entre los de Y (pueden repetirse elementos de Y, es decir, puede ocurrir que f(x_i) = f(x_i)\text{ con }i \not= j)

La única condición es que f(x_i) \in Y. Por tanto, el total de aplicaciones de X en Y, o el total de variaciones con repetición de n elementos tomados de k en k, es igual al cardinal de Y^k que, por el principio del producto, es n^k. Si denotamos a este número por VR(n, k), entonces:

VR(n, k) = n^k

Ejemplo de variaciones con repetición

¿Cuál es la probabilidad de acertar en una quiniela el pleno al quince?

Rellenar una quiniela equivale a dar una lista de 15 símbolos eligiendo entre 1, X y 2, es decir, una palabra de longitud 15 construida con el alfabeto 1, X y 2

Con lo que tenemos que el número de quinielas posibles será de:

VR(3, 15) = 3^{15}
 
Sin embargo, esta no es la solución a nuestro problema, la cuál vendrá dada por:

p = \frac{n^{\underline{0}}\text{ de casos favorables}}{n^{\underline{0}}\text{ de casos posibles}} = \frac{1}{3^{15}} = 6,9691719376256323913730850719152 \cdot 10^{-8}

Permutaciones

Llamaremos permutaciones de m elementos al número de variaciones sin repetición de m elementos que se pueden formar

P_m = m!

Ejemplo de Permutaciones

Tenemos una estantería en la que caben tres libros y queremos ordenarlos sin que haya ninguno repetido. Cada libro tiene la portada de un color distinto: rojo, azul y verde. Para distinguirlos vamos a usar el conjunto L de libros y sus elementos son la primera letra del color de su portada:

L=\{R, A, V\}
Ordenación Número de permutación
L=\{R, A, V\} 1
L=\{R, V, A\} 2
L=\{V, R, A\} 3
L=\{V, A, R\} 4
L=\{A, V, R\} 5
L=\{A, R, V\} 6

Para calcular el número de permutaciones podemos ver que se han ido agrupando en conjuntos hasta obtener todas las variaciones posibles. La primera pasada se han empleado todos los 3 elementos. La segunda se descarta 1 y se usan sólo 2. La tercera y última, se descarta 1 y se usa el único elemento que queda

Por tanto, para calcular las permutaciones tenemos que multiplicar el número de elementos distintos de las 3 pasadas:

3\cdot 2 \cdot 1 = 6
 
O lo que es lo mismo:

P_3 = 3! = 3\cdot 2 \cdot 1 = 6

Permutaciones con repetición

Llamaremos permutaciones con repetición de m elementos al número de variaciones de m elementos que se pueden formar cuando algunos elementos se repiten un número finito de veces

PR_{m}^{n_{1}, n_{2}, \cdots, n_k} = \frac{m!}{n_{1}! \times n_{2}! \times \cdots \times n_k!}

Ejemplo de permutaciones con repetición

El resultado de un partido de fútbol fue 5-4

¿De cuántas maneras distintas se pudo llegar a dicho resultado?

A cualquier gol marcado por el equipo local lo denotamos por L y a cualquier gol marcado por el equipo visitante con V

El número de L o V total ha de ser de longitud 5 + 4 = 9, con lo que buscamos cualquier lista ordenada que contenga 5 L y 4 V en cualquier orden, con lo que representamos el orden posible de goles en el partido

Con lo que tenemos que el número de maneras distintas de llegar a ese resultado es de:

PR_{9}^{5, 4} = \frac{9!}{5! \cdot 4!} = 126

Combinaciones

Llamaremos combinaciones de m elementos tomados de n en n al número de subconjuntos que se pueden formar con n de esos m elementos sin repetir ninguno

C_{m, n} = {m \choose n} = \frac{m!}{n! \cdot (m - n)!}

Ejemplo de combinaciones

¿Cuál es la probabilidad de acertar la lotería primitiva?

En la lotería primitiva, hay 49 números posibles para jugar y se pueden elegir 6 de ellos, sin importar el orden en el que aparezcan

Para saber cuántas combinaciones posibles hay en este juego, basta con calcular el número de subconjuntos que se pueden formar con 6 de esos 49 elementos

Con lo que tenemos que el número de boletos de lotería posibles será de:

C_{49, 6} = {49 \choose 6} = \frac{49!}{6! \cdot (49 - 6)!}=\frac{49!}{6! \cdot 43!}
 
Sin embargo, esta no es la solución a nuestro problema, la cuál vendrá dada por:

p = \frac{n^{\underline{0}}\text{ de casos favorables}}{n^{\underline{0}}\text{ de casos posibles}} = \frac{1}{\frac{49!}{6! \cdot 43!}} = \frac{6! \cdot 43!}{49!} = 7,1511238420185162619416617 \cdot 10^{-8}

Combinaciones con repetición

Llamaremos combinaciones con repetición de m elementos tomados de n en n al número de subconjuntos que se pueden formar con n de esos m elementos pudiendo repetir alguno

CR_{m, n} = {m + n - 1\choose n} = \frac{(m + n - 1)!}{n! \cdot (m - n)!}

Ejemplo de combinaciones con repetición

¿Cuántas fichas tiene el dominó?

Una ficha de dominó es un rectángulo dividido en dos pares iguales y que cada parte contiene un número de puntos escogidos dentro del conjunto \{0, 1, 2, 3, 4, 5, 6\}, dónde el 0 es representado con la ausencia de puntos

El número total de fichas de dominó coincide con el número de selecciones no ordenadas de dos elementos, repetidos o no, escogidos del conjunto \{0, 1, 2, 3, 4, 5, 6\}

Con lo que tenemos que el número total de fichas de dominó será de:

CR_{7, 2} = {7 + 2 - 1\choose 2} = \frac{(7 + 2 - 1)!}{2! \cdot (7 + 2 - 1 - 2)!} = \frac{8!}{2! \cdot 6!} =28

Probabilidad condicionada

Probabilidad condicionada

La probabilidad condicionada de A dado B con \Omega espacio muestral de A y B sucesos con P(B)\not=0 será la probabilidad de que ocurra A sabiendo que ha ocurrido el suceso B:

P(A | B) = \frac{P(A \cup B)}{P(B)}

Propiedades

  1. P(\emptyset | A) = 0
  2. P(\Omega | A) = 1
  3. 0 \leq P(B | A) \leq 1
  4. P(B^c | A) = 1 - P(B | A)
  5. P(A \cup B | C) = P(A | C) + P(B | C) - P(A \cap B | C)
  6. P(A_1 \cap A_2) = P(A_1) \cdot P(A_2 | A_1)
  7. P(A_1 \cap A_2 \cap A_3) = P(A_1) \cdot P(A_2 | A_1) \cdot P(A_3) P(A_3 | A_1 \cap A_2)
  8. P(A_1 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 | A_1) \cdots P(A_n) \cdot P(A_n | A_1 \cap A_2 \cap \cdots \cap A_{n-1})

Suceso independiente

Sea \Omega espacio muestral de A y B sucesos, diremos que que son independientes si se cumple alguna de las siguientes propiedades equivalentes:

  • P(A | B) = P(A)
  • P(B | A) = P(B)
  • P(A \cap B) = P(A) \cdot P(B)

Entonces, cuando sea \Omega espacio muestral de A_1, \cdots, A_n sucesos, diremos que son independientes si y sólo si:

\text{1) }P(A_i \cap A_j) = P(A_i) P(A_j), \forall i \not= j
\text{2) }P(A_i \cap A_j \cap A_k) = P(A_i) P(A_j) P(A_k), \forall i \not= j, i \not= k, j \not= k
\cdots)
\text{n-1) }P(A_1 \cap \cdots \cap A_n) = P(A_1) \cdots P(A_n)

Suceso dependiente

Diremos que son dependientes si no son dependientes:

  • P(A | B) \not= P(A)
  • P(A | B) > P(A)
  • P(A | B) < P(A)

Dependencia e incompatibilidad

Si A y B tienen probabilidades no nulas e incompatibles, entonces son dependientes

Incompatibles: A \cap B = \emptyset \Rightarrow P(A \cap B) = 0

Independientes: P(A \cap B) = P(A) \cdot P(B)

Teorema de la probabilidad

Sea \Omega espacio muestral de A_1, \cdots, A_n sucesos, diremos que forma un sistema completo de sucesos (SCS) si y sólo si cumplen:

  1. A_i \not= \emptyset, \forall i
  2. A_i \cap A_j \not= \emptyset, \forall i \not= j
  3. A_1 \cup \cdots \cup A_n = \Omega

Teorema de la probabilidad total

Sea \Omega espacio muestral con A_1, \cdots, A_n un sistema completo de sucesos y sea B otro suceso distinto, entonces:

P(B) = P(B | A_1) \cdot P(A_1) + \cdots + P(B | A_n) \cdot P(A_n)

Demostración

P(B) = P(B \cup A_1) + \cdots + P(B \cup A_n) \cdot P(B | A) = \frac{P(B \cup A)}{P(A)} P(B \cup A) = P(B | A) \cdot P(A) P(B) = P(B | A_1) \cdot P(A_1) + \cdots + P(B | A_n) \cdot P(A_n)

Teorema de Bayes

Sea \Omega espacio muestral con A_1, \cdots, A_n un sistema completo de sucesos y sea B otro suceso distinto, entonces:

P(A_i | B) = \frac{P(B | A_i) P(A_i)}{P(B)}, \forall i \in \{1, \cdots, n\}

Ejemplo del Teorema de Bayes

Toda la producción de una empresa es realizado por 3 máquinas de forma independiente. La primera realiza la mitad del trabajo, la segunda la quinta parte y la tercera el resto. Estas máquinas han producido hasta el momento un 2%, 4% y 3% de unidades defectuosas, respectivamente. Queremos calcular:

  1. El porcentaje de piezas defectuosas que produce la empresa
  2. Si elegimos una pieza al azar y resulta que es defectuosa ¿cuál es la máquina más probable que la produjera?

Antes de realizar ningún cálculo, vamos a ordenar la información que nos da el problema

Probabilidad de que una pieza esté producida en una máquina determinada:

Probabilidad de la máquina Resultado
P(M_1) \frac{1}{2} = 0.5
P(M_2) \frac{1}{5} = 0.2
P(M_3) 1 - \frac{1}{2} - \frac{1}{5} = \frac{10-5-2}{10}=\frac{3}{10}=0.3

Probabilidad de que una pieza sea defectuosa, en función de que esté producida en una máquina determinada:

Probabilidad sea defectuosa y de la máquina Resultado
P(D | M_1) 2\cdot \frac{1}{100} = 0.02
P(D | M_2) 4\cdot \frac{1}{100} = 0.04
P(D | M_3) 3\cdot \frac{1}{100} = 0.03

Ahora pasamos a resolver las preguntas

  1. Aplicamos el teorema de la probabilidad total
     
    P(D) = P(D | M_1) \cdot P(M_1) + P(D | M_2) \cdot P(M_2) + P(D | M_3) \cdot P(M_3)
    = 0.02 \cdot 0.5 + 0.04 \cdot 0.2 + 0.03 \cdot 0.3 = 0.027
     
    Por tanto, la empresa produce un 0.027 \cdot 100 = 2.7\% de piezas defectuosas
     
  2. Antes de poder responder a la pregunta necesitamos calcular las probabilidades de cada máquina individualmente y luego elegir la que sea mayor. Para ello, utilizaremos el Teorema de Bayes
     
    P(M_1 | D) = \frac{P(D | M_1) \cdot P(M_1)}{P(D)} = \frac{0.02 \cdot 0.5}{0.027} = 0.3704

    P(M_2 | D) = \frac{P(D | M_2) \cdot P(M_2)}{P(D)} = \frac{0.04 \cdot 0.2}{0.027} = 0.2963

    P(M_3 | D) = \frac{P(D | M_3) \cdot P(M_3)}{P(D)} = \frac{0.03 \cdot 0.3}{0.027} = 0.3333
     
    Por lo tanto, la máquina más probable que produjera la pieza defectuosa, es M_1

Variable aleatoria

Variable aleatoria

Una variable aleatoria es una función que asocia a cada suceso elemental un número perfectamente definido:

\xi | \Omega \rightarrow \mathbb{R}

Variable aleatoria unidimensional

Sea \Omega espacio muestral y P su probabilidad, llamaremos variable aleatoria unidimensional (v.a.) a una aplicación:

\begin{cases} \xi | \Omega \rightarrow \mathbb{R} \\ \omega \rightarrow \xi(\omega) \in \mathbb{R} \end{cases}

Ejemplo de variable aleatoria

\Omega \equiv \text{\lq\lq todas las palabras de 3 bits \rq\rq}
\xi \equiv \text{\lq\lq}n^{\underline{0}}\text{ de unos en esas palabras\rq\rq}
\Omega \equiv \{000, 001, 010, 011, 100, 101, 110, 111\}

\xi | \Omega \rightarrow \mathbb{R}
000 \rightarrow 0
001 \rightarrow 1
010 \rightarrow 1
011 \rightarrow 2
100 \rightarrow 1
101 \rightarrow 2
110 \rightarrow 2
111 \rightarrow 3

P_\xi(0) = P\{\xi = 0\} = P\{000\} = \frac{1}{8} = 0.125
P_\xi(1) = P\{\xi = 1\} = P\{001, 010, 100\} = \frac{3}{8} = 0.375
P_\xi(2) = P\{\xi = 2\} = P\{011, 101, 110\} = \frac{3}{8} = 0.375
P_\xi(3) = P\{\xi = 3\} = P\{111\} = \frac{1}{8} = 0.125
P_\xi(-1) = P\{\xi = -1\} = P\{\emptyset\} = 0
P_\xi(0.75) = P\{\xi = 0.75\} = P\{\emptyset\} = 0

Función de distribución

Sea \xi v.a. (variable aleatoria) llamaremos función de distribución de \xi a una función:

\begin{cases}F|\mathbb{R} \rightarrow [0, 1] \\ x|F(x) \\ \exists F(x) = P(-\infty, x] = P(\xi \leq x) \text{ con }x \in \mathbb{R} \end{cases}

Ejemplo de función de distribución

F(0) = P\{\xi \leq 0\} = \frac{1}{8} = 0.125
F(1) = P\{\xi \leq 1\} = \frac{1}{8} + \frac{3}{8} = \frac{1}{2} = 0.5
F(2) = P\{\xi \leq 2\} = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8} = 0.875
F(3) = P\{\xi \leq 3\} = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = 1
F(-1) = P\{\xi \leq -1\} = \emptyset = 0
F(0.75) = P\{\xi \leq 0.75\} = F(1) = \frac{1}{2} = 0.5

V.a. de tipo discreto

Sea \xi v.a. unidimensional diremos que es de tipo discreto si el conjunto D_\xi = \{x \in \mathbb{R} | P\{\xi = x\} > 0\} es un conjunto numerable (finito o infinito numerable)

Siendo:

\begin{cases} D_\xi \equiv \text{\lq\lq soporte para la v.a. }\xi\text{\rq\rq} \\ x \in D_\xi \equiv \text{\lq\lq puntos de masa de la v.a. }\xi\text{\rq\rq} \\ P\{\xi = x\}\text{ con }x \in D_\xi \equiv \text{\lq\lq funci}\acute{o}\text{n de probabilidad de }\xi\text{\rq\rq} \\ P_i = P\{\xi = x_i\}\text{ con }P_i > 1 \text{ y }\sum\limits_{i=1}^{n} P_i = 1 \end{cases}

V.a. de tipo continuo

Diremos que la v.a. \xi es de tipo continua si el conjunto de puntos con probabilidad distinta de 0 es un conjunto no numerable

Se define si \exists f|\mathbb{R}\rightarrow\mathbb{R}^+\Rightarrow F(x)=\int^{+\infty}_{-\infty} f(t) \cdot dt

Cuando tome un valor concreto, será cero (P(\xi = x) = 0), y en consecuencia:

p(x_1 < \xi \leqslant x_2) = p(x_1 < \xi < x_2) = F(x_2) - F(x_1)

Función de densidad

Denominamos función de densidad a una función a partir de la cual podemos calcular probabilidades como el área encerrada entre ella y el eje horizontal f(x)

Siendo:

\begin{cases} f(x) \geq 0, \forall x \in \mathbb{R},\text{ }f(x) \text{ integrable} \\ \int^{+\infty}_{-\infty} f(x) \cdot dx = 1 \end{cases}

Medida de posición central: la Media \mu\text{ }\acute{o}\text{ }E[\xi]

Sea \xi v.a. llamaremos esperanza (ó media) a un valor denotado como E[\xi]=\mu que en el caso de las variables discretas es:

E[\xi] = \mu = \sum\limits_{i=1}^{n} x_i \cdot P_i
 
Y en el de las continuas:

E[\xi] = \mu = \int^{+\infty}_{-\infty} x \cdot f(x) \cdot dx

Propiedades de la media

  1. E[k] = k\text{; si k es constante}
  2. E[\xi + a] = E[\xi] + a\text{; si a es constante (cambio de origen)}
  3. E[b\cdot\xi] = b\cdot E[\xi]\text{; si b es constante (cambio de escala)}
  4. E[a + b\cdot\xi] = a + b\cdot E[\xi]\text{ si a y b son constantes (transformaci}\acute{o}\text{n lineal)}
  5. E[\xi_1 + \cdots + \xi_n] = E[\xi_1] + \cdots + E[\xi_n]
  6. k_1 \leq \xi \leq k_2 \Rightarrow k_1 \leq E[\xi] \leq k_2
  7. \xi_1 \leq \xi_2 \Rightarrow E[\xi_1] \leq E[\xi_2]

Medida de dispersión absoluta: la Varianza \sigma^2 \text{ }\acute{o}\text{ } Var[\xi]

Sea \xi v. a. llamaremos varianza a:

\sigma^2 = Var(\xi) = E[(\xi - \mu)^2]\text{ siendo }\mu = E[\xi]
 
En el caso de las variables discretas se calcula:

\sigma^2 = Var(\xi) = \sum\limits_{i=1}^{n} (\xi_i - \mu)^2 p_i
 
En el caso de las variables continuas se calcula:

\sigma^2 = Var(\xi) = \int^{+\infty}_{-\infty} (x - E(x))^2 \cdot f(x) \cdot dx

Propiedades de la varianza

  1. \sigma^2 = Var(\xi) = E[\xi^2] - E^2[\xi]\text{ en general}
    \sigma^2 = \sum\limits_{i=1}^{n} x^2_i \cdot p_i - \left(\sum\limits_{i=1}^{n} x_i \cdot p_i\right)^2\text{ en las variables discretas}
    \sigma^2 = \int^{+\infty}_{-\infty} x^2 \cdot f(x) \cdot dx - \left(\int^{+\infty}_{-\infty} x \cdot f(x) \cdot dx\right)^2\text{ en las variables continuas}
  2. Var(\xi) \geq 0
  3. Var(\xi) = 0\text{ si }\xi\text{ es constante}
  4. Var(\xi + a) = Var(\xi)\text{ si a es constante}
  5. Var(b\cdot\xi) = b^2\cdot Var(\xi)\text{ si b es constante}
  6. Var(a + b\cdot\xi) = b^2\cdot Var(\xi)\text{ si a y b son constantes}

Desviación típica \sigma

Sea \xi v. a. llamaremos desviación típica a:

\sigma = dt(\xi) = +\sqrt{Var(\xi)}
 
Es la raíz cuadrada positiva de la varianza

Desigualdad de Tchebycheff

Si una v. a. \xi tiene media \mu y desviación típica \sigma entonces para cualquier k > 0 se cumple que:

P\{|\xi - \mu| \leq k\cdot\sigma\} \geq 1 - \frac{1}{k^2}
 
O lo que es lo mismo:

P\{|\xi - \mu| > k\cdot\sigma\} \leq \frac{1}{k^2}

Variable aleatoria. Bidimensional

Una v.a. bidimensional discreta es una aplicación de:

\begin{cases} \sigma \rightarrow \mathbb{R}^2 \\ \omega \rightarrow (x, y) \in \mathbb{R}^2 \end{cases}
 
Donde el conjunto de puntos con probabilidad > 0 es numerable, siendo (x_i, y_j)

Llamaremos puntos de masa a los puntos con probabilidad \not= 0 en una v.a. bidimensional discreta y lo denotaremos (\xi_1, \xi_2), siendo \xi_1 y \xi_2 v.a. unidimensionales

Llamaremos función de probabilidad a las probabilidades de los puntos de masa, es decir, a los valores:

\begin{cases} P_{i j} = P\{(\xi_1, \xi_2) = (x_i, x_j)\} = P\{\xi_1 = x_i, \xi_2 = y_j\} \\ \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{m} P_{i j} = 1\end{cases}
 
La suma de las funciones de probabilidad debe ser siempre 1

Pudiendo obtener la siguiente matriz de probabilidades:

\begin{pmatrix} \xi_1, \xi_2& y_1& \cdots& y_m& p_{i *} \\ x_1& p_{1 1}& \cdots& p_{1 m}& p_{1 *} \\ \cdots& \cdots& \cdots& \cdots& \cdots \\ x_n& p_{n 1}& \cdots& p_{n m}& p_{n *} \\ p_{* j}& p_{* 1}& \cdots& p_{* m}& 1 \end{pmatrix}
 
Para una variable aleatoria bidimensional discreta \xi_1, \xi_2) las distribuciones marginales son las distribuciones de las v.a. unidimensionales \xi_1\text{ y }\xi_2. En el caso de v.a. de tipo discreto las funciones de probabilidad marginal:

\begin{cases} \xi_1 | p_i = p\{\xi_1 = x_i\} = \sum\limits_{j=1}^{n} p_{i, j} = \sum\limits_{j=1}^{n} p\{\xi_1 = x_i, \xi_2 = y_j\} \\ \xi_2 | p_j = p\{\xi_2 = x_j\} = \sum\limits_{i=1}^{n} p_{i, j} = \sum\limits_{i=1}^{n} p\{\xi_1 = x_i, \xi_2 = y_j\} \end{cases}
 
Para una variable aleatoria bidimensional discreta (\xi_1, \xi_2) las distribuciones condicionadas son las distribuciones de una de las componentes de la v.a. bidimensional (\xi_1\text{ }\acute{o}\text{ }\xi_2) dado un valor de la otra componente (\xi_2\text{ }\acute{o}\text{ }\xi_1 respectivamente). En el caso de v.a. de tipo discreto las funciones de probabilidad condicional:

\begin{cases} \xi_1 \text{ dado } \xi_2 | p(\xi_1 = x_i | \xi_2 = y_j) = \frac{p(\xi_1 = x_i, \xi_2 = y_j)}{p(\xi_2 = y_j)} = \frac{p_{i, j}}{p_{., j}} \\ \xi_2 \text{ dado } \xi_1 | p(\xi_1 = x_i | \xi_2 = y_j) = \frac{p(\xi_1 = x_i, \xi_2 = y_j)}{p(\xi_1 = x_i)} = \frac{p_{i, j}}{p_{i, .}} \end{cases}
 
Para obtener la media se utiliza un vector de medias en columna:

\begin{pmatrix} E[\xi_1] \\ E[\xi_2] \end{pmatrix} = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}

Covarianza

Sea (\xi_1, \xi_2) v.a. bidimensional, llamaremos covarianza entre \xi_1 y \xi_2 a:

\sigma_{1, 2} = Cov(\xi_1, \xi_2) = E[(\xi_1 - \mu_1) \cdot (\xi_2 - \mu_2)] \text{ con }\mu_1 = E(\xi_1) \text{ y }\mu_2 = E(\xi_2)
 
En el caso de las variables discretas se calcula:

\sigma_{1, 2} = Cov(\xi_1, \xi_2) = \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \left((x_i - \mu_1) \cdot (y_j - \mu_2)\right) p_{i, j}
 
La covarianza mide la relación lineal o covariación entre dos variables

Es útil usar una tabla de varianzas covarianzas:

\sum = \begin{pmatrix} Var(\xi_1) & Cov(\xi_1, \xi_2) \\ Cov(\xi_1, \xi_2) & Var(\xi_2) \end{pmatrix} = \begin{pmatrix} \sigma^2_1 & \sigma_{1, 2} \\ \sigma_{1, 2} & \sigma^2_1 \end{pmatrix}

Propiedades de la covarianza

  1. Cov(\xi_1, \xi_2) = E[\xi_1 \xi_2] - E[\xi_1] E[\xi_2]\text{ donde }E[\xi_1 \xi_2] = \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \left((x_i y_j) \cdot (p_{i, j})\right)
  2. Cov(\xi_1 + a, \xi_2 + b) = Cov(\xi_1, \xi_2)\text{ con a y b constantes}
  3. Cov(a \cdot \xi_1, b \cdot \xi_2) = a \cdot b \cdot Cov(\xi_1, \xi_2)\text{ con a y b constantes}
  4. Cov(\xi_1 + \xi_2, \xi_3) = Cov(\xi_1, \xi_3) + Cov(\xi_2, \xi_3)
  5. Cov(\xi_1 + \xi_2, \xi_3 + \xi_4) = Cov(\xi_1, \xi_3) + Cov(\xi_1, \xi_4) + Cov(\xi_2, \xi_3) + Cov(\xi_2, \xi_4)
  6. Var(\xi_1 + \xi_2) = Var(\xi_1) + Var(\xi_2) + 2 \cdot Cov(\xi_1, \xi_2)
  7. Var(\xi_1 - \xi_2) = Var(\xi_1) + Var(\xi_2) - 2 \cdot Cov(\xi_1, \xi_2)
  8. Var(\xi_1 + \xi_2) = Var(\xi_1) + Var(\xi_2)\text{ si }\xi_1\text{ y }\xi_2\text{ y est}\acute{a}\text{n incorreladas}
  9. Var(\xi_1 - \xi_2) = Var(\xi_1) + Var(\xi_2)\text{ si }\xi_1\text{ y }\xi_2\text{ y est}\acute{a}\text{n incorreladas}

Coeficiente de correlación lineal

Llamaremos coeficiente de correlación lineal entre \xi_1\text{ }y\text{ }\xi_2 a:

p_{1 2} = Corr(\xi_1, \xi_2) = \frac{Cov(\xi_1, \xi_2)}{\sqrt{Var(\xi_1) \cdot Var(\xi_2)}} = \frac{\sigma_{1 2}}{\sigma_1 \cdot \sigma_2}

El coeficiente de correlación lineal mide el grado de relación lineal entre dos variables

Incorreladas

Sean \xi_1\text{ y }\xi_2 v.a. diremos que están incorreladas si no tienen relación lineal, es decir:

Cov(\xi_1, \xi_2) = 0

Correladas

Sean \xi_1\text{ y }\xi_2 v.a. diremos que están correladas si tienen relación lineal, es decir:

Cov(\xi_1, \xi_2) \neq 0

Coeficiente de correlación de Pearson

p_{1 2} = Corr(\xi_1, \xi_2) = \frac{Cov(\xi_1, \xi_2)}{dt(\xi_1) \cdot dt(\xi_2)} = \frac{\sigma_{1 2}}{\sigma_1 \cdot \sigma_2}
 
Nota:

\tiny\begin{cases} p_{1 2} = 0 \Leftrightarrow \sigma_{1 2} = 0 \Leftrightarrow \text{ sin relaci}\acute{o}\text{n lineal, est}\acute{a}\text{n incorreladas} \\ p_{1 2} \neq 0 \Leftrightarrow \sigma_{1 2} \neq 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal, est}\acute{a}\text{n correladas} \\ p_{1 2} > 0 \Leftrightarrow \sigma_{1 2} > 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal creciente} \\ p_{1 2} < 0 \Leftrightarrow \sigma_{1 2} < 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal decreciente} \end{cases}
 
\text{Dado }-1 \leq p_{1 2} \leq 1:

\tiny\begin{cases} p_{1 2} = 1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal creciente perfecta} \\ p_{1 2} = -1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal decreciente perfecta} \\ p_{1 2} = 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal d}\acute{e}\text{bil} \\ p_{1 2} = \pm 1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal fuerte} \end{cases}

Independientes

Sean \xi_1\text{ y }\xi_2 v.a. diremos que son independientes si no tienen ningún tipo de relación, es decir, si cumplen alguna de las siguientes condiciones análogas:

  1. p(\xi_1 = x_i|\xi_2 = y_j) = p(\xi_1 = x_i); \forall(x_i, y_j)
  2. p(\xi_2 = y_j|\xi_1 = x_i) = p(\xi_2 = y_j); \forall(x_i, y_j)
  3. p(\xi_1 = x_i|\xi_2 = y_j) = p(\xi_1 = x_i) p(\xi_2 = y_j); \forall(x_i, y_j)

Dependientes

Sean \xi_1\text{ y }\xi_2 v.a. diremos que son dependientes si tienen algún tipo de relación

Estadística Descriptiva

Estadística Descriptiva

Usaremos la estadística descriptiva para describir el comportamiento de una característica, a partir de la masa de datos que nos proporciona la observación de la misma en la población, llevaremos a cabo una serie de operaciones como son:

  • La reducción de la masa de datos, mediante la construcción de tablas de frecuencias y la realización del algunos gráficos
  • En el caso de las variables cuantitativas, también podemos tomar algunas medidas que nos permitan caracterizar el comportamiento de la variable. Para ello debemos calcular algunos estadísticos como son las medidas de posición, de dispersión y de forma

Con todo ello, podemos describir perfectamente el comportamiento de nuestra variable

Descripción y organización de los datos

Cuando se usan programas de ordenador es habitual nombrar a las variables de forma que no haya equívocos respecto al contenido de las mismas, pero no nos debemos olvidar de que lo normal en estadística, sobre todo cuando se dan resultados generales es nombrar a las variables estadísticas usando letras mayúsculas, preferentemente las últimas del abecedario: X, Y, Z, \cdots, y los distintos valores que toma dicha variable se nombran con la misma letra pero en minúsculas: x_1, x_2, x_3, \cdots

Usaremos esta notación, para dar las siguientes definiciones:

Frecuencia absoluta de un determinado valor, x_i, de la variable (y la representaremos por n_i): es el número de veces que se presenta ese determinado valor x_i

Frecuencia relativa de un determinado valor, x_i, de la variable (y la representaremos por f_i): es la proporción de veces que aparece ese valor en el conjunto de observaciones y se calcula como el cociente de su frecuencia absoluta (n_i) y el número total de datos (N)

Es decir: \frac{n_i}{N}

Frecuencia absoluta acumulada de un determinado valor, x_i, de la variable (y la representaremos por N_i): es la suma de las frecuencias absolutas de todos los valores de la variable menores o iguales que dicho valor x_i

Es decir: N_i=n_1+\cdots+n_i=\sum\limits_{j=1}^{i} n_j; N_k=N

Frecuencia relativa acumulada de un determinado valor, x_i, de la variable (y la representaremos por F_i): es la suma de las frecuencias relativas de todos los valores de la variable menores o iguales que dicho valor, x_i

Es decir: F_i=f_1+\cdots+f_i=\sum\limits_{j=1}^{i} f_j=\frac{N_i}{N}; F_k=1

Las frecuencias acumuladas sólo tienen sentido si la escala es ordinal o cuantitativa. Cuando en un conjunto de valores observados de una variable se realizan las operaciones de ordenación y agrupación de los valores que se repiten (determinación de la frecuencia de cada valor), se obtiene una tabla estadística de distribución de frecuencias

A dicho conjunto de operaciones se le denomina tabulación

Cuando una variable tiene muchos valores diferentes, en ocasiones (aunque no suele ser recomendable), antes de su análisis se procede a agrupar los valores observados en intervalos

En estos casos, lo que se hace es definir los intervalos (que pueden ser de amplitud constante o no) y luego calcular la frecuencia para los valores de la variable que están en cada uno de los intervalos. Es decir, las frecuencias no representan las veces o proporción de veces que aparece un valor, sino cuántas veces (o qué proporción de veces) se han obtenido valores de la variable en cada intervalo

Cada intervalo queda perfectamente delimitado por sus límites, así para el i-ésimo intervalo: l_{i-1} sería el límite inferior y l_i sería el límite superior

La amplitud del intervalo a_i es la distancia entre ambos límites: a_i = l_i - l_{i-1}

Para facilitar el manejo matemático de los intervalos es necesario considerar un valor concreto de la variable como representante de cada intervalo, al que se llama marca de clase, y se denota por x_i. Generalmente se toma como marca de clase, el punto medio del intervalo, aunque hay que tener cuidado ya que no siempre es el mejor representante del mismo

En el caso de que los intervalos tengan distinta amplitud, un valor a tener en cuenta es la densidad de frecuencia, que es el número de observaciones de la variable por unidad
de longitud

Es decir: h_i = \frac{n_i}{a_i}

Por afinidad con la función de densidad (que se tratará más adelante), en algunas ocasiones también se utiliza la densidad de frecuencias relativas, que no es otra cosa que la proporción de observaciones por unidad de longitud

Es decir: h'_i = \frac{f_i}{a_i}

Medidas estadísticas

Las medidas estadísticas con valores numéricos nos indican los rasgos más importantes de las distribuciones de frecuencias y se clasifican en los siguientes grupos en función de lo que tratan de medir:

\text{Medidas}\left\{\begin{matrix}\text{de posici\'on}& \left\{\begin{matrix}\text{central}& \\\text{no central}\end{matrix}\right.& \\ \text{de dispersi\'on}& \left\{\begin{matrix}\text{absoluta}& \\\text{relativa}\end{matrix}\right.& \\\text{de forma}& \left\{\begin{matrix}\text{de asimetr\'ia}& \\\text{de curtosis}\end{matrix}\right.& \\\text{de concentraci\'on}\end{matrix}\right.

Gráficos

Para resumir la información también es muy habitual utilizar gráficos. Veamos algunos de los más sencillos:

  • Diagrama de barras: Se utiliza en variables sin agrupar en intervalos. Sobre un sistema de ejes coordenados se colocan, en el eje de abscisas los valores de la variable y sobre el eje de ordenadas las frecuencias absolutas, entonces, sobre cada valor de la variable se levanta una barra cuya altura es igual a su frecuencia absoluta

    Si en lugar de frecuencias absolutas usamos frecuencias relativas el gráfico resultante es análogo pero N veces menor

    También se suele utilizar para mostrar los valores observados de una variable

  • Diagrama de sectores: Se utiliza, generalmente, para variables no agrupadas en intervalos y consiste en dividir el área de un círculo en sectores proporcionales a las frecuencias (absolutas o relativas)). Los grados que abarca cada sector los obtenemos mediante una sencilla regla de tres, teniendo en cuenta que al total de datos (N) le corresponden 360^o
  • Histograma de frecuencias: Se utiliza para variables agrupadas en intervalos. Se construye levantando sobre cada intervalo, representado en el eje de abscisas, un rectángulo cuya área es proporcional a la frecuencia (absoluta o relativa) en dicho intervalo.En general, la altura del rectángulo del intervalo i-ésimo es proporcional a la densidad de frecuencia. En particular, si todos los intervalos tienen la misma amplitud podemos tomar, como altura de los rectángulos, las frecuencias

Medidas de posición

Medidas de posición

Las medidas de posición nos facilitan información sobre la serie de datos que estamos analizando

La descripción de un conjunto de datos, incluye como un elemento de importancia la ubicación de éstos dentro de un contexto de valores posible

Una vez definidos los conceptos básicos en el estudio de una distribución de frecuencias de una variable, estudiaremos las distintas formas de resumir dichas distribuciones mediante medidas de posición (o de centralización), teniendo presente el error cometido en el resumen mediante las correspondientes medidas de dispersión

Se trata de encontrar unas medidas que sinteticen las distribuciones de frecuencias. En vez de manejar todos los datos sobre las variables, tarea que puede ser pesada, podemos caracterizar su distribución de frecuencias mediante algunos valores numéricos, eligiendo como resumen de los datos un valor alrededor del cual se encuentran distribuidos los valores de la variable

Medidas de posición central

Las medidas de posición central o promedios, son valores alrededor de los cuales se agrupan los valores de la variable y que nos resumen la posición de la distribución sobre el eje horizontal. Además nos pueden ayudar a sintetizar la información que proporcionan los valores de la variable

De las medidas de posición central, las más utilizadas son la media aritmética, la mediana y la moda. En algunos casos concretos se utilizan la media armónica o la media geométrica

Media aritmética

La media aritmética, \overline{x}, se define como la suma de todos los valores observados dividido por el número total de observaciones:

Es decir: \overline{x}=\frac{x_1\cdot n_1+\cdots+x_k\cdot n_k}{N}=\frac{\sum\limits_{i=1}^{k} (x_i\cdot n_i)}{N}

Este es el promedio más utilizado en la práctica, por las siguientes ventajas:

  • Tiene en cuenta todos los valores observados
  • Es fácil de calcular y tiene un claro significado estadístico
  • Es única

Sin embargo, tiene el inconveniente de la influencia que ejercen los valores extremos de la distribución sobre ella

La media recortada se obtiene calculando la media de los valores observados una
vez que se han eliminado un determinado porcentaje de los valores extremos (el mismo porcentaje a ambos lados)

Se suele utilizar para calcular la media de una variable en la que sabemos, o sospechamos, que hay valores extremos, ya que estos pueden «desviar» la media

Propiedades de la media aritmética

  1. La suma de las desviaciones (diferencias con el correspondiente signo) de los valores de la variable, respecto a su media aritmética, es igual a cero

    \sum\limits_{i=1}^{k} (x_i-\overline{x})\cdot n_i=\sum\limits_{i=1}^{k} (x_i\cdot n_i)-\overline{x}\cdot \sum\limits_{i=1}^{k} n_i=N\cdot\overline{x}-N\cdot\overline{x}=0

  2. A la media le afectan los cambios de origen y escala. Si tenemos que u_i=a+b\cdot x_i, siendo a y b valores cualesquiera, con b distinto de cero (lo que equivale a hacer un cambio de origen y escala), la media aritmética puede expresarse de la forma siguiente: \overline{u}=a+b\cdot\overline{x}

    Y demostrarlo es muy sencillo:

    \overline{u}=\frac{\sum\limits_{i=1}^{k} (u_i\cdot n_i)}{N}=\frac{\sum\limits_{i=1}^{k} (a+b\cdot x_i)\cdot n_i}{N}=\frac{a}{N}\cdot \sum\limits_{i=1}^{k} n_i+\frac{b}{N}\cdot \sum\limits_{i=1}^{k} (x_i\cdot n_i)=\frac{a\cdot N}{N}+\frac{b}{N}\cdot \sum\limits_{i=1}^{k} (x_i\cdot n_i)=a+b\cdot\overline{x}

    Esta propiedad, eligiendo convenientemente los valores a y de b, es de gran utilidad en muchos casos, para simplificar el cálculo de la media aritmética

Ejemplo de media aritmética

En una campaña de vacunación, el número de personas vacunadas por horas en el transcurso de 50 horas, ha sido:

0, 3, 2, 2, 1, 4, 5, 2, 3, 2, 1, 0, 4, 3, 5, 3, 1, 4, 6, 1, 2, 3, 0, 4, 4, 5, 3, 1, 4, 2, 3, 1, 0, 6, 3, 2, 5, 3, 2, 3, 6, 2, 2, 5, 7, 4, 2, 7, 4, 2

Queremos calcular el número medio de personas vacunadas en esas 50 horas

Antes de ponernos a calcular la media, agrupamos los resultados en una tabla de frecuencias:

x_i n_i f_i N_i F_i
0 4 0.08 4 0.08
1 6 0.12 10 0.2
2 12 0.24 22 0.44
3 10 0.2 32 0.64
4 8 0.16 40 0.8
5 5 0.1 45 0.9
6 3 0.06 48 0.96
7 2 0.04 50 1

Calculamos la media aritmética:

\overline{x}=\frac{\sum\limits_{i=1}^{k} (x_i\cdot n_i)}{N}=\frac{0 \cdot 4 + 1 \cdot 6 + 2 \cdot 12 + 3 \cdot 10 + 4 \cdot 8 + 5 \cdot 5 + 6 \cdot 3 + 7 \cdot 2}{50}=\frac{149}{50}=2.98\simeq 3

Por tanto, el número medio de personas vacunadas por hora en ese intervalo de 50 horas ha sido de 3, porque se ha redondeado al alza

Mediana

La mediana se define como aquel valor de la variable que divide a la distribución en dos partes con el mismo número de observaciones, cuando estas están ordenadas de menor a mayor

Esta medida tiene la ventaja, respecto a la media, de que es menos sensible a los valores extremos

Ejemplo de mediana

Siguiendo con el ejemplo de la campaña de vacunación, ahora queremos calcular su mediana

Consultamos la tabla de frecuencias anterior y vemos que tenemos 50 datos, para encontrar el valor central lo dividimos entre 2 y como es par le sumaremos 1 al resultado. Si hubiese sido impar no sería necesario sumarle esa unidad, porque ya estaría dividido en dos partes con el mismo número de observaciones

\frac{50+1}{2}=25.5

Al salirnos de resultado un valor cercano a 26 tomaremos 2 posiciones centrales: 25 y 26

Miramos en la columna de las frecuencias absolutas acumuladas en los valores 25 y 26, cuyos valores ambos son 3

Ahora calculamos el valor de la mediana: Me=\frac{3+3}{2}=3

Por tanto, la mitad de las personas vacunadas por hora en ese intervalo de 50 horas ha sido de 3 o menos y la otra mitad 3 o más

Moda

La moda se define como aquel valor de la variable cuya frecuencia no es superada por la de ningún otro valor

Puede darse el caso de que la máxima frecuencia corresponde a 2 o más valores de la variable, en ese caso, las distribuciones se dice que son bimodales o multimodales

Ejemplo de moda

Siguiendo con el ejemplo de la campaña de vacunación, ahora queremos calcular su moda

Miramos en la columna de las frecuencias absolutas y vemos que el mayor es 12, que corresponde al valor 2

Por tanto, el mayor número de personas vacunadas por hora en ese intervalo de 50 horas ha sido de 2

Media armónica

La media armónica se define como: Ma(X)=\frac{N}{\frac{x_1}{n_1}+\cdots+\frac{x_k}{n_k}}=\frac{N}{\sum\limits_{i=1}^{k} \frac{x_i}{n_i}}

Las ventajas de este promedio son:

  • Es única
  • Utiliza todos los valores observados de la variable

Tiene el inconveniente de que le influyen mucho los valores de la variable próximos a cero

Este promedio se utiliza en variables que miden velocidades, rendimientos y, en general, para variables que son el cociente de dos magnitudes

Ejemplo de Media armónica

Un ciclista de realiza un entrenamiento que consiste en 12 series de 1 km, cada una de ellas a velocidad constante. Los datos recogidos de su entrenamiento quedan recogidos en la siguiente tabla:

Serie Velocidad (km/h)
1 54
2 47
3 46
4 50
5 52
6 47
7 51
8 52
9 49
10 51
11 47
12 50

Queremos calcular la velocidad media del corredor durante su entrenamiento

No se puede aplicar la media aritmética porque la variable es el cociente de dos magnitudes (V=\frac{e}{t}), en este caso hay que aplicar la media armónica

Ma(X)==\frac{N}{\sum\limits_{i=1}^{k} \frac{x_i}{n_i}}=\frac{12}{\frac{1}{54}+\frac{2}{47}+\frac{3}{46}+\frac{4}{50}+\frac{5}{52}+\frac{6}{47}+\frac{7}{51}+\frac{8}{52}+\frac{9}{49}+\frac{10}{51}+\frac{11}{47}+\frac{12}{50}}=49.55139

Por tanto, la velocidad media del ciclista ha sido de 49.55139 Km/h en las 12 series

Media geométrica

La media geométrica se define como: Mg(X)=\sqrt[N]{x_1^{n_1}+\cdots+x_k^{n_k}}=\sqrt[N]{\prod\limits_{i=1}^{k} x_i^{n_i}}

Tiene como ventaja, que en su cálculo se usan todos los valores observados de la variable

Tiene el inconveniente de la influencia que ejercen los valores cercanos a cero y los valores negativos si N es par

Este promedio se utiliza en variables que miden porcentajes, tasas o números índices

En cualquier conjunto de observaciones, si se pueden calcular, siempre se cumple que: Ma(X)< Mg(X)<\overline{X}

Ejemplo de media geomética

Tenemos el precio de cierto producto y sabemos que en los últimos 3 años su precio ha subido un 10%, un 20% y un 30%

Queremos saber cuánto ha sido la subida de media

Es decir, queremos saber a qué porcentaje tendría que haber subido cada año (el mismo porcentaje anual) para obtener al cabo de los tres años el mismo precio

Como se está calculando porcentajes no se puede usar la media aritmética, debemos usar la media geométrica

Mg(X)=\sqrt[N]{\prod\limits_{i=1}^{k} x_i^{n_i}}=\sqrt[3]{(1+\frac{10}{100})\cdot(1+\frac{20}{100})\cdot(1+\frac{30}{100})}=\sqrt[3]{1.1\cdot 1.20\cdot 1.3}=1.19721577

Ahora, el resultado, lo pasamos a porcentaje: 1.19721577\cdot 100 =11.9721577\%

Por tanto, la subida de media anual durante los 3 últimos años ha sido de 11.9721577%

Prueba de Bernoulli

Bernoulli

Llamaremos prueba de Bernoulli a un experimento aleatorio con dos posibles resultados, a uno de ellos se le denomina éxito y a otro fracaso con probabilidades p\text{ y }1 - p = q respectivamente, es decir:

\begin{cases} \text{P}=\{\acute{e}\text{xito}\}=p \\ P=\{\text{fracaso}\} = q \\ p + q = 1 \end{cases}
 
La v.a. discreta \xi que toma el valor 1 cuando en el experimento de Bernoulli se obtiene éxito y el valor 0 si se obtiene fracaso, se dice que sigue una distribución de Bernoulli de parámetro p = P\{\acute{e}\text{xito}\} y se denota cómo:

\xi \approx B(1, p)
 
Su función de probabilidad es:

P(\xi = k ) = \begin{cases} p\text{ si }k = 0 \\ q\text{ si }k = 1 \end{cases}
 
E(\xi) = p
 
\sigma^2(\xi) = p\cdot q
 
\sigma(\xi) = +\sqrt{p \cdot q}

Cálculo de una Bernoulli





Distribución Binomial

Distribución Binomial

La distribución Binomial mide el número de éxitos en n pruebas de Bernoulli iguales e independientes

La v.a. discreta \xi que mide el número de éxitos en n pruebas de Bernoulli iguales e independientes se dice que sigue una distribución binomial de parámetros n y p = P\{\acute{e}\text{xito}\} y se denota cómo:

\xi \approx B(n, p)

Su función de probabilidad es:

P\{\xi = k \} = \binom{k}{n} \cdot p^k \cdot q^{n - k}, k \in \{0, \cdots, n\}

E(\xi) = n \cdot p

\sigma^2(\xi) = n \cdot p \cdot q

\sigma(\xi) = +\sqrt{n \cdot p \cdot q}

Propiedades de la distribución Binomial

  1. \xi = \xi_1 + \xi_2 \approx B(n_1 + n_2, p) cuando \xi_1, \xi_2 son v.a. independientes
  2. \xi = \xi_1 + \cdots + \xi_r \approx B(n_1 + \cdots + r_n, p) cuando xi_1, \cdots, \xi_r son v.a. independientes

Cálculo de una Binomial