Variable aleatoria

Variable aleatoria

Una variable aleatoria es una función que asocia a cada suceso elemental un número perfectamente definido:

\xi | \Omega \rightarrow \mathbb{R}

Variable aleatoria unidimensional

Sea \Omega espacio muestral y P su probabilidad, llamaremos variable aleatoria unidimensional (v.a.) a una aplicación:

\begin{cases} \xi | \Omega \rightarrow \mathbb{R} \\ \omega \rightarrow \xi(\omega) \in \mathbb{R} \end{cases}

Ejemplo de variable aleatoria

\Omega \equiv \text{\lq\lq todas las palabras de 3 bits \rq\rq}
\xi \equiv \text{\lq\lq}n^{\underline{0}}\text{ de unos en esas palabras\rq\rq}
\Omega \equiv \{000, 001, 010, 011, 100, 101, 110, 111\}

\xi | \Omega \rightarrow \mathbb{R}
000 \rightarrow 0
001 \rightarrow 1
010 \rightarrow 1
011 \rightarrow 2
100 \rightarrow 1
101 \rightarrow 2
110 \rightarrow 2
111 \rightarrow 3

P_\xi(0) = P\{\xi = 0\} = P\{000\} = \frac{1}{8} = 0.125
P_\xi(1) = P\{\xi = 1\} = P\{001, 010, 100\} = \frac{3}{8} = 0.375
P_\xi(2) = P\{\xi = 2\} = P\{011, 101, 110\} = \frac{3}{8} = 0.375
P_\xi(3) = P\{\xi = 3\} = P\{111\} = \frac{1}{8} = 0.125
P_\xi(-1) = P\{\xi = -1\} = P\{\emptyset\} = 0
P_\xi(0.75) = P\{\xi = 0.75\} = P\{\emptyset\} = 0

Función de distribución

Sea \xi v.a. (variable aleatoria) llamaremos función de distribución de \xi a una función:

\begin{cases}F|\mathbb{R} \rightarrow [0, 1] \\ x|F(x) \\ \exists F(x) = P(-\infty, x] = P(\xi \leq x) \text{ con }x \in \mathbb{R} \end{cases}

Ejemplo de función de distribución

F(0) = P\{\xi \leq 0\} = \frac{1}{8} = 0.125
F(1) = P\{\xi \leq 1\} = \frac{1}{8} + \frac{3}{8} = \frac{1}{2} = 0.5
F(2) = P\{\xi \leq 2\} = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} = \frac{7}{8} = 0.875
F(3) = P\{\xi \leq 3\} = \frac{1}{8} + \frac{3}{8} + \frac{3}{8} + \frac{1}{8} = 1
F(-1) = P\{\xi \leq -1\} = \emptyset = 0
F(0.75) = P\{\xi \leq 0.75\} = F(1) = \frac{1}{2} = 0.5

V.a. de tipo discreto

Sea \xi v.a. unidimensional diremos que es de tipo discreto si el conjunto D_\xi = \{x \in \mathbb{R} | P\{\xi = x\} > 0\} es un conjunto numerable (finito o infinito numerable)

Siendo:

\begin{cases} D_\xi \equiv \text{\lq\lq soporte para la v.a. }\xi\text{\rq\rq} \\ x \in D_\xi \equiv \text{\lq\lq puntos de masa de la v.a. }\xi\text{\rq\rq} \\ P\{\xi = x\}\text{ con }x \in D_\xi \equiv \text{\lq\lq funci}\acute{o}\text{n de probabilidad de }\xi\text{\rq\rq} \\ P_i = P\{\xi = x_i\}\text{ con }P_i > 1 \text{ y }\sum\limits_{i=1}^{n} P_i = 1 \end{cases}

V.a. de tipo continuo

Diremos que la v.a. \xi es de tipo continua si el conjunto de puntos con probabilidad distinta de 0 es un conjunto no numerable

Se define si \exists f|\mathbb{R}\rightarrow\mathbb{R}^+\Rightarrow F(x)=\int^{+\infty}_{-\infty} f(t) \cdot dt

Cuando tome un valor concreto, será cero (P(\xi = x) = 0), y en consecuencia:

p(x_1 < \xi \leqslant x_2) = p(x_1 < \xi < x_2) = F(x_2) - F(x_1)

Función de densidad

Denominamos función de densidad a una función a partir de la cual podemos calcular probabilidades como el área encerrada entre ella y el eje horizontal f(x)

Siendo:

\begin{cases} f(x) \geq 0, \forall x \in \mathbb{R},\text{ }f(x) \text{ integrable} \\ \int^{+\infty}_{-\infty} f(x) \cdot dx = 1 \end{cases}

Medida de posición central: la Media \mu\text{ }\acute{o}\text{ }E[\xi]

Sea \xi v.a. llamaremos esperanza (ó media) a un valor denotado como E[\xi]=\mu que en el caso de las variables discretas es:

E[\xi] = \mu = \sum\limits_{i=1}^{n} x_i \cdot P_i
 
Y en el de las continuas:

E[\xi] = \mu = \int^{+\infty}_{-\infty} x \cdot f(x) \cdot dx

Propiedades de la media

  1. E[k] = k\text{; si k es constante}
  2. E[\xi + a] = E[\xi] + a\text{; si a es constante (cambio de origen)}
  3. E[b\cdot\xi] = b\cdot E[\xi]\text{; si b es constante (cambio de escala)}
  4. E[a + b\cdot\xi] = a + b\cdot E[\xi]\text{ si a y b son constantes (transformaci}\acute{o}\text{n lineal)}
  5. E[\xi_1 + \cdots + \xi_n] = E[\xi_1] + \cdots + E[\xi_n]
  6. k_1 \leq \xi \leq k_2 \Rightarrow k_1 \leq E[\xi] \leq k_2
  7. \xi_1 \leq \xi_2 \Rightarrow E[\xi_1] \leq E[\xi_2]

Medida de dispersión absoluta: la Varianza \sigma^2 \text{ }\acute{o}\text{ } Var[\xi]

Sea \xi v. a. llamaremos varianza a:

\sigma^2 = Var(\xi) = E[(\xi - \mu)^2]\text{ siendo }\mu = E[\xi]
 
En el caso de las variables discretas se calcula:

\sigma^2 = Var(\xi) = \sum\limits_{i=1}^{n} (\xi_i - \mu)^2 p_i
 
En el caso de las variables continuas se calcula:

\sigma^2 = Var(\xi) = \int^{+\infty}_{-\infty} (x - E(x))^2 \cdot f(x) \cdot dx

Propiedades de la varianza

  1. \sigma^2 = Var(\xi) = E[\xi^2] - E^2[\xi]\text{ en general}
    \sigma^2 = \sum\limits_{i=1}^{n} x^2_i \cdot p_i - \left(\sum\limits_{i=1}^{n} x_i \cdot p_i\right)^2\text{ en las variables discretas}
    \sigma^2 = \int^{+\infty}_{-\infty} x^2 \cdot f(x) \cdot dx - \left(\int^{+\infty}_{-\infty} x \cdot f(x) \cdot dx\right)^2\text{ en las variables continuas}
  2. Var(\xi) \geq 0
  3. Var(\xi) = 0\text{ si }\xi\text{ es constante}
  4. Var(\xi + a) = Var(\xi)\text{ si a es constante}
  5. Var(b\cdot\xi) = b^2\cdot Var(\xi)\text{ si b es constante}
  6. Var(a + b\cdot\xi) = b^2\cdot Var(\xi)\text{ si a y b son constantes}

Desviación típica \sigma

Sea \xi v. a. llamaremos desviación típica a:

\sigma = dt(\xi) = +\sqrt{Var(\xi)}
 
Es la raíz cuadrada positiva de la varianza

Desigualdad de Tchebycheff

Si una v. a. \xi tiene media \mu y desviación típica \sigma entonces para cualquier k > 0 se cumple que:

P\{|\xi - \mu| \leq k\cdot\sigma\} \geq 1 - \frac{1}{k^2}
 
O lo que es lo mismo:

P\{|\xi - \mu| > k\cdot\sigma\} \leq \frac{1}{k^2}

Variable aleatoria. Bidimensional

Una v.a. bidimensional discreta es una aplicación de:

\begin{cases} \sigma \rightarrow \mathbb{R}^2 \\ \omega \rightarrow (x, y) \in \mathbb{R}^2 \end{cases}
 
Donde el conjunto de puntos con probabilidad > 0 es numerable, siendo (x_i, y_j)

Llamaremos puntos de masa a los puntos con probabilidad \not= 0 en una v.a. bidimensional discreta y lo denotaremos (\xi_1, \xi_2), siendo \xi_1 y \xi_2 v.a. unidimensionales

Llamaremos función de probabilidad a las probabilidades de los puntos de masa, es decir, a los valores:

\begin{cases} P_{i j} = P\{(\xi_1, \xi_2) = (x_i, x_j)\} = P\{\xi_1 = x_i, \xi_2 = y_j\} \\ \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{m} P_{i j} = 1\end{cases}
 
La suma de las funciones de probabilidad debe ser siempre 1

Pudiendo obtener la siguiente matriz de probabilidades:

\begin{pmatrix} \xi_1, \xi_2& y_1& \cdots& y_m& p_{i *} \\ x_1& p_{1 1}& \cdots& p_{1 m}& p_{1 *} \\ \cdots& \cdots& \cdots& \cdots& \cdots \\ x_n& p_{n 1}& \cdots& p_{n m}& p_{n *} \\ p_{* j}& p_{* 1}& \cdots& p_{* m}& 1 \end{pmatrix}
 
Para una variable aleatoria bidimensional discreta \xi_1, \xi_2) las distribuciones marginales son las distribuciones de las v.a. unidimensionales \xi_1\text{ y }\xi_2. En el caso de v.a. de tipo discreto las funciones de probabilidad marginal:

\begin{cases} \xi_1 | p_i = p\{\xi_1 = x_i\} = \sum\limits_{j=1}^{n} p_{i, j} = \sum\limits_{j=1}^{n} p\{\xi_1 = x_i, \xi_2 = y_j\} \\ \xi_2 | p_j = p\{\xi_2 = x_j\} = \sum\limits_{i=1}^{n} p_{i, j} = \sum\limits_{i=1}^{n} p\{\xi_1 = x_i, \xi_2 = y_j\} \end{cases}
 
Para una variable aleatoria bidimensional discreta (\xi_1, \xi_2) las distribuciones condicionadas son las distribuciones de una de las componentes de la v.a. bidimensional (\xi_1\text{ }\acute{o}\text{ }\xi_2) dado un valor de la otra componente (\xi_2\text{ }\acute{o}\text{ }\xi_1 respectivamente). En el caso de v.a. de tipo discreto las funciones de probabilidad condicional:

\begin{cases} \xi_1 \text{ dado } \xi_2 | p(\xi_1 = x_i | \xi_2 = y_j) = \frac{p(\xi_1 = x_i, \xi_2 = y_j)}{p(\xi_2 = y_j)} = \frac{p_{i, j}}{p_{., j}} \\ \xi_2 \text{ dado } \xi_1 | p(\xi_1 = x_i | \xi_2 = y_j) = \frac{p(\xi_1 = x_i, \xi_2 = y_j)}{p(\xi_1 = x_i)} = \frac{p_{i, j}}{p_{i, .}} \end{cases}
 
Para obtener la media se utiliza un vector de medias en columna:

\begin{pmatrix} E[\xi_1] \\ E[\xi_2] \end{pmatrix} = \begin{pmatrix} \mu_1 \\ \mu_2 \end{pmatrix}

Covarianza

Sea (\xi_1, \xi_2) v.a. bidimensional, llamaremos covarianza entre \xi_1 y \xi_2 a:

\sigma_{1, 2} = Cov(\xi_1, \xi_2) = E[(\xi_1 - \mu_1) \cdot (\xi_2 - \mu_2)] \text{ con }\mu_1 = E(\xi_1) \text{ y }\mu_2 = E(\xi_2)
 
En el caso de las variables discretas se calcula:

\sigma_{1, 2} = Cov(\xi_1, \xi_2) = \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \left((x_i - \mu_1) \cdot (y_j - \mu_2)\right) p_{i, j}
 
La covarianza mide la relación lineal o covariación entre dos variables

Es útil usar una tabla de varianzas covarianzas:

\sum = \begin{pmatrix} Var(\xi_1) & Cov(\xi_1, \xi_2) \\ Cov(\xi_1, \xi_2) & Var(\xi_2) \end{pmatrix} = \begin{pmatrix} \sigma^2_1 & \sigma_{1, 2} \\ \sigma_{1, 2} & \sigma^2_1 \end{pmatrix}

Propiedades de la covarianza

  1. Cov(\xi_1, \xi_2) = E[\xi_1 \xi_2] - E[\xi_1] E[\xi_2]\text{ donde }E[\xi_1 \xi_2] = \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \left((x_i y_j) \cdot (p_{i, j})\right)
  2. Cov(\xi_1 + a, \xi_2 + b) = Cov(\xi_1, \xi_2)\text{ con a y b constantes}
  3. Cov(a \cdot \xi_1, b \cdot \xi_2) = a \cdot b \cdot Cov(\xi_1, \xi_2)\text{ con a y b constantes}
  4. Cov(\xi_1 + \xi_2, \xi_3) = Cov(\xi_1, \xi_3) + Cov(\xi_2, \xi_3)
  5. Cov(\xi_1 + \xi_2, \xi_3 + \xi_4) = Cov(\xi_1, \xi_3) + Cov(\xi_1, \xi_4) + Cov(\xi_2, \xi_3) + Cov(\xi_2, \xi_4)
  6. Var(\xi_1 + \xi_2) = Var(\xi_1) + Var(\xi_2) + 2 \cdot Cov(\xi_1, \xi_2)
  7. Var(\xi_1 - \xi_2) = Var(\xi_1) + Var(\xi_2) - 2 \cdot Cov(\xi_1, \xi_2)
  8. Var(\xi_1 + \xi_2) = Var(\xi_1) + Var(\xi_2)\text{ si }\xi_1\text{ y }\xi_2\text{ y est}\acute{a}\text{n incorreladas}
  9. Var(\xi_1 - \xi_2) = Var(\xi_1) + Var(\xi_2)\text{ si }\xi_1\text{ y }\xi_2\text{ y est}\acute{a}\text{n incorreladas}

Coeficiente de correlación lineal

Llamaremos coeficiente de correlación lineal entre \xi_1\text{ }y\text{ }\xi_2 a:

p_{1 2} = Corr(\xi_1, \xi_2) = \frac{Cov(\xi_1, \xi_2)}{\sqrt{Var(\xi_1) \cdot Var(\xi_2)}} = \frac{\sigma_{1 2}}{\sigma_1 \cdot \sigma_2}

El coeficiente de correlación lineal mide el grado de relación lineal entre dos variables

Incorreladas

Sean \xi_1\text{ y }\xi_2 v.a. diremos que están incorreladas si no tienen relación lineal, es decir:

Cov(\xi_1, \xi_2) = 0

Correladas

Sean \xi_1\text{ y }\xi_2 v.a. diremos que están correladas si tienen relación lineal, es decir:

Cov(\xi_1, \xi_2) \neq 0

Coeficiente de correlación de Pearson

p_{1 2} = Corr(\xi_1, \xi_2) = \frac{Cov(\xi_1, \xi_2)}{dt(\xi_1) \cdot dt(\xi_2)} = \frac{\sigma_{1 2}}{\sigma_1 \cdot \sigma_2}
 
Nota:

\tiny\begin{cases} p_{1 2} = 0 \Leftrightarrow \sigma_{1 2} = 0 \Leftrightarrow \text{ sin relaci}\acute{o}\text{n lineal, est}\acute{a}\text{n incorreladas} \\ p_{1 2} \neq 0 \Leftrightarrow \sigma_{1 2} \neq 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal, est}\acute{a}\text{n correladas} \\ p_{1 2} > 0 \Leftrightarrow \sigma_{1 2} > 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal creciente} \\ p_{1 2} < 0 \Leftrightarrow \sigma_{1 2} < 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal decreciente} \end{cases}
 
\text{Dado }-1 \leq p_{1 2} \leq 1:

\tiny\begin{cases} p_{1 2} = 1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal creciente perfecta} \\ p_{1 2} = -1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal decreciente perfecta} \\ p_{1 2} = 0 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal d}\acute{e}\text{bil} \\ p_{1 2} = \pm 1 \Leftrightarrow \text{ con relaci}\acute{o}\text{n lineal fuerte} \end{cases}

Independientes

Sean \xi_1\text{ y }\xi_2 v.a. diremos que son independientes si no tienen ningún tipo de relación, es decir, si cumplen alguna de las siguientes condiciones análogas:

  1. p(\xi_1 = x_i|\xi_2 = y_j) = p(\xi_1 = x_i); \forall(x_i, y_j)
  2. p(\xi_2 = y_j|\xi_1 = x_i) = p(\xi_2 = y_j); \forall(x_i, y_j)
  3. p(\xi_1 = x_i|\xi_2 = y_j) = p(\xi_1 = x_i) p(\xi_2 = y_j); \forall(x_i, y_j)

Dependientes

Sean \xi_1\text{ y }\xi_2 v.a. diremos que son dependientes si tienen algún tipo de relación