4 Métodos para encontrar estimadores

Esta sección queda abierta para los otros colaboradores del curso y todo aquel que quiera ampliar su contenido.

4.1 Principios de sustitución

Se utilizan en modelos en donde \(X_1, X_2,..., X_n\) una muestra que proviene de una sola distribución la cual es completa o parcialmente desconocida (Bickel and Doksum 1977).

4.1.1 Sustitución de frecuencias

Usamos este método cuando queremos estimar proporciones. Consiste en reemplazar las frecuencias poblacionales desconocidas \(p_1,p_2,...,p_k\) por las frecuencias muestrales observadas \(N_1/n,N_2/n,...N_k/n\). Esto es, use \[T(X_1, X_2,..., X_n):=q(N_1/n,N_2/n,...,N_k/n)\] para estimar \(q(p_1,p_2,...,p_k)\).

4.1.2 Métodos de los momentos

Consiste en sustituir los momentos teóricos por los muestrales. Suponga que \(m_1(\theta),...,m_r(\theta)\) son los primeros \(r\) momentos muestrales. Entonces para \(1 \leq j \leq r\) y \(1 \leq i \leq n\)

\[m_j(\theta)= E_\theta(X_i^j)\] El \(j-ésimo\) momento muestral esta define como,

\[\hat m_j = \frac{1}{n}\sum_{i=1}^{n}{X_i^j}\]

Suponga que queremos estimar \(q(\theta)=g(m_1(\theta),...,m_r(\theta))\) con \(g\) función continua, el método de los momentos consiste en usar como estimador a \(T(X):=g(\hat m_1,..., \hat m_r)\)

Ejemplo 4.1 (Método de los momentos para la varianza) Suponga que queremos estimar la varianza poblacional, \[q(\theta)=Var(X)=m_2(\theta)-m_1^2(\theta)\], Sustituyendo los momentos muestrales, \[\hat \sigma^2 = \hat m_2-\hat m_1^2=1/n \sum_{i=1}^n X_i^2 - \bar X^2 = 1/n \sum_{i=1}^n (X_i-\bar X)^2\]

4.2 Método de los mínimos cuadrados

4.2.1 Modelos de regresión

Suponga que posemos escribir, \(Y_i=g_i(\theta_1,...,\theta_r) + \epsilon_i\), para \(1\leq i \leq n\) donde \(g_i\) son funciones conocidas y \((\theta_1,...,\theta_r) \in \Omega \subseteq R^r\). Además suponga que los errores \(\epsilon_i\), almenos aproxmadamente, satisfacen las siguientes restriccciones:

  • \(E(\epsilon_i) = 0\) , \(1\leq i \leq n\)
  • \(Var(\epsilon_i) = \sigma^2 > 0\) , \(1\leq i \leq n\)
  • \(Cov(\epsilon_i,\epsilon_j) = 0\) , \(1\leq i < j \leq n\)

Entonces, \(E(Y) = (g_1(\theta),...,g_n(\theta))\) donde \(\theta=(\theta_1,...,\theta_r)\). El método de los mínimos cuadrados dice que tomemos comom estimador \(\hat\theta=(\hat\theta_1,...,\hat\theta_r)\) aqel que mimimiza las distancias de los valores observados de \(Y=y\) a su valor esperado. Tal estimador, cumple con las ecuaciones normales,

\(\frac{\partial }{\partial \theta_j}\sum_{i=1}^{n}[y_i-g_i(\theta) ]^2=0\), \(1\leq j \leq r\)

Ejemplo 4.2 (Modelo de medición) Si el modelo está dado por \(Y_i=\theta_1+\epsilon_i\), entonces \(\frac{\partial \theta_j}{\partial \theta_j}=1\). Luego la ecuación normal es \(\sum_{i=1}^{n}[y_i-\theta_1]=0\), cuya solución es \(\hat \theta_1=\bar y\)

4.3 Método de máxima verosimilitud

Este método solo tiene sentido en modelos paramétricos regulares. Dada una muestra \(X=x\) la función de verosimilitud \(L(\theta,x)\) se define como \(p(x,\theta)\), una función de \(\theta\) para \(x\) fijo. El método de máxima verosimilitud consiste en encontrar el valor \(\hat \theta(x)\) que es más probable que haya generado la \(x\) observada. Si \(X=x\), buscamos \(\hat \theta(x)\) tal que,

\[L( \hat \theta(x),x) = p(x,\hat \theta(x)) = max\left\{ p(x,\theta):\theta \in \Theta\right \} = max\left\{ L(\theta,x):\theta \in \Theta \right\}\] Tal estimador no necesariamente existe ni es único. Si existe, el estimador de máxima verosimilitud para \(q(\theta)\) será \(q(\hat \theta(x))\)

Ejemplo 4.3 (Estimador de máxima verosimilitud para la media de una población normal) Si \(X=(X_1,...,X_n) \in N(\theta,\sigma^2)\) al tomar el logaritmo de la verosimilitud (logaritmo de la multiplicación de las densidades marginales) se puede demostrar que el estimador de máxima verosimilitud es \(\hat \mu=\bar X\)

4.4 Método Bayesiano

En la aproximación Bayesiana \(\theta\) se considera una cantidad cuya variación está de determianada por una distribución de probabilidad. Basada en las creencias del experimentador, la distribución es determinada antes de la observación de los datos (distribución a priori). Luego de tomar una muestra de la población, la distribución a priori es actualizada con la información de la muestra (distribución a posteriori) a través de la regla de Bayes (distribución condicional dada la observación de la muestra) (Casella and Berger 2002).

Ejemplo 4.4 (Estimador de Bayes para la media de una población normal) Sea \(X=(X_1,...,X_n) \in N(\theta,\sigma^2)\) y suponga que la distribución a priori de \(\theta\) es \(N(\mu, \tau^2)\) donde se conocen \(\sigma\), \(\mu\) y \(\tau\). La distribución a posteriori de \(\theta,\) tambien es normal con media y varianza dadas por

  • \(E(\theta|x) = \frac{\tau^2}{\tau^2+\sigma^2}x + \frac{\sigma^2}{\tau^2+\sigma^2}\mu\)
  • \(Var(\theta|x) = \frac{\tau^2\sigma^2}{\tau^2+\sigma^2}\)

4.5 Algoritmo EM (Esperanza-Maximización)

Es una algoritmo cuya ejcución converge a estimadores de máxima verosimilitud. La idea es remplazar una maximización complicada de la verosimilitud por una secuencia de maximizaciones, cada una más sencilla. Vea (Casella and Berger 2002)

References

Bickel, P.J., and Kjell A. Doksum. 1977. Mathematical Statistics: Basic Ideas and Selected Topics. Holden-Day Series in Probability and Statistics, v. 1. Prentice Hall. https://books.google.com.co/books?id=ucMfAQAAIAAJ.

Casella, G., and R.L. Berger. 2002. Statistical Inference. Duxbury Advanced Series in Statistics and Decision Sciences. Thomson Learning. https://books.google.com.co/books?id=0x\_vAAAAMAAJ.