Estimación estadística

Este artículo o sección necesita referencias que aparezcan en una publicación acreditada.
Busca fuentes: «Estimación estadística» – noticias · libros · académico · imágenes
Este aviso fue puesto el 31 de marzo de 2010.

En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.

Introducción

Supóngase que se tiene una población en la que se estudia una variable aleatoria X {\displaystyle X} con distribución conocida y parámetro desconocido (o parámetros desconocidos) y se desea disminuir el grado de desconocimiento de θ {\displaystyle \theta } en f ( x ; θ ) {\displaystyle f(x;\theta )} , de esta población se extrae una muestra aleatoria de tamaño n {\displaystyle n} : X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} y se trata de calcular, a partir de los valores muestrales, una función de los mismos que proporcione un estadístico θ ^ = T ( X 1 , X 2 , , X n ) {\displaystyle {\hat {\theta }}=T(X_{1},X_{2},\dots ,X_{n})} que le asigne un valor al parámetro desconocido de la población, de forma que sean lo más cercanos en algún sentido; a θ ^ {\displaystyle {\hat {\theta }}} se le llama estimador.

Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N {\displaystyle N} podría ser la media de esa misma característica para una muestra de tamaño n {\displaystyle n} .[1]

La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos métodos que se usan en función de las características y propósitos del estudio:

Estimador

Sea X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} una muestra aleatoria de una distribución con función de densidad f ( x ; θ ) {\displaystyle f(x;\theta )} , un estimador es un estadístico θ ^ = T ( X 1 , X 2 , , X n ) {\displaystyle {\hat {\theta }}=T(X_{1},X_{2},\dots ,X_{n})} que sirve para aproximar los valores de θ {\displaystyle \theta } .

Estimación Puntual

La estimación puntual consiste en encontrar un valor para θ {\displaystyle \theta } , denotado por θ ^ {\displaystyle {\hat {\theta }}} , que sea función de la muestra aleatoria y que permita modelar o describir de manera adecuada el fenómeno aleatorio. En otras palabras, sea X {\displaystyle X} una variable poblacional con densidad f ( x ; θ ) {\displaystyle f(x;\theta )} , siendo θ {\displaystyle \theta } desconocido, el problema consiste en, seleccionada una muestra aleatoria X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} encontrar el estadístico T ( X 1 , , X n ) {\displaystyle T(X_{1},\dots ,X_{n})} que mejor estime el parámetro θ {\displaystyle \theta } ; este estadístico se denotará por θ ^ {\displaystyle {\hat {\theta }}} .

Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos.

Vemos a continuación dos métodos para obtener la estimación puntual de un parámetro:

  • Método de momentos;
  • Método de máxima verosimilitud.

Método de momentos

Véase también: Método de momentos (estadística)

Sea X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} una muestra aleatoria de una población con función de densidad f ( x ; θ 1 , θ 2 , , θ k ) {\displaystyle f(x;\theta _{1},\theta _{2},\dots ,\theta _{k})} . Se denota el r {\displaystyle r} -ésimo momento poblacional por E [ X i r ] = μ r {\displaystyle \operatorname {E} [X_{i}^{r}]=\mu _{r}} y al r {\displaystyle r} -ésimo momento muestral por 1 n i = 1 n X i r = M r {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}X_{i}^{r}=M_{r}} .

El método de estimación por momentos consiste en igualar los momentos poblacionales con los momentos muestrales y resolver para θ 1 , θ 2 , , θ k {\displaystyle \theta _{1},\theta _{2},\dots ,\theta _{k}} , es decir, debemos resolver el sistema de ecuaciones:

{ μ 1 = M 1 μ 2 = M 2 μ k = M k {\displaystyle {\begin{cases}\mu _{1}&=&M_{1}\\\mu _{2}&=&M_{2}\\&\vdots \\\mu _{k}&=&M_{k}\end{cases}}}

La solución a este sistema de ecuaciones, denotada por θ ^ = ( θ ^ 1 , , θ ^ k ) {\displaystyle {\hat {\theta }}=({\hat {\theta }}_{1},\dots ,{\hat {\theta }}_{k})} , se le conoce como estimador por el método de momentos.

Ejemplo

Sea X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} una muestra aleatoria de una población con distribución de Poisson con parámetro θ {\displaystyle \theta } , como

E [ X ] = θ {\displaystyle \operatorname {E} [X]=\theta }

entonces

θ ^ = 1 n i = 1 n X i {\displaystyle {\hat {\theta }}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}}

Método de máxima verosimilitud

Véase también: Máxima verosimilitud

Consiste en tomar como valor del parámetro aquel que maximice la probabilidad de que ocurra la muestra observada. Si X 1 , X 2 , , X n {\displaystyle X_{1},X_{2},\dots ,X_{n}} es una muestra seleccionada de una población con densidad f ( x ; θ ) {\displaystyle f(x;\theta )} , la probabilidad de que ocurra una realización x 1 , x 2 , , x n {\displaystyle x_{1},x_{2},\dots ,x_{n}} viene dada por: L ( θ ; x 1 , , x n ) = f ( x 1 , , x n ; θ ) {\displaystyle L(\theta ;x_{1},\dots ,x_{n})=f(x_{1},\dots ,x_{n};\theta )}

A L ( θ ; x 1 , , x n ) {\displaystyle L(\theta ;x_{1},\dots ,x_{n})} se le llama función de verosimilitud (credibilidad de la muestra observada). Buscamos entonces el valor de θ {\displaystyle \theta } que maximice la función de verosimilitud, y al valor obtenido se le llama estimación por máxima verosimilitud de θ {\displaystyle \theta } .

Nota: si la variable X {\displaystyle X} es discreta, en lugar de f ( x i ; θ ) {\displaystyle f(x_{i};\theta )} consideramos la función masa de probabilidad P ( x i ; θ ) {\displaystyle P(x_{i};\theta )} .

Ejemplo

Sea X N ( μ , σ ) {\displaystyle X\sim N(\mu ,\sigma )} con μ {\displaystyle \mu } desconocido. Seleccionada una m.a.s. X1, ..., Xn, con realización x1, ..., xn, estimamos el parámetro μ {\displaystyle \mu } por ambos métodos.

Según el método de los momentos: E(X) = Xn i=1 Xi n = − X, y al ser µ = E(X) se obtiene que ˆ µ = − x.

Por el método de máxima verosimilitud: Lµ(x1, ..., xn) = Yn i=1 fµ(xi ) = = Yn i=1 1 √ 2πσ e −(xi−µ) 2 2σ

Estimación por Intervalos de confianza 109 y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo: lnLµ(x1, ..., xn) = − 1 2σ 2 Xn i=1 (xi − µ) 2 − n ln( √ 2πσ) ∂ ∂µ lnLµ(x1, ..., xn) = 1 σ 2 Xn i=1 (xi − µ) = n − x − nµ σ 2 = 0 ⇐⇒ ˆ µ = −

Estimación por Intervalos

Consiste en la obtención de un intervalo, calculado a partir de los datos de una muestra, dentro del cual estará el valor del parámetro estimado con una cierta probabilidad o nivel de confianza. En la estimación por intervalos se usan los siguientes conceptos:

Intervalo de Confianza

El intervalo de confianza es una expresión del tipo [ θ 1 , θ 2 ] {\displaystyle [\theta _{1},\theta _{2}]} o θ 1 θ θ 2 {\displaystyle \theta _{1}\leq \theta \leq \theta _{2}} donde θ {\displaystyle \theta } es el parámetro a estimar y θ 1 , θ 2 R {\displaystyle \theta _{1},\theta _{2}\in \mathbb {R} } . Este intervalo contiene al parámetro estimado con un determinado nivel de confianza. Pero a veces puede cambiar este intervalo cuando la muestra no garantiza un axioma o un equivalente circunstancial.

Variabilidad del Parámetro

Si no se conoce, puede obtenerse una aproximación en los datos aportados por la literatura científica o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional y se denota σ {\displaystyle \sigma } .

Error de la estimación

Es una medida de. su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más observaciones deberán incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, más error se comete al aumentar la precisión. Se suele llamar E, según la fórmula E = (θ2 - θ1)/2.

Límite de Confianza

Es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por 1 α {\displaystyle 1-\alpha } , aunque habitualmente suele expresarse con un porcentaje ( 1 α ) 100 % {\displaystyle (1-\alpha )100\%} . Es habitual tomar como nivel de confianza un 95 % {\displaystyle 95\%} o un 99 % {\displaystyle 99\%} , que corresponden con valores α {\displaystyle \alpha } de 0.05 {\displaystyle 0.05} y 0.01 {\displaystyle 0.01} respectivamente.

Valor α {\displaystyle \alpha }

También llamado nivel de significancia. Es la probabilidad (en tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza 1 α {\displaystyle 1-\alpha } . Por ejemplo, en una estimación con un nivel de confianza del 95 % {\displaystyle 95\%} , el valor α {\displaystyle \alpha } es (100-95)/100 = 0,05

Valor crítico

Se representa por Z α 2 {\displaystyle Z_{\frac {\alpha }{2}}} y es el valor de la abscisa en una determinada distribución que deja a su derecha un área igual a α / 2 {\displaystyle \alpha /2} , siendo 1 α {\displaystyle 1-\alpha } el nivel de confianza. Normalmente los valores críticos están tabulados o pueden calcularse en función de la distribución de la población.

Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,1 se calcularía del siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se corresponde con -1,28. Entonces Zα/2 = 1.64. Si la media o desviación típica de la distribución normal no coinciden con las de la tabla, se puede realizar el cambio de variable

t = X μ σ {\displaystyle t={\frac {X-\mu }{\sigma }}}

para su cálculo.

Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza según las definiciones dadas.

Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación, es decir, un mayor nivel de confianza.

Otros usos del término

El término estimación también se utiliza en ciencias aplicadas para hacer referencia a un cálculo aproximado, que normalmente se apoya en la herramienta estadística aunque puede no hacerlo. En este sentido, un ejemplo clásico son los poco conocidos pero útiles en economía problemas de Fermi.

Véase también

Referencias

  1. Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L. (2002). «8. Estimación». Estadística matemática con aplicaciones (6ª edición). Cengage Learning Editores. p. 364. ISBN 9706861947. 
  2. Calderón C., Bernardo A. «Métodos de estimación». Estadística Matemática I. Universidad de Antioquia. Consultado el 21 de abril de 2009. 
  • 'Introducción a la Estadística Económica y Empresarial. Teoría y Práctica.' de Fco. Javier Martín-Pliego López, Editorial Thomson, 2007 (Madrid).
  • 'Manual de Estadística Empresarial con ejercicios resueltos' de Eva Ropero, María Eleftheriou, Luana Gava y Eva Romero. Editorial Delta Publicaciones. 2008 (Madrid).
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1376021
  • Identificadores
  • NKC: ph126566
  • Wd Datos: Q1376021