Modelo linear

Estatística
  • v
  • d
  • e

Em estatística, o termo modelo linear é usado de diferentes formas de acordo com o contexto. A ocorrência mais comum se dá em conexão com modelos de regressão e o termo é frequentemente assumido como sinônimo de modelo de regressão linear. Entretanto, o termo é também usado em análise de séries temporais com um significado diferente. Em cada caso, a designação "linear" é frequentemente usada para identificar uma subclasse de modelos para os quais uma redução substancial na complexidade da teoria estatística relacionada é possível.[1]

Modelos de regressão linear

Ver artigo principal: Regressão linear

Para o caso da regressão, o modelo estatístico é como segue. Dada uma amostra (aleatória) ( Y i , X i 1 , , X i p ) , i = 1 , , n {\displaystyle (Y_{i},X_{i1},\ldots ,X_{ip}),i=1,\ldots ,n} , a relação entre as observações Y i {\displaystyle Y_{i}} e as variáveis independentes X i j {\displaystyle X_{ij}} é formulada como:

Y i = β 0 + β 1 ϕ 1 ( X i 1 ) + + β p ϕ p ( X i p ) + ε i i = 1 , , n ; {\displaystyle Y_{i}=\beta _{0}+\beta _{1}\phi _{1}(X_{i1})+\cdots +\beta _{p}\phi _{p}(X_{ip})+\varepsilon _{i}\qquad i=1,\ldots ,n;}

em que ϕ 1 , , ϕ p {\displaystyle \phi _{1},\ldots ,\phi _{p}} podem ser funções não lineares. Acima, as quantidades ε i {\displaystyle \varepsilon _{i}} são variáveis aleatórias que representam os erros na relação. A parte "linear" da designação se relaciona com o aparecimento dos coeficientes de regressão β j {\displaystyle \beta _{j}} em uma forma linear na relação acima. Alternativamente, pode-se dizer que os valores previstos correspondentes ao modelo acima, mais precisamente:

Y ^ i = β 0 + β 1 ϕ 1 ( X i 1 ) + + β p ϕ p ( X i p ) ( i = 1 , , n ) , {\displaystyle {\hat {Y}}_{i}=\beta _{0}+\beta _{1}\phi _{1}(X_{i1})+\cdots +\beta _{p}\phi _{p}(X_{ip})\qquad (i=1,\ldots ,n),}

são funções lineares dos β j {\displaystyle \beta _{j}} . Dado que a estimativa é realizada com base em um análise de mínimos quadrados, estimativas dos parâmetros desconhecidos β j {\displaystyle \beta _{j}} são determinadas ao minimizar uma função de soma de quadrados:

S = i = 1 n ( Y i β 0 β 1 ϕ 1 ( X i 1 ) β p ϕ p ( X i p ) ) 2 . {\displaystyle S=\sum _{i=1}^{n}\left(Y_{i}-\beta _{0}-\beta _{1}\phi _{1}(X_{i1})-\cdots -\beta _{p}\phi _{p}(X_{ip})\right)^{2}.} [2]

A partir disto, pode-se ver prontamente que o aspecto "linear" do modelo significa o seguinte:

  • A função a ser minimizada é uma função quadrática dos β j {\displaystyle \beta _{j}} , para a qual a minimização é um problema relativamente simples;
  • As derivadas da função são funções lineares dos β j {\displaystyle \beta _{j}} , o que torna mais fácil encontrar os valores minimizantes;
  • Os valores minimizantes β j {\displaystyle \beta _{j}} são funções lineares das observações Y i {\displaystyle Y_{i}} ;
  • Os valores minimizantes β j {\displaystyle \beta _{j}} são funções lineares dos erros aleatórios ε i {\displaystyle \varepsilon _{i}} , o que torna relativamente fácil determinar as propriedades estatísticas dos valores estimados dos β j {\displaystyle \beta _{j}} .[3]

Modelos de séries temporais

Um exemplo de um modelo linear de série temporal é um modelo ARMA. Aqui, o modelo para valores { X t } {\displaystyle \{X_{t}\}} em uma série temporal pode ser escrito na forma:

X t = c + ε t + i = 1 p ϕ i X t i + i = 1 q θ i ε t i , {\displaystyle X_{t}=c+\varepsilon _{t}+\sum _{i=1}^{p}\phi _{i}X_{t-i}+\sum _{i=1}^{q}\theta _{i}\varepsilon _{t-i},}

em que novamente as quantidades ε t {\displaystyle \varepsilon _{t}} são variáveis aleatórias que representam inovações, que são novos efeitos aleatórios que aparecem em um certo tempo, mas que também afetam valores de X {\displaystyle X} em tempos posteriores. Neste exemplo, o uso do termo "modelo linear" se refere à estrutura da relação acima ao representar X t {\displaystyle X_{t}} como uma função linear dos valores passados da mesma série temporal e dos valores presentes e passados das inovações. Este aspecto particular da estrutura significa que é relativamente simples derivar relações para as propriedades de média e covariância da série temporal. Nota-se que aqui a parte "linear" do termo "modelo linear" não está se referindo ao coeficientes φ i {\displaystyle \varphi _{i}} e θ i {\displaystyle \theta _{i}} , como seria no caso de um modelo de regressão, que parece estruturalmente semelhante.[4]

Outros usos em estatística

Há algumas outras instâncias em que "modelo não linear" é usado para contrastar com um modelo linearmente estruturado, embora o termo "modelo linear" não seja usualmente aplicado. Um exemplo disto é a redução de dimensionalidade não linear.[5]

Ver também

Referências

  1. Mardia, K. M.; Kent, J. T.; Bibby, J. M. (1979). Multivariate analysis. London: Academic Press. ISBN 0124712525. OCLC 6164035 
  2. Friston, K. J.; Holmes, A. P.; Worsley, K. J.; Poline, J. -P.; Frith, C. D.; Frackowiak, R. S. J. (1994). «Statistical Parametric Maps in functional imaging: A general linear approach». Human Brain Mapping. Consultado em 20 de fevereiro de 2018 
  3. Seber, George A. F.; Lee, Alan J. (2003). Linear regression analysis 2 ed. Hoboken, N.J.: Wiley-Interscience. ISBN 9781118274422. OCLC 775437886 
  4. Priestley, Maurice Bertram (1998). Non-linear and non-stationary time series analysis. London: Academic Press. ISBN 0125649118. OCLC 24107579 
  5. Lee, John Aldo; Verleysen, Michel (2007). Nonlinear dimensionality reduction. New York: Springer. ISBN 9780387393513. OCLC 191448634 
  • Portal de probabilidade e estatística