Não foi possível enviar o arquivo. Será algum problema com as permissões?
Essa é uma revisão anterior do documento!
Tabela de conteúdos
CE-071: Análise de Regressão Linear
Detalhes da oferta da disciplina
- Curso: Estatística.
- Período: 2014/1.
- Local: LABEST, LAB C.
- Horário: Segunda, 20h45-22:00h e quarta 19:00-20:30h.
- Atendimento: Segunda, 19:00-20:30h.
Scripts, notas e documentos
Apostilas e textos úteis: ce071_livros.zip (84 MB)
Histórico das Aulas do Curso
Abaixo o histórico de atividades realizadas em classe e atividades extra classe aplicadas.
- 10/02:
- Informação sobre a oferta da disciplina;
- Introdução à regressão linear;
- Panorama do conteúdo previsto.
- 12/02:
- Análise gráfica exploratória visando aplicação de regressão.
- 17/02:
- Representação matricial;
- Interpretação geométrica;
- Estimação pelo método dos mínimos quadrados.
- 19/02:
- Métodos numéricos considerados na estimação: decomposição QR e de Cholesky.
- 24/02:
- Estimação baseada na verossimilhança.
- 26/02:
- Esperança e variância dos estimadores;
- Teorema de Gauss-Markov;
- Análise de variância.
- 10/03:
- Regressão linear múltipla, resultados representados matricialmente;
- Quadro de análise de variância;
- 12/03:
- Propriedades distribucionais dos estimadores;
- Teste F de uma função linear para inferência sobre \beta;
- Teste F do quadro de análise de variância.
- 17/03:
- Teste de hipótese para \beta e subconjuntos de \beta;
- Teste da soma de quadrados extra;
- Intervalos de confiança para \beta_j e funções lineares de \beta;
- Intervalos de confiança para o valor predito e para observação futura.
- 19/03:
- Prática de regressão linear múltipla com o R;
- Estudo sobre o preço de imóveis em função da área.
- 24/03:
- Fórmulas e matrizes correspondentes ao declarar modelos;
- Tipos de parametrizações em modelos lineares para variáveis categóricas;
- Prática de regressão linear múltipla com o R.
- 26/03:
- Prática de regressão linear múltipla com o R;
- Estudo sobre o preço de veículos em função da quilometragem e tipo de câmbio;
- Especificação e testes de hipóteses entre modelos aninhados.
- 31/03:
- Ajuste do modelo e previsão de valores;
- Intervalos de confiança e intervalos de predição.
- 02/04:
- Análise dos pressupostos do modelo;
- Medidas de influência;
- Tipos de resíduos (crus, padronizados, studentizados);
- DFfits, DFbetas e distância de Cook;
- 07/04:
- Análise dos resíduos e medidas de influência;
- Prática de regressão linear múltipla com o R;
- Estudo sobre o preço de relógios antigos;
- Estudo sobre o salário de trabalhadores sociais.
- 09/04:
- Medidas de colinearidade;
- Fator de inflação da variância.
- 14/04:
- Polinômios ortogonais;
- Centralização das variáveis;
- Prática de regressão linear múltipla com o R;
- Estudo sobre nível de ddt em peixes;
- Estudo sobre o gasto em consumo de alimentos por família.
- 16/04:
- Seleção de variáveis;
- Seleção forward, backwad e stepwise baseados em critérios de informação (AIC e BIC);
- 23/04:
- Prática de regressão linear múltipla com o R;
- Estudo sobre a qualidade de vinhos;
- Estudo sobre o salario de executivos.
- 28/04:
- Variáveis categóricas no modelo de regressão;
- Estudo das interações.
- 30/04
- 05/05
- 07/05
- 12/05
- 14/05
- 19/05
- 21/05
- 26/05
- 28/05
- 02/06
- 04/06
- 09/06
- 11/06
- 16/06
- 18/06
- 23/06
- 25/06
Links úteis
Cursos, dados e scripts sobre Regressão Linear
- Regression Examples: dados e scripts de análises em R e $A$;
Cartões de referência
Medidas de diagnóstico
Regressão com variáveis categóricas
Avaliações
Trabalho 1
- Função para estimação de beta a partir de X e y. Implementar o método de estimação literal, decomposição de Cholesky e decomposição QR.
- Função para calcular o quadro de análise de variância.
- Função para tabela de estimativas com erro-padrão e IC.
- Função para quadro de anova particionado.
- Função para calcular o valor predito com IC.
- Entregar o código impresso das funções programadas no dia 24/03/14.
## Estima o vetor de parâmetros \beta mycoef <- function(X, y, method){ ... } ## Retorna o quadro de análise de variância corrigido para a média myanova <- function(X, y){ ... } ## Retorna a tabela com erros padrões, t-valor, p-valor e IC para \betas mycoeftable <- function(X, y, conf=0.95){ ... } ## Retorna o quadro de análise de variância particionado para X1 myanovapart <- function(X, y, X1){ ... } ## Retorna o valor predito com IC mypredict <- function(x0, betas, vcov, conf){ ... }
Trabalho 2
- Fazer estudo de simulação para estudar a distribuição amostral dos estimadores e das estatísticas do testes.
- Verificar que
,
, e que
têm distribuição Normal.
- Verificar que
e que
têm distribuição F sob H0 que
.
- Estudar a distribuição da estatística F = QMReg/QMres e comparar com o F anterior.
- Entregar código impresso com gráficos e tabelas que sobre os resultados solicitados no dia 24/03/14.
## Função que retorna estimativas de parâmetros e estatísticas sob uma ## amostra aleatória simulada ao ser executada. mysimula <- function(X, beta, sigma, A, m=beta){ ... } results <- replicate(10000, mysimula)
Trabalho 3
- Programar funções para obter:
- Resíduos ordinários, padronizados e studentizados;
- Valores de alavancagem;
- Distância de Cook;
- DFfits, DFbetas;
- As funções devem receber como argumentos as matrizes X e y e retornas as respectivas medidas;
- Alavancagem
- Resíduos crus
- Resíduos padronizados (ou internamente studentizados)
- Resíduos studentizados (ou externamente studentizados)
- Distância de Cook
- DFfits
- DFbetas
##----------------------------------------------------------------------------- ## Definições da sessão. require(lattice) require(latticeExtra) ##----------------------------------------------------------------------------- ## Lendo dados sobre os joagadores da liga européia de futebol. da <- read.table("http://www.leg.ufpr.br/~walmes/data/euro_football_players.txt", header=TRUE, sep="\t", quote="", encoding="utf-8") str(da) da <- subset(da, select=c("pos","kg","cm")) da$gk <- ifelse(da$pos=="GK", 1, -1) da$gk[grep("^M\\(?.?\\)?$", da$pos)] <- 0 da <- subset(da, gk>=0) str(da) names(da)[2:3] <- c("peso","altura") table(da$gk) xyplot(peso~altura|gk, data=da) ##----------------------------------------------------------------------------- ## Preço dos carros em função da categoria (simples, sedan ou cross). db <- read.table("http://www.leg.ufpr.br/~walmes/data/hb20_venda_webmotors_280314.txt", header=TRUE, sep="\t") str(db) db <- subset(db, select=c("carro","km","preco")) db <- transform(db, km=km/1000, preco=preco/1000) xyplot(preco~km|carro, data=db) ##----------------------------------------------------------------------------- require(alr3) str(sleep1) str(ais) str(twins) ## 6.4. Eduardo. str(BGSall) ## 6.6. Michele. str(cathedral) ## 6.10. Paula. str(salary) ## 6.13. Cintia. str(mile) ## 6.18. Gustavo. ##-----------------------------------------------------------------------------