Não foi possível enviar o arquivo. Será algum problema com as permissões?

Essa é uma revisão anterior do documento!


Participantes

Participantes

  1. Flaviane Peccin, Graduanda (UFPR)
  2. Christine Cardozo de Araujo, Graduanda (UFPR)
  3. Joel Maurício Corrêa da Rosa , Prof. Dr. (UFPR)

Objetivos

Geral : Aplicar técnicas multivariadas em um conjunto de dados sobre hipertensão.

Específicos :

  1. aplicar métodos de clusterização;
  2. aplicar métodos de classificação;
  3. comparar os métodos de classificação em relação à capacidade preditiva;
  4. levantar, por diferentes metodologias, os potenciais fatores de risco para hipertensão.

Metodologia

Métodos Multivariados.

  • Clusterização pelo método das k-médias
  • Regressão Logística
  • Análise Linear Discriminante
  • Árvores de Decisão
  • Redes Neurais Artificiais

Análise de Cluster

Denomina-se Análise de Cluster ou Análise de Agrupamentos o conjunto de técnicas utilizadas na identificação de padrões de comportamento em bancos de dados através da formação de grupos homogêneos. O objetivo da analise de cluster é agrupar objetos ou variáveis semelhantes de forma que cada grupo seja homogêneo internamente e sejam diferentes entre si.

Árvores de Decisão

Árvores de Decisão são extremamente úteis para revelar de forma simples, estruturas que são extremamente complexas. O pacote R dispõe de duas funções para o ajuste de árvores de decisão: tree e rpart.

Pela função rpart é possível construir árvores de decisão no mesmo espírito descrito em Breiman et al. (1984) na monografia CART (Classification and Regression Trees).

Regressão Logística

Este problema envolve um grande número de covariáveis e, portanto, uma das maiores dificuldades está na seleção do conjunto de preditoras. Métodos do tipo stepwise, embora sejam atraentes na prática podem conduzir à modelos enganosos.

A tarefa aqui, é integrar à construção do modelo a intervenção dos especialistas na área. Então um passo no processo iterativo de seleção de variáveis é retirar preditoras selecionadas automaticamente que não tenham sentido, de acordo com opinião especializada.

Análise Linear Discriminante

Neste trabalho será realizada somente a análise linear discriminante (LDA). Outros tipos de análise discriminante são: QDA(Quadratic Discriminant Analysis), FDA(Flexible Discriminant Analysis), PDA(Penalized Discriminant Analysis) e MDA(Mixture Discriminant Analysis). A função lda() presente no pacote MASS do R realiza análise linear discriminante. É importante notar que para a construção da função linear discriminante os preditores devem ser quantitativos e assume-se matrizes de covariância iguais nos grupos.

Redes Neurais Artificiais

Apesar de todo mito que envolve o uso de Redes Neurais Artificiais, o que está por trás desta técnica é a utilização de modelos não-lineares. Redes Neurais Artificiais para classificação estão implementadas no pacote nnet() presente na biblioteca MASS do R. A construção de uma rede neural associa-se a definição de sua topologia que no caso das redes do tipo feed-forward envolve a definição de 3 ou mais camadas. A primeira camada, chamada de camada de entrada necessita de tantos neurônios quanto forem o número de variáveis independentes, enquanto a última camada, denominada camada de saída, apresenta tantos neurônios quantas forem as variáveis resposta. Entre estas duas camadas podem existir uma ou mais camadas intermediárias, chamadas de camadas escondidas. O Teorema de Kolmogorov garante que uma camada escondida é suficiente para aproximar qualquer relação não-linear entre a resposta e as variáveis independentes, desde que satisfeitas algumas condições.

Avaliação de Capacidade Preditiva

Os desempenhos de diferentes métodos para a classificação são usualmente comparados por intermédio de experimentos de validação cruzada com 10-dobras. Estes consistem em utilizar 90% dos dados para treinamento e 10% para teste. Os métodos passam por aprendizado supervisionado utilizando a chamada amostra de treinamento composta pelos dados selecionados com esta finalidade e o ajuste final é testado na amostra de teste.

Resultados e Discussão

Banco de Dados e Outros

Outros Materiais

Funções do R

Scripts do R

# pacotes necessarios
require(MASS)
 
require(tree)# arvores de decisao
 
require(rpart)# arvores de decisao
 
# Leitura do conjunto de dados
dados<-read.csv2('http://www.leg.ufpr.br/~joel/dados/hiipertensao.csv',na.strings="")

Organizando o Banco de Dados para os Estudos

#Descritivo dos dados originais
summary(dados)
sapply(dados,class)
names(dados)

#Separação por sexo
dad <- split(dados , dados$sexo)
dadfem <- dad[["feminino"]]

#Eliminação do NA
dadf <- na.omit(dadfem)

#Verificação
summary (dados$sexo)
summary (dadfem$sexo)
summary (dadf$sexo)
sapply(dadf,class)

#Verificar os nomes das variáveis
names(dadf)

#Substituições necessárias devido erro de digitação 
dadf$tabag[92]<-NA #era 2
dadf$tabag[713]<-NA #era 8

#Eliminação do NA
dadff <- na.omit(dadf)
 
#Verificação
summary (dados$sexo)
summary (dadfem$sexo)
summary (dadf$sexo)
summary (dadff$sexo)

#Arrumando classe de dados
dadff$inst <- as.factor(dadff$inst)
dadff$tabag <- as.factor(dadff$tabag)
dadff$dcv <- as.factor(dadff$dcv)
dadff$peso <- as.numeric(dadff$peso)
dadff$estat <- as.numeric(dadff$estat)
dadff$pasis <- as.numeric(dadff$pasis)
dadff$padias <- as.numeric(dadff$padias)
dadff$ccint <- as.numeric(dadff$ccint)
dadff$cabd <- as.numeric(dadff$cabd)
dadff$cquad <- as.numeric(dadff$cquad)
dadff$ccoxa <- as.numeric(dadff$ccoxa)
dadff$dcabd <- as.numeric(dadff$dcabd)
dadff$dcsupra <- as.numeric(dadff$dcsupra)
dadff$dctric <- as.numeric(dadff$dctric)
dadff$dccoxa <- as.numeric(dadff$dccoxa)
dadff$fa30 <- as.numeric(dadff$fa30)
dadff$lc30 <- as.numeric(dadff$lc30)
dadff$tc6x <- as.numeric(dadff$tc6x)
dadff$tc6f <- as.factor(dadff$tc6f)
dadff$Idade <- as.numeric(dadff$Idade)
dadff$imc <- as.numeric(dadff$imc)
dadff$rcq <- as.numeric(dadff$rcq)
dadff$nsecon <- as.factor(dadff$nsecon)
dadff$exerc <- as.numeric(dadff$exerc)
dadff$hipertensao <- as.factor(dadff$hipertensao)
dadff$diabete <- as.factor(dadff$diabete)
dadff$regi <- as.factor(dadff$regi)
dadff$hipaf <- as.factor(dadff$hipaf)
dadff$somadc <- as.numeric(dadff$somadc)
#Verificação
sapply(dadff,class)

Criação de Vetor de Índices

# Criacao de vetor de indices
> ind<-1:150
#  90% dos dados
> 0.9*150
[1] 135
# Indices para treinamento
> ind.train<-sample(ind,135)
> ind.train
  [1]  77 103  89  57 122  75  41  81 147  94 144 117 128   6  55   7  52   5
 [19] 118  96  98 125 104 115  30  80  35  17  20  95  50  27  56  40   9 109
 [37]  87  82 100  39 135 142  48  78  63  16  73 120  18  71 137 150 138  85
 [55]  13  23 136  12   8  72  61  68 112  93  83  76 140 146  26  43  62 134
 [73]  53  65  11 102  79 121  49 141  45  54  47 149 131  99  21  15 110 124
 [91]  22 113  74  88 129  42   1  51  10 145   3  86  28  25  29 114  33  37
[109]  58 126  97  46 116  64 111 108  66  34 105  14  60  59 101  92 107   4
[127] 130 119 127 132  91  90  84 133  24
# Selecao do conjunto de treinamento
> iris.train<-iris[ind.train,]
# Selecao do conjunto de teste
> iris.test<-iris[-ind.train,]
# Ajuste da arvore de classificacao
> tr.rp<-rpart(Species~.,data=iris.train)
# Grafico da arvore
> plot(tr.rp);text(tr.rp)
# Armazenando os valores preditos
> preditos<-predict(tr.rp,newdata=iris.test)
> preditos
    setosa versicolor  virginica
2        1 0.00000000 0.00000000
19       1 0.00000000 0.00000000
31       1 0.00000000 0.00000000
32       1 0.00000000 0.00000000
36       1 0.00000000 0.00000000
38       1 0.00000000 0.00000000
44       1 0.00000000 0.00000000
67       0 0.90196078 0.09803922
69       0 0.90196078 0.09803922
70       0 0.90196078 0.09803922
106      0 0.02439024 0.97560976
123      0 0.02439024 0.97560976
139      0 0.02439024 0.97560976
143      0 0.02439024 0.97560976
148      0 0.02439024 0.97560976
# Conjunto de teste
> iris.test
    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
2            4.9         3.0          1.4         0.2     setosa
19           5.7         3.8          1.7         0.3     setosa
31           4.8         3.1          1.6         0.2     setosa
32           5.4         3.4          1.5         0.4     setosa
36           5.0         3.2          1.2         0.2     setosa
38           4.9         3.6          1.4         0.1     setosa
44           5.0         3.5          1.6         0.6     setosa
67           5.6         3.0          4.5         1.5 versicolor
69           6.2         2.2          4.5         1.5 versicolor
70           5.6         2.5          3.9         1.1 versicolor
106          7.6         3.0          6.6         2.1  virginica
123          7.7         2.8          6.7         2.0  virginica
139          6.0         3.0          4.8         1.8  virginica
143          5.8         2.7          5.1         1.9  virginica
148          6.5         3.0          5.2         2.0  virginica
> help(predict)
> help(predict.rpart)
# Classes preditas (type ="class")
> preditos<-predict(tr.rp,newdata=iris.test,type="class")
> preditos
         2         19         31         32         36         38         44
    setosa     setosa     setosa     setosa     setosa     setosa     setosa
        67         69         70        106        123        139        143
versicolor versicolor versicolor  virginica  virginica  virginica  virginica
       148
 virginica
Levels: setosa versicolor virginica
> table(iris.test$Species,preditos)
            preditos
             setosa versicolor virginica
  setosa          7          0         0
  versicolor      0          3         0
  virginica       0          0         5

Criação das Bases de Desenvolvimento e de Validação

<echo=F,results=hide>>=
ind<-1:989 # Criacao de vetor de indices
ind.trein<-sample(ind,890)# Indices para treinamento
ind.trein
dados.trein<-dadff[ind.trein,] # Selecao do conjunto de treinamento
dados.test<-dadff[-ind.trein,] # Selecao do conjunto de teste
@ 

dadostrein<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostrein.txt",h=T)
dadostest<-read.table("http://www.leg.ufpr.br/~joel/dados/dadostest.txt",h=T)

Bibliografias

<bibtex> @Book{johnson+wichern:1998,

author =       {Johnson,R.A. and Wichern,D.W.},
title =        {Applied Multivariate Statistical Analysis},
publisher =    {Prentice Hall},
address =      {},
year =         {1998},

} </bibtex>

<bibtex> @Book{venables+ripley:2002,

author =       {Venables, W.N.  and Ripley,},
title =        {Modern Applied Statistic with S.},
publisher =    {Springer},
address =      {},
year =        {2002},

} </bibtex>

<bibtex> @article{ABC2422007, author = {ABC da Saúde}, title = {Hipertensão Arterial - Crise Hipertensiva}, language = {pt}, note = {http://www.abcdasaude.com.br/artigo.php?242}, year = {2007}, month = {11}, }

@article{ABC2442007, author = {ABC da Saúde}, title = hipertensao_arterial_-_introducao, language = {pt}, note = {http://www.abcdasaude.com.br/artigo.php?244}, year = {2007}, month = {11}, }

@article{ABC2452007, author = {ABC da Saúde}, title = hipertensao_arterial_-_investigacao_clinica_e_laboratorial, language = {pt}, note = {http://www.abcdasaude.com.br/artigo.php?245}, year = {2007}, month = {11}, }

@article{ABC2462007, author = {ABC da Saúde}, title = hipertensao_arterial_-_prevencao_e_tratamento, language = {pt}, note = {http://www.abcdasaude.com.br/artigo.php?246}, year = {2007}, month = {11}, }

@article{CARVALHO1998, title = concep_c_c_oes_sobre_a_hipertens_ao_arterial, journal = cadernos_de_sa_ude_p_ublica, author = {Carvalho, Fernanda AND Telarolli Junior, Rodolpho AND Machado, Jos\'e C\^andido Monteiro da Silva}, ISSN = {0102-311X}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X1998000300019&nrm=iso}, volume = {14}, year = {1998}, month = {07}, pages = {617 - 621}, publisher = {scielo}, }

@article{FUCHS1996, title = uma_proposta_de_modelagem_aplicada_a_investiga_c_c_ao_de_fatores_de_risco_para_diarr_eia_grave, journal = revista_de_sa_ude_p_ublica, author={Fuchs, Sandra C AND Victora, Cesar G. AND Fachel, Jandyra}, ISSN = {0034-8910}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-89101996000200009&nrm=iso}, volume = {30}, year = {1996}, month = {04}, pages = {168 - 178}, publisher = {scielo}, }

@Book{HAIR2006, author = {Hair, Joseph F. AND Tatham; Ronald L. AND Anderson, Rolph E. AND Black, William}, title = multivariate_data_analysis, note = {Tradu\c{c}\~{a}o: Adonai Schulup Sant'Anna e Anselmo Chaves Neto}, pages = {}, publisher = {Bookman}, address = {Porto Alegre}, year = {2006}, }

@Book{HOFFMANN1977, author = {Hoffmann, Rodolfo AND Vieira, S\^{o}nia}, title = uma_introdu_c_c_a_o_a_econometria, pages = {}, publisher = {Hucitec - USP}, address = {São Paulo}, year = {1977}, }

@article{JARDIM2007, title = hipertens_ao_arterial_e_alguns_fatores_de_risco_em_uma_capital_brasileira, journal = arquivos_brasileiros_de_cardiologia, author={Jardim, Paulo C\'esar B. Veiga AND Gondim, Maria do Ros\'ario Peixoto AND Monego, Estelamaris Tronco AND Moreira, Humberto Graner AND Vitorino, Priscila Valverde de Oliveira AND Souza, Weimar Kunz Sebba Barroso AND Scala, Luiz C\'esar Naz\'ario}, ISSN = {0066-782X}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0066-782X2007000400015&nrm=iso}, volume = {88}, year = {2007}, month = {04}, pages = {452 - 457}, publisher = {scielo}, }

@Book{JOHNSON2007, author = {Johnson, Richard A. AND Wichern, Dean W.}, title = applied_multivariate_statistical_analysis, note = {Sixth Edition}, pages = {}, publisher = {Pearson Prentice Hall}, address = {}, year = {1998}, }

@Book{KLEINBAUM1994, author = {KLEINBAUM, David G.}, title = {Logistic Regression - Self-Learning Text}, pages = {}, publisher = {Springer-Verlang}, address = {New York}, year = {1994}, }

@article{LOLIO1993, title = hipertens_ao_arterial_e_possiveis_fatores_de_risco, journal = revista_de_sa_ude_p_ublica, author = {Lolio, Cec\'{\i}lia Amaro de AND Pereira, J\'ulio C\'esar Rodrigues AND Lotufo, Paulo Andrade AND Souza, Jos\'e Maria Pacheco de}, ISSN = {0034-8910}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-89101993000500006&nrm=iso}, volume = {27}, year = {1993}, month = {10}, pages = {357 - 362}, publisher = {scielo}, }

@article{MEDICINAESAUDE2007, author = {Medicina e Saúde}, title = pressao_arterial, language = {pt}, url = { http://www.portalbrasil.net/medicina_pressao.htm}, year = {2007}, month = {11}, }

@article{PESSUTO1998, title = fatores_de_risco_em_indiv_i_duos_com_hipertens_ao_arterial, journal = revista_latino-americana_de_enfermagem, author={Pessuto, Janete AND Carvalho, Em\'{\i}lia Campos de}, ISSN = {0104-1169}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0104-11691998000100006&nrm=iso}, volume = {6}, year = {1998}, month = {01}, pages = {33 - 39}, publisher = {scielo}, } @Manual{R2007, title = {R: A Language and Environment for Statistical Computing}, author = r_development_core_team, organization = {R Foundation for Statistical Computing}, address = {Vienna, Austria}, year = {2007}, note = estimador_de_maxima_verossimilhanca_mle, language = {pt}, note = {http://www.reliasoft.com.br/hotwire/edicao2/conceito2.htm}, year = {2007}, month = {11}, }

@book{ROTHENBERG1976, author = {Rothenberg, Robert E}, title = enciclopedia_medica_ilustrada_para_uso_no_lar_-_vol_1, note = {Tradução: Camargo, Marisis Aranha}, pages = {208 - 242}, publisher = {Editora Abril}, address = {São Paulo}, year = {1976}, }

@article{SANNY2007, author = {Sanny - American Medical do Brasil}, title = sanny_-_american_medical_do_brasil_-_dobra_cultanea, language = {pt}, url = {http://www.sanny.com.br/si/site/0302?idioma=portugues}, year = {2007}, month = {11}, }

@article{SBN2006, author = {Sociedade Brasileira de Nefrologia}, title = sbn_-_v_diretrizes_brasileiras_de_hipertensao_realizada_em_conjunto_pelas_sociedades_brasileiras_de_nefrologia_cardiologia_e_hipertensao_em_fevereiro_de_2006, language = {pt}, note = {http://www.sbn.org.br/Diretrizes/V_Diretrizes_Brasileiras_de_Hipertensao_Arterial.pdf}, year = {2007}, month = {11}, }

@article{SBNCAP9, author = {Sociedade Brasileira de Nefrologia}, title = sbn_-_capitulo_9_-_prevencao_da_hipertensao_e_dos_fatores_de_risco_associados, language = {pt}, note = {http://www.sbn.org.br/Diretrizes/HA/Capitulo\%2009\%20diretrizes\%20corrigido.pdf}, year = {2007}, month = {11}, }

@article{SILVA2004, title = fatores_de_risco_para_hipertensao_arterial_sistemica_versus_estilo_de_vida_docente, journal = revista_eletronica_de_enfermagem, author={Silva, Jorge Luis Lima AND Souza, Solange Lourdes de}, language = {pt}, url = {http://www.fen.ufg.br/revista/revista6_3/pdf/03_Original.pdf}, volume = {06}, year = {2004}, pages = {330 - 335}, publisher = {fen}, }

@MastersThesis{SIMAO2005, author = {Simão, Manuel}, title = estudo_entre_universitarios_da_cidade_de_lubango-angola, school = {USP}, year = {2005}, note = { http://www.teses.usp.br/teses/disponiveis/22/22132/tde-13092005-105607} }

@article{SOUZA2005, title = prevalencia_de_hipertensao_arterial_e_fatores_de_risco_associados_em_trabalhadores_de_uma_instituicao_de_ensino_superior, journal = revista_da_amrigs, author={Souza, Jonny Arruda AND Zanettini, Luis Felipe Snell AND Zanettini, Marco Tulio AND Boldo, Rodrigo AND Moraes, Renan Stoll}, language = {pt}, url = { http://www.amrigs.com.br/revista/49-04/ao01.PDF}, volume = {49}, year = {2005}, pages = {226 - 232}, publisher = {amrigs}, }

@article{ZAITUNE2006, title = prevalencia_fatores_associados_e_praticas_de_controle_no_municipio_de_campinas_sao_paulo_brasil, journal = cadernos_de_sa_ude_p_ublica, author={Zaitune, Maria Paula do Amaral AND Barros, Marilisa Berti de Azevedo AND C\'esar, Chester Luiz Galv\~ao AND Carandina, Luana AND Goldbaum, Mois\'es }, ISSN = {0102-311X}, language = {pt}, url = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-311X2006000200006&nrm=iso}, volume = {22}, year = {2006}, month = {02}, pages = {285 - 294}, publisher = {scielo}, }

@article{KRAUSE2007, author = {Krause, Maressa Priscila AND Hallage, Tatiane AND Miculis, Cristiane Petra AND Santos, Elisa Cesar Ribeiro dos AND Buzzachera, Cosme Franklin AND Silva, Sergio Gregorio da} title = associacao_entre_a_adiposidade_corporal_e_a_aptidao_cardio-respiratoria_em_mulheres_idosas, language = {pt}, url = {http://www.efdeportes.com/efd110/adiposidade-corporal-e-a-aptidao-cardio-respiratoria-em-mulheres-idosas.htm}, publisher= {Revista Digital - Buenos Aires - Año 12 - N° 110} year = {2007}, month = {07}, }

@book{SOARES1991, author = {Soares, José Francisco AND Farias, Alfredo Alves de AND Cesar, Cibele Comini}, title = introducao_a_estatistica, note = {}, pages = {234 - 245}, publisher = {Editora Guanabara Koogan}, address = {Rio de Janeiro}, year = {1991}, }

@book{SOARES1983, author = {Soares, José Francisco AND Bartan, Flávio Celso}, title = metodos_estatisticos_em_medicina_e_biologia, journal = 14_coloquio_brasileiro_de_matematica note = {Poços de Caldas de 14 a 22 de Jul de 1983}, pages = {20 - 27 ; 81 - 108}, publisher = {Instituto de Matemática Pura e Aplicada do CNPq}, address = {Rio de Janeiro}, year = {1983}, }

@book{COSTANETO1977, author = {Costa Neto, Pedro Luís de Oliveira}, title = estatistica, note = {14ª reimpressão}, pages = {39 - 45}, publisher = {Editora Edgard Blücher}, address = {São Paulo}, year = {1991}, }

@book{PAULA2004, author = {Paula, Gilberto A}, title = modelos_de_regressao_com_apoio_computacional, note = {www.ime.usp.br/~giapaula}, pages = {100 - 143}, publisher = {Universidade de São Paulo}, address = {São Paulo}, year = {2004}, }

@article{LUNAFILHO1998,

 title = {{Seq\"u\^encia b\'asica na elabora\c{c}\~ao de protocolos de pesquisa}},
 journal = {{Arquivos Brasileiros de Cardiologia}},
 author={Luna Filho, Br\'aulio},
 ISSN = {0066-782X},
 language = {pt},
 URL = {http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0066-782X1998001200001&nrm=iso},
 volume = {71},
 year = {1998},
 month = {12},
 pages = {735 - 740},
 publisher = {scielo},
 }
 

@Manual{GIOLO2006, author = {Giolo, Suely Ruiz}, title = analise_de_dados_categoricos, note = {Apostila e Notas de Aula}, pages = {}, publisher = {UFPR}, address = {Curitiba}, year = {2006}, }

@Manual{GIOLO2007, author = {Giolo, Suely Ruiz}, title = analise_de_regressao, note = {Apostila e Notas de Aula}, pages = {}, publisher = {UFPR}, address = {Curitiba}, year = {2007}, }

@Manual{GIOLO2004, author = {Giolo, Suely Ruiz}, title = analise_de_regressao, note = {Apostila e Notas de Aula}, pages = {}, publisher = {UFPR}, address = {Curitiba}, year = {2004}, }

@Manual{OGLIARI2007, author = {Ogliari, Paulo José}, title = regressao_logistica, note = {Curso On-Line - http://www.inf.ufsc.br/~ogliari/cursoderegressao.html}, pages = {}, publisher = {UFSC}, address = {Curitiba}, year = {2007}, }

@Manual{ANSELMO2006, author = {Chaves Neto, Anselmo}, title = analise_multivariada_ii, note = {Apostila e Notas de Aula}, pages = {}, publisher = {UFPR}, address = {Curitiba}, year = {2006}, }

</bibtex>

Modelos para Redação do TCC


QR Code
QR Code projetos:hipertensao (generated for current page)