Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função library
ou require
library(MultivariateAnalysis)
Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.
Uma possibilidade é utilizando a função read.table
. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função data
.
Este exemplo trata-se de dados binarios vindo do uso de marcadores moleculares em cinco individuos.
data("Dados.DBC")
head(Dados.DBC)
#> Trat Bloco Altura MS Diam Ramificacoes1 Ramificacoes2 Infloresc
#> 1 Variedade1 1 74.00 14.43 7.87 24.67 6.33 8.67
#> 2 Variedade1 2 89.00 17.00 8.58 29.67 4.33 9.33
#> 3 Variedade1 3 82.00 20.13 10.60 27.33 7.33 12.00
#> 4 Variedade1 4 84.00 16.43 9.25 28.00 4.67 9.67
#> 5 Variedade1 5 70.33 17.67 10.86 23.44 6.00 11.33
#> 6 Variedade2 1 80.00 17.87 7.94 26.67 7.00 10.00
#> P.Sementes Germinacao TeorOleo
#> 1 3.29 6 23.10165
#> 2 6.02 9 24.55870
#> 3 4.74 5 26.02185
#> 4 2.63 6 24.74041
#> 5 5.00 11 21.56860
#> 6 7.00 4 24.40737
Quando se quer saber se há diferença entre os “Tratamentos” do ponto de vista multivariado, pode-se fazer a analise de variância multivariada. Para isso, deve-se utilizar a função MANOVA
. Dessa função deve-se considerar o delineamento desejado no argumento Modelo
:
1 = Delineamento inteiramente casualizado (DIC)
2 = Delineamento em blocos casualizados (DBC)
3 = Delineamento em quadrado latino (DQL)
4 = Esquema fatorial em DIC
5 = Esquema fatorial em DBC
=MANOVA(Dados.DBC,Modelo=2)
Res
Res#> __________________________________________________________________________
#> MANOVA com o teste Pillai
#> Df Pillai approx F num Df den Df Pr(>F)
#> Trat 8 3.411127 2.560419 72 248 3.880336e-08
#> Bloco 4 1.019523 1.026201 36 108 4.442012e-01
#> Residuals 32 NA NA NA NA NA
#>
#> MANOVA com o teste Wilks
#> Df Wilks approx F num Df den Df Pr(>F)
#> Trat 8 0.002246763 3.679642 72 153.56564 6.798548e-12
#> Bloco 4 0.283651653 1.017762 36 91.67642 4.587262e-01
#> Residuals 32 NA NA NA NA NA
#>
#> MANOVA com o teste Hotelling
#> Df Hotelling-Lawley approx F num Df den Df Pr(>F)
#> Trat 8 14.419230 4.4559425 72 178 3.245337e-16
#> Bloco 4 1.598183 0.9988647 36 90 4.856844e-01
#> Residuals 32 NA NA NA NA NA
#>
#> MANOVA com o teste Roy
#> Df Roy approx F num Df den Df Pr(>F)
#> Trat 8 7.0404856 24.250562 9 31 1.212498e-11
#> Bloco 4 0.7942662 2.382799 9 27 3.921100e-02
#> Residuals 32 NA NA NA NA NA
#>
#> As medias dos tratamentos podem ser acessados com o $Med
#> Os Graus de liberdade do residuo podem ser acessados com o $GLres
#> A matriz de (co)variancias residuais pode ser acessada com o $CovarianciaResidual
#> __________________________________________________________________________
Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao Distancia
(?Distancia
).
Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento Metodo
dentro da função Distancia
:
1 = Distancia euclidiana.
2= Distancia euclidiana media.
3 = Quadrado da distancia euclidiana media.
4 = Distancia euclidiana padronizada.
5 = Distancia euclidiana padronizada media.
6 = Quadrado da distancia euclidiana padronizada media.
7 = Distancia de Mahalanobis.
8 = Distancia de Cole Rodgers.
#colocando nome nos individuos
=Res$Med
DadosMed=Distancia(DadosMed,Metodo = 7,Cov = Res$CovarianciaResidual)
Dist
Dist#> Medida de dissimilaridade: 7 = Distancia de Mahalanobis.
#>
#> Menor Distancia: 3.657931
#> Maior Distancia: 47.26671
#> Media das Distancias: 23.07077
#> Amplitude das Distancias: 43.60877
#> Desvio Padrao das Distancias: 11.57168
#> Coeficiente de variacao das Distancias: 50.15731
#> Individuos mais proximos: Variedade7 Variedade9
#> Individuos mais distantes: Variedade6 Variedade7
Informações importantes podem ser obtidas dessa matriz com a função SummaryDistancia
:
=SummaryDistancia(Dist) resumo
resumo#> _________________________________________________________________________
#> Tabela com o resumo da matriz dissimilaridade
#> Medio Minimo Maximo sd MaisProximo MaisDistante
#> Variedade1 20.88 4.95 34.03 10.07 Variedade6 Variedade8
#> Variedade2 15.16 8.61 23.06 5.19 Variedade9 Variedade6
#> Variedade3 25.14 11.00 42.77 11.76 Variedade2 Variedade6
#> Variedade4 22.65 11.13 41.38 10.42 Variedade6 Variedade7
#> Variedade5 21.39 9.65 41.85 10.08 Variedade9 Variedade6
#> Variedade6 30.09 4.95 47.27 15.50 Variedade1 Variedade7
#> Variedade7 25.07 3.66 47.27 15.35 Variedade9 Variedade6
#> Variedade8 28.92 18.54 36.74 7.09 Variedade4 Variedade3
#> Variedade9 18.33 3.66 35.78 11.19 Variedade7 Variedade6
#>
#> Menor Distancia: 3.657931
#> Maior Distancia: 47.26671
#> Media das Distancias: 23.07077
#> Amplitude das Distancias: 43.60877
#> Desvio Padrao das Distancias: 11.57168
#> Coeficiente de variacao das Distancias: 50.15731
#> Individuos mais proximos: Variedade7 Variedade9
#> Individuos mais distantes: Variedade6 Variedade7
#> _________________________________________________________________________
A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma com o auxilio da função Dendrograma
. Varios algoritimos podem ser utilizados para a construção deste Dendrograma. Para isso, deve-se indicar no argumento Metodo
:
1 = Ligacao simples (Metodo do vizinho mais proximo).
2 = Ligacao completa (Metodo do vizinho distante).
3 = Ligacao media entre grupo (UPGMA).
4 = Metodo de Ward.
5 = Metodo de ward (d2).
6= Metodo da mediana (WPGMC).
7= Metodo do centroide (UPGMC).
8 = Metodo mcquitty (WPGMA).
#Dendrograma com o metodo UPGMA
Dendrograma(Dist,Metodo=3)
#> _________________________________________________________________________
#> Estimativa de correlacao cofenetica:
#> [1] 0.7485545
#> Significancia da correlacao cofenetica pelo teste Mantel
#> pvalor: 0.001
#> Hipotese alternativa: A correlacao e maior que 0
#>
#> Ponto de corte pelo metodo Mojena
#> k=1.25 k=2
#> 26.75410 34.00763
#> _________________________________________________________________________
Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função Tocher
:
#Dendrograma com o metodo UPGMA
Tocher(Dist)
#> _________________________________________________________________________
#> Agrupamento Tocher
#> Cluster1:
#> Variedade7 Variedade9 Variedade5 Variedade2 Variedade3
#>
#> Cluster2:
#> Variedade1 Variedade6 Variedade4
#>
#> Cluster3:
#> Variedade8
#>
#> Distancia intra e intercluster:
#> Cluster1 Cluster2 Cluster3
#> Cluster1 12.67463 29.49025 28.98313
#> Cluster2 29.49025 10.02584 28.81815
#> Cluster3 28.98313 28.81815 0.00000
#>
#>
#> Correlacao Cofenetica: 0.7279256
#> pvalor: 0.003 baseado no teste Mantel
#> Hipotese alternativa: A correlacao e maior que 0
#> _________________________________________________________________________
###Outra possibilidade é o estudo dos componentes principais:
ComponentesPrincipais(DadosMed,padronizar = TRUE)
#> $`Autovalor da matriz de covariancia`
#> [1] 4.6673 2.1446 1.2643 0.5185 0.2047 0.1669 0.0238 0.0098 0.0000
#>
#> $`Autovetor da matriz de covariancia`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
#> [1,] -0.3349 0.3823 -0.2001 -0.3611 -0.4281 -0.1438 0.3823 0.2176 0.4169
#> [2,] -0.4045 -0.1715 -0.1144 0.3121 0.6123 -0.3986 0.3558 0.0673 0.1776
#> [3,] -0.3320 -0.3749 -0.1491 -0.4508 0.1210 0.5160 0.3397 -0.2272 -0.2754
#> [4,] -0.2637 0.4996 -0.2116 -0.3148 0.2703 -0.2694 -0.3985 -0.3815 -0.2951
#> [5,] 0.3409 -0.3744 -0.3008 -0.2426 -0.0076 -0.2344 -0.0911 -0.5078 0.5226
#> [6,] 0.3946 -0.1801 -0.2902 -0.3517 0.0453 -0.4234 0.1607 0.4482 -0.4426
#> [7,] 0.3767 0.3729 -0.0016 0.2294 -0.0303 -0.0184 0.6350 -0.4621 -0.2199
#> [8,] 0.1141 0.0444 0.7960 -0.4713 0.2663 -0.1525 0.1243 -0.0148 0.1395
#> [9,] 0.3429 0.3473 -0.2674 -0.1124 0.5293 0.4730 -0.0179 0.2803 0.3081
#>
#> $`Escores dos componentes principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
#> Variedade1 -1.3523 -1.6250 0.6574 -0.4684 -0.1801 -0.1322 -0.2428 0.1398 0
#> Variedade2 0.2650 -0.9987 -0.4955 0.6115 -0.3303 -0.7992 0.1790 0.0099 0
#> Variedade3 -0.5878 0.2284 0.1220 1.6153 0.4659 0.1844 -0.1272 -0.0162 0
#> Variedade4 -0.1723 -0.8748 -1.3782 -0.1515 0.1346 0.6242 0.1929 0.1095 0
#> Variedade5 3.6273 -0.2689 -1.4413 -0.4755 0.1051 -0.0607 -0.1662 -0.0964 0
#> Variedade6 -3.2585 -1.0656 0.3857 -0.5407 0.1604 0.0783 0.0540 -0.1813 0
#> Variedade7 1.4232 1.2448 1.3803 -0.5637 0.7459 -0.2466 0.1044 0.0538 0
#> Variedade8 -2.1243 3.1462 -0.8592 -0.2212 -0.3769 -0.0716 -0.0465 0.0186 0
#> Variedade9 2.1797 0.2137 1.6288 0.1942 -0.7247 0.4235 0.0523 -0.0378 0
#>
#> $`Correlacao entre as variaveis e os comp. principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
#> Altura -0.7234 0.5599 -0.2250 -0.2600 -0.1937 -0.0588 0.0590 0.0216
#> MS -0.8738 -0.2511 -0.1286 0.2247 0.2770 -0.1628 0.0549 0.0067
#> Diam -0.7172 -0.5490 -0.1676 -0.3246 0.0548 0.2108 0.0524 -0.0225
#> Ramificacoes1 -0.5696 0.7316 -0.2380 -0.2267 0.1223 -0.1101 -0.0615 -0.0378
#> Ramificacoes2 0.7366 -0.5483 -0.3382 -0.1747 -0.0034 -0.0958 -0.0141 -0.0504
#> Infloresc 0.8526 -0.2638 -0.3263 -0.2532 0.0205 -0.1730 0.0248 0.0445
#> P.Sementes 0.8139 0.5461 -0.0018 0.1652 -0.0137 -0.0075 0.0980 -0.0458
#> Germinacao 0.2465 0.0650 0.8951 -0.3393 0.1205 -0.0623 0.0192 -0.0015
#> TeorOleo 0.7409 0.5086 -0.3007 -0.0809 0.2394 0.1932 -0.0028 0.0278
#> [,9]
#> Altura -0.0789
#> MS -0.1333
#> Diam -0.1947
#> Ramificacoes1 -0.0114
#> Ramificacoes2 0.0325
#> Infloresc 0.1854
#> P.Sementes 0.3489
#> Germinacao 0.1884
#> TeorOleo 0.3735
#>
#> $`Explicacao dos componentes principais`
#> [,1] [,2] [,3] [,4] [,5] [,6] [,7]
#> Autovalor 4.6673 2.1446 1.2643 0.5185 0.2047 0.1669 0.0238
#> % Explicacao 51.8592 23.8290 14.0482 5.7612 2.2739 1.8542 0.2649
#> % Explicacao Acumulada 51.8592 75.6882 89.7364 95.4976 97.7716 99.6257 99.8906
#> [,8] [,9]
#> Autovalor 0.0098 0
#> % Explicacao 0.1094 0
#> % Explicacao Acumulada 100.0000 100
###Porém, quando se tem repetições, o mais indicado é o estudo de variáveis canônicas:
Para isso, deve-se indicar qual é o Modelo
referente ao delineamento:
1 = Delineamento inteiramente casualizado (DIC)
2 = Delineamento em blocos casualizados (DBC)
3 = Delineamento em quadrado latino (DQL)
4 = Esquema fatorial em DIC
5 = Esquema fatorial em DBC
VariaveisCanonicas(Dados.DBC,Modelo = 2,)
#> __________________________________________________________________
#> Estudo das variaveis canonicas
#>
#> Explicacao das variaveis canonicas
#> CanRsq Autovalor Porcentagem PorcentagemAcumulada
#> VC1 0.8756 7.0405 48.8271 48.8271
#> VC2 0.7799 3.5429 24.5708 73.3979
#> VC3 0.6219 1.6445 11.4048 84.8027
#> VC4 0.5861 1.4160 9.8203 94.6229
#> VC5 0.3631 0.5701 3.9537 98.5766
#> VC6 0.1265 0.1448 1.0041 99.5807
#> VC7 0.0458 0.0480 0.3332 99.9138
#> VC8 0.0123 0.0124 0.0862 100.0000
#>
#> Escores das variaveis canonicas
#> Can1 Can2 Can3 Can4 Can5 Can6 Can7 Can8
#> Variedade1 -1.9220 1.9665 0.7113 0.0915 0.2706 0.3454 -0.0806 0.1822
#> Variedade2 0.3394 0.3677 -0.7531 -0.1462 1.5286 0.0764 0.1822 -0.0743
#> Variedade3 2.1634 0.9320 -2.4979 0.2026 -0.4863 0.0084 -0.1527 0.0262
#> Variedade4 -2.5448 -1.0317 -0.5459 -1.2742 -0.4535 -0.3795 0.2576 0.0708
#> Variedade5 1.5205 -1.3708 0.7359 -1.9637 -0.1280 0.3503 -0.1783 -0.0546
#> Variedade6 -3.7660 1.3411 0.2066 0.4908 -0.4275 -0.0175 -0.1064 -0.1731
#> Variedade7 3.0204 0.8747 0.9996 0.7279 -0.6974 0.1760 0.3149 -0.0281
#> Variedade8 -0.7784 -3.4833 -0.0100 1.6393 0.0669 0.1367 -0.0561 0.0311
#> Variedade9 1.9673 0.4037 1.1536 0.2320 0.3266 -0.6962 -0.1807 0.0198
#>
#> Importancia
#> Correlacao das caracteristicas com os escores das variaveis canonicas
#> Can1 Can2 Can3 Can4 Can5 Can6 Can7 Can8
#> Altura -0.5068 -0.5382 -0.0191 0.6547 -0.0377 0.1447 0.0426 -0.0206
#> MS -0.6135 0.2816 -0.5947 0.3138 -0.0387 0.2482 0.1324 -0.1074
#> Diam -0.9458 0.2711 -0.0576 -0.0525 -0.1497 0.0365 0.0408 -0.0195
#> Ramificacoes1 -0.2429 -0.5770 -0.0722 0.6302 -0.2687 0.3483 0.0590 -0.0932
#> Ramificacoes2 0.1679 0.0651 0.2481 -0.9149 0.2244 0.1016 0.0469 -0.0779
#> Infloresc 0.3547 -0.1273 0.3583 -0.7971 0.1974 0.1567 0.1693 -0.0448
#> P.Sementes 0.8577 -0.4350 0.1461 -0.1432 -0.0002 -0.1638 0.0386 -0.0701
#> Germinacao 0.3916 0.5167 0.6456 0.3348 -0.1817 -0.1023 0.0807 -0.0263
#> TeorOleo 0.6211 -0.5821 0.1540 -0.3572 -0.3329 0.0095 0.1138 0.0127
#> __________________________________________________________________