Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função library
ou require
library(MultivariateAnalysis)
Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.
Uma possibilidade é utilizando a função read.table
. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função data
.
data("Dados.CAT")
Dados.CAT#> Altura Diam Peso corFlor CorFolha CorCaule MargemFolha CorFruto Sabor Amargo
#> 1 1 2 3 4 1 2 3 1 2 1
#> 2 2 3 2 2 3 3 2 1 1 1
#> 3 3 1 1 2 4 2 3 1 2 3
#> 4 2 1 1 4 1 3 2 2 1 1
#> 5 3 2 2 1 2 2 3 1 2 2
#> 6 2 3 2 2 1 1 2 1 1 1
#> 7 2 3 2 4 2 2 3 2 2 2
#> 8 3 2 4 4 1 1 1 1 1 1
#> 9 1 2 3 4 2 2 3 1 2 1
#> Docura Acidez Resistencia
#> 1 2 3 4
#> 2 1 3 4
#> 3 2 2 2
#> 4 1 3 4
#> 5 2 2 2
#> 6 1 3 3
#> 7 2 2 4
#> 8 1 3 1
#> 9 2 3 1
Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao Distancia
(?Distancia
).
Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento Metodo
dentro da função Distancia
:
9 = Frequencia de coincidencia.
10 = Frequencia de discordancia.
11 = indice Inverso de 1+coincidencia = 1/(1+c)
#colocando nome nos individuos
rownames(Dados.CAT)=paste0("T",1:nrow(Dados.CAT))
=Distancia(Dados.CAT,Metodo = 10)
Dist
Dist#> Medida de dissimilaridade: 10 = Frequencia de discordancia.
#>
#> Menor Distancia: 0.1538462
#> Maior Distancia: 1
#> Media das Distancias: 0.6346154
#> Amplitude das Distancias: 0.8461538
#> Desvio Padrao das Distancias: 0.194058
#> Coeficiente de variacao das Distancias: 30.57883
#> Individuos mais proximos: T1 T9
#> Individuos mais distantes: T4 T5
Informações importantes podem ser obtidas dessa matriz com a função SummaryDistancia
:
=SummaryDistancia(Dist) resumo
resumo#> _________________________________________________________________________
#> Tabela com o resumo da matriz dissimilaridade
#> Medio Minimo Maximo sd MaisProximo MaisDistante
#> T1 0.55 0.15 0.69 0.17 T9 T2
#> T2 0.63 0.23 0.85 0.22 T6 T3
#> T3 0.70 0.38 0.85 0.17 T5 T2
#> T4 0.66 0.38 1.00 0.21 T2 T5
#> T5 0.65 0.38 1.00 0.24 T3 T4
#> T6 0.63 0.23 0.85 0.22 T2 T3
#> T7 0.64 0.38 0.92 0.16 T5 T8
#> T8 0.65 0.46 0.92 0.17 T6 T7
#> T9 0.58 0.15 0.77 0.21 T1 T2
#>
#> Menor Distancia: 0.1538462
#> Maior Distancia: 1
#> Media das Distancias: 0.6346154
#> Amplitude das Distancias: 0.8461538
#> Desvio Padrao das Distancias: 0.194058
#> Coeficiente de variacao das Distancias: 30.57883
#> Individuos mais proximos: T1 T9
#> Individuos mais distantes: T4 T5
#> _________________________________________________________________________
A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma com o auxilio da função Dendrograma
. Varios algoritimos podem ser utilizados para a construção deste Dendrograma. Para isso, deve-se indicar no argumento Metodo
:
1 = Ligacao simples (Metodo do vizinho mais proximo).
2 = Ligacao completa (Metodo do vizinho distante).
3 = Ligacao media entre grupo (UPGMA).
4 = Metodo de Ward.
5 = Metodo de ward (d2).
6= Metodo da mediana (WPGMC).
7= Metodo do centroide (UPGMC).
8 = Metodo mcquitty (WPGMA).
Dendrograma(Dist,Metodo=3)
#> _________________________________________________________________________
#> Estimativa de correlacao cofenetica:
#> [1] 0.7792194
#> Significancia da correlacao cofenetica pelo teste Mantel
#> pvalor: 0.001
#> Hipotese alternativa: A correlacao e maior que 0
#>
#> Ponto de corte pelo metodo Mojena
#> k=1.25 k=2
#> 0.7000256 0.8485666
#> _________________________________________________________________________
Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função Tocher
:
Tocher(Dist)
#> _________________________________________________________________________
#> Agrupamento Tocher
#> Cluster1:
#> T1 T9
#>
#> Cluster2:
#> T2 T6 T4
#>
#> Cluster3:
#> T3 T5
#>
#> Cluster4:
#> T7
#>
#> Cluster5:
#> T8
#>
#> Distancia intra e intercluster:
#> Cluster1 Cluster2 Cluster3 Cluster4 Cluster5
#> Cluster1 0.1538462 0.7179487 0.5576923 0.5384615 0.5384615
#> Cluster2 0.7179487 0.3589744 0.8717949 0.7179487 0.5384615
#> Cluster3 0.5576923 0.8717949 0.3846154 0.5000000 0.8076923
#> Cluster4 0.5384615 0.7179487 0.5000000 0.0000000 0.9230769
#> Cluster5 0.5384615 0.5384615 0.8076923 0.9230769 0.0000000
#>
#>
#> Correlacao Cofenetica: 0.9499247
#> pvalor: 0.001 baseado no teste Mantel
#> Hipotese alternativa: A correlacao e maior que 0
#> _________________________________________________________________________
Outra possibilidade é o estudo da dispersão da matriz de dissimilaridade pelas técnica de coordenadas principais:
CoordenadasPrincipais(Dist)
#> $correction
#> [1] "none" "1"
#>
#> $note
#> [1] "No correction was applied to the negative eigenvalues"
#>
#> $values
#> Eigenvalues Relative_eig Rel_corr_eig Broken_stick Cum_corr_eig
#> 1 0.996230329 0.566878537 0.41684786 0.37040816 0.4168479
#> 2 0.406152779 0.231110504 0.19508289 0.22755102 0.6119308
#> 3 0.249818905 0.142152845 0.13632895 0.15612245 0.7482597
#> 4 0.176413169 0.100383251 0.10874136 0.10850340 0.8570011
#> 5 0.033060094 0.018811973 0.05486591 0.07278912 0.9118670
#> 6 0.012123314 0.006898451 0.04699738 0.04421769 0.9588643
#> 7 0.000000000 0.000000000 0.04113565 0.02040816 1.0000000
#> 8 -0.003473708 -0.001976622 0.00000000 0.00000000 1.0000000
#> 9 -0.112928432 -0.064258940 0.00000000 0.00000000 1.0000000
#> Cumul_br_stick
#> 1 0.3704082
#> 2 0.5979592
#> 3 0.7540816
#> 4 0.8625850
#> 5 0.9353741
#> 6 0.9795918
#> 7 1.0000000
#> 8 1.0000000
#> 9 1.0000000
#>
#> $vectors
#> Axis.1 Axis.2 Axis.3 Axis.4 Axis.5 Axis.6
#> T1 -0.1182268 0.18058233 0.19870590 0.036276834 0.076259210 -0.052287726
#> T2 0.3659021 -0.20430214 -0.05968898 -0.099539812 0.097277781 0.054587540
#> T3 -0.3605134 -0.10009657 -0.22573090 0.280049458 0.028957970 0.000213903
#> T4 0.4096876 -0.10690338 0.17368106 0.201707361 -0.059779916 0.010718830
#> T5 -0.4641318 -0.00906798 -0.15413366 -0.144476741 -0.042281906 0.008586722
#> T6 0.3892343 -0.06530542 -0.17322014 -0.111552237 0.000828563 -0.069440949
#> T7 -0.2574707 -0.31974735 0.19478200 -0.097739688 -0.065580580 -0.004498400
#> T8 0.2593281 0.37783258 -0.10547513 -0.008801214 -0.075475742 0.022873745
#> T9 -0.2238094 0.24700794 0.15107984 -0.055923961 0.039794621 0.029246335
#>
#> $trace
#> [1] 1.757396
#>
#> attr(,"class")
#> [1] "pcoa"