Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função library
ou require
library(MultivariateAnalysis)
Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.
Uma possibilidade é utilizando a função read.table
. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função data
.
Este exemplo trata-se de dados multicategóricos em Famílias de Meios Irmãos.
data("Dados.FMI.Quali")
head(Dados.FMI.Quali)
#> Parcela Tratamento Planta Bloco avaliador Angulodafolha Formatodolimbofoliar
#> 1 27 F11B3P2 1 1 1 1 2
#> 2 27 F11B3P2 2 1 1 1 6
#> 3 27 F11B3P2 3 1 1 2 1
#> 4 27 F11B3P2 4 1 1 2 1
#> 5 27 F11B3P2 5 1 1 NA NA
#> 6 27 F11B3P2 6 1 1 2 2
#> Divisaofoliar Divisaofoliarincisao Formatodoapice
#> 1 4 4 4
#> 2 4 2 4
#> 3 4 3 6
#> 4 4 3 6
#> 5 NA NA NA
#> 6 4 2 4
#Obtendo a porcentagem de cada classificação em nível de tratamento.
=Dados.FMI.Quali$Tratamento
Fator=Dados.FMI.Quali[,6:10]
DadosQuali=ApplyDissimilaridade(Dados = DadosQuali,Factor = Fator)
Dados2head(Dados2))
(#> Angulodafolha_1 Angulodafolha_2 Angulodafolha_3 Angulodafolha_4
#> F11B3P2 0.2181818 0.5272727 0.1454545 0.10909091
#> F11B3P4 0.2363636 0.3636364 0.3272727 0.07272727
#> F12B1P1 0.1509434 0.5660377 0.2830189 0.00000000
#> F12B1P2 0.1403509 0.5614035 0.2982456 0.00000000
#> F12B1P5 0.1020408 0.3877551 0.3469388 0.16326531
#> F12B2P2 0.2173913 0.5869565 0.1521739 0.04347826
#> Angulodafolha_5 Formatodolimbofoliar_2 Formatodolimbofoliar_6
#> F11B3P2 0 0.5000000 0.03030303
#> F11B3P4 0 0.2096774 0.00000000
#> F12B1P1 0 0.2833333 0.00000000
#> F12B1P2 0 0.4218750 0.03125000
#> F12B1P5 0 0.3500000 0.00000000
#> F12B2P2 0 0.3877551 0.00000000
#> Formatodolimbofoliar_1 Formatodolimbofoliar_3 Formatodolimbofoliar_5
#> F11B3P2 0.2575758 0.1666667 0.03030303
#> F11B3P4 0.4838710 0.2258065 0.08064516
#> F12B1P1 0.1833333 0.4666667 0.05000000
#> F12B1P2 0.1562500 0.3281250 0.04687500
#> F12B1P5 0.2500000 0.3333333 0.05000000
#> F12B2P2 0.3061224 0.1632653 0.10204082
#> Formatodolimbofoliar_4 Formatodolimbofoliar_7 Divisaofoliar_4
#> F11B3P2 0.01515152 0 0.56666667
#> F11B3P4 0.00000000 0 0.03389831
#> F12B1P1 0.01666667 0 0.00000000
#> F12B1P2 0.01562500 0 0.15000000
#> F12B1P5 0.01666667 0 0.00000000
#> F12B2P2 0.04081633 0 0.04081633
#> Divisaofoliar_2 Divisaofoliar_3 Divisaofoliar_5 Divisaofoliar_7
#> F11B3P2 0.3000000 0.1166667 0.01666667 0.00000000
#> F11B3P4 0.7966102 0.1694915 0.00000000 0.00000000
#> F12B1P1 0.6724138 0.3275862 0.00000000 0.00000000
#> F12B1P2 0.5666667 0.2666667 0.01666667 0.00000000
#> F12B1P5 0.6896552 0.2931034 0.00000000 0.01724138
#> F12B2P2 0.4693878 0.4693878 0.00000000 0.00000000
#> Divisaofoliar_1 Divisaofoliar_0 Divisaofoliar_6 Divisaofoliarincisao_4
#> F11B3P2 0.00000000 0 0 0.45000000
#> F11B3P4 0.00000000 0 0 0.01666667
#> F12B1P1 0.00000000 0 0 0.00000000
#> F12B1P2 0.00000000 0 0 0.08333333
#> F12B1P5 0.00000000 0 0 0.00000000
#> F12B2P2 0.02040816 0 0 0.04081633
#> Divisaofoliarincisao_2 Divisaofoliarincisao_3 Divisaofoliarincisao_1
#> F11B3P2 0.4500000 0.10000000 0.0000000
#> F11B3P4 0.7666667 0.11666667 0.1000000
#> F12B1P1 0.8620690 0.05172414 0.0862069
#> F12B1P2 0.7833333 0.08333333 0.0500000
#> F12B1P5 0.8793103 0.01724138 0.0862069
#> F12B2P2 0.8367347 0.02040816 0.1020408
#> Divisaofoliarincisao_0 Divisaofoliarincisao_11 Divisaofoliarincisao_8
#> F11B3P2 0.00000000 0 0
#> F11B3P4 0.00000000 0 0
#> F12B1P1 0.00000000 0 0
#> F12B1P2 0.00000000 0 0
#> F12B1P5 0.01724138 0 0
#> F12B2P2 0.00000000 0 0
#> Divisaofoliarincisao_6 Divisaofoliarincisao_7 Divisaofoliarincisao_5
#> F11B3P2 0 0 0
#> F11B3P4 0 0 0
#> F12B1P1 0 0 0
#> F12B1P2 0 0 0
#> F12B1P5 0 0 0
#> F12B2P2 0 0 0
#> Formatodoapice_4 Formatodoapice_6 Formatodoapice_8 Formatodoapice_2
#> F11B3P2 0.37500000 0.6250000 0.00000000 0.0000000
#> F11B3P4 0.13725490 0.6470588 0.03921569 0.1764706
#> F12B1P1 0.07843137 0.6666667 0.09803922 0.1568627
#> F12B1P2 0.14000000 0.5600000 0.14000000 0.1600000
#> F12B1P5 0.01851852 0.5740741 0.14814815 0.2407407
#> F12B2P2 0.20000000 0.5777778 0.02222222 0.1777778
#> Formatodoapice_1 Formatodoapice_5 Formatodoapice_0 Formatodoapice_3
#> F11B3P2 0.00000000 0 0 0
#> F11B3P4 0.00000000 0 0 0
#> F12B1P1 0.00000000 0 0 0
#> F12B1P2 0.00000000 0 0 0
#> F12B1P5 0.01851852 0 0 0
#> F12B2P2 0.02222222 0 0 0
Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao Distancia
(?Distancia
).
Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento Metodo
dentro da função Distancia
:
1 = Distancia euclidiana.
2= Distancia euclidiana media.
3 = Quadrado da distancia euclidiana media.
4 = Distancia euclidiana padronizada.
5 = Distancia euclidiana padronizada media.
6 = Quadrado da distancia euclidiana padronizada media.
7 = Distancia de Mahalanobis.
8 = Distancia de Cole Rodgers.
#distancia euclidiana padronizada
=Distancia(Dados2,Metodo = 4) Dist
Informações importantes podem ser obtidas dessa matriz com a função SummaryDistancia
:
=SummaryDistancia(Dist) resumo
resumo#> _________________________________________________________________________
#> Tabela com o resumo da matriz dissimilaridade
#> Medio Minimo Maximo sd MaisProximo MaisDistante
#> F11B3P2 10.48 6.13 13.16 1.64 F22B1P5 Portuguesa
#> F11B3P4 7.20 4.05 12.40 1.98 F8B1P4 F5B1P4
#> F12B1P1 6.47 2.17 12.51 2.52 Manteiga F5B1P4
#> F12B1P2 7.61 4.12 11.80 2.03 F12B2P4 F5B1P4
#> F12B1P5 9.16 6.76 13.85 1.71 F14B4P3 F5B1P4
#> F12B2P2 7.39 3.93 11.85 2.00 F22B1P1 F5B1P4
#> F12B2P3 7.41 4.28 11.86 1.91 F23B4P4 F5B1P4
#> F12B2P4 7.33 3.57 12.80 2.24 F12B1P1 F5B1P4
#> F12B3P1 6.95 3.35 12.60 2.17 F17B1P5 F5B1P4
#> F12B4P3 10.66 9.03 14.35 1.37 F12B3P1 F5B1P4
#> F14B1P1 7.24 3.90 10.92 2.04 F12B1P1 F5B1P4
#> F14B1P5 9.34 6.67 14.46 1.76 F12B3P1 F5B1P4
#> F14B2P3 6.86 3.56 12.37 2.25 F23B4P4 F5B1P4
#> F14B3P2 6.69 3.09 12.59 2.36 F17B1P5 F5B1P4
#> F14B4P1 7.99 6.00 12.55 1.78 F23B4P4 F5B1P4
#> F14B4P3 6.52 3.03 12.26 2.35 Manteiga F5B1P4
#> F14B4P4 11.21 9.26 14.42 1.38 F14B1P1 F5B1P4
#> F17B1P5 6.54 3.09 12.07 2.20 F14B3P2 F5B1P4
#> F18B3P2 10.62 8.48 14.02 1.38 F17B1P5 F5B1P4
#> F18B3P3 9.59 7.69 14.05 1.58 F12B3P1 F5B1P4
#> F21B3P4 6.55 3.15 12.65 2.45 F14B3P2 F5B1P4
#> F22B1P1 7.16 3.93 12.42 2.17 F12B2P2 F5B1P4
#> F22B1P5 10.79 6.13 13.40 1.47 F11B3P2 F14B4P4
#> F22B4P2 7.15 4.58 12.82 2.11 F21B3P4 F5B1P4
#> F23B4P4 6.51 2.87 11.54 2.26 F8B1P4 F5B1P4
#> F24B1P5 7.06 4.36 11.85 2.00 F14B2P3 F5B1P4
#> F4B1P4 10.68 9.03 13.94 1.42 F14B4P3 Portuguesa
#> F4B2P3 8.67 5.99 12.99 1.72 F9B2P3 F5B1P4
#> F5B1P4 12.77 9.81 14.59 1.14 F22B1P5 Portuguesa
#> F7B4P1 9.44 7.15 14.32 1.70 F14B4P3 F5B1P4
#> F8B1P2 9.47 7.24 13.77 1.74 F14B4P3 F5B1P4
#> F8B1P4 7.21 2.87 12.34 2.14 F23B4P4 F5B1P4
#> F9B2P3 7.47 4.65 12.79 2.03 Manteiga F5B1P4
#> Georgia 8.66 3.87 13.80 2.07 Portuguesa F5B1P4
#> Manteiga 6.72 2.17 12.95 2.48 F12B1P1 F5B1P4
#> Portuguesa 10.30 3.87 14.59 2.05 Georgia F5B1P4
#>
#> Menor Distancia: 2.169371
#> Maior Distancia: 14.58522
#> Media das Distancias: 8.330065
#> Amplitude das Distancias: 12.41585
#> Desvio Padrao das Distancias: 2.573037
#> Coeficiente de variacao das Distancias: 30.88856
#> Individuos mais proximos: F12B1P1 Manteiga
#> Individuos mais distantes: F5B1P4 Portuguesa
#> _________________________________________________________________________
A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma com o auxilio da função Dendrograma
. Varios algoritimos podem ser utilizados para a construção deste Dendrograma. Para isso, deve-se indicar no argumento Metodo
:
1 = Ligacao simples (Metodo do vizinho mais proximo).
2 = Ligacao completa (Metodo do vizinho distante).
3 = Ligacao media entre grupo (UPGMA).
4 = Metodo de Ward.
5 = Metodo de ward (d2).
6= Metodo da mediana (WPGMC).
7= Metodo do centroide (UPGMC).
8 = Metodo mcquitty (WPGMA).
#Dendrograma com o metodo UPGMA
=Dendrograma(Dist,Metodo=3) Dendo
$SigCorrelCofenetica
Dendo#> Estimativa de correlacao: 0.9116587
#> P-valor obtido pelo teste Mantel: 0.001
#> Hipotese alternativa: bilateral
$MojenaCorte
Dendo#> k=1.25 k=2
#> 9.668663 11.670184
Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função Tocher
:
#Dendrograma com o metodo UPGMA
=Tocher(Dist) To
$Tocher
To#> $`cluster 1`
#> [1] F12B1P1 Manteiga F14B4P3 F14B3P2 F21B3P4 F17B1P5
#> [7] F23B4P4 F12B3P1 F14B2P3 F22B4P2 F24B1P5 F8B1P4
#> [13] F11B3P4 F12B2P4 F14B1P1 F22B1P1 F12B2P2 F12B1P2
#> [19] F12B2P3 F9B2P3 F14B4P1 F4B2P3 Georgia F12B1P5
#> [25] F14B1P5 F7B4P1 F8B1P2 F18B3P3 Portuguesa
#>
#> $`cluster 2`
#> [1] F11B3P2 F22B1P5
#>
#> $`cluster 3`
#> [1] F12B4P3
#>
#> $`cluster 4`
#> [1] F14B4P4
#>
#> $`cluster 5`
#> [1] F18B3P2
#>
#> $`cluster 6`
#> [1] F4B1P4
#>
#> $`cluster 7`
#> [1] F5B1P4
$DistanciaIntraInterCluster
To#> cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 cluster 6 cluster 7
#> cluster 1 6.913665 10.525979 10.18662 10.76328 10.16810 10.23428 12.75033
#> cluster 2 10.525979 6.129233 12.76782 12.82102 12.30325 12.62523 10.32105
#> cluster 3 10.186625 12.767821 0.00000 13.23156 12.46421 12.11257 14.35269
#> cluster 4 10.763282 12.821023 13.23156 0.00000 13.60951 13.44901 14.42456
#> cluster 5 10.168100 12.303247 12.46421 13.60951 0.00000 12.14783 14.02431
#> cluster 6 10.234282 12.625225 12.11257 13.44901 12.14783 0.00000 13.88823
#> cluster 7 12.750326 10.321047 14.35269 14.42456 14.02431 13.88823 0.00000
$CorrelacaoCofenetica
To#> Estimativa de correlacao: 0.7836556
#> P-valor obtido pelo teste Mantel: 0.001
#> Hipotese alternativa: maior
Outra possibilidade é o estudo da dispersão da matriz de dissimilaridade pelas técnica de coordenadas principais:
=CoordenadasPrincipais(Dist) CO
Logo, quando se tem dados quantitativos faz mais sentido utilizar os componentes principais que coordenadas principais em situações quando irá se considerar a distância euclidiana padronizada.