Exemplo: dados qualitativos em FMI

Ativando o pacote

Após a instalação do pacote é preciso ativa-lo. Para isso, deve-se utilizar a função library ou require

library(MultivariateAnalysis)

Abrindo o conjunto de dados

Posteriormente, deve-se carregar no R o conjunto de dados a serem analizados. Isso pode ser feito de diferentes formas.

Uma possibilidade é utilizando a função read.table. Neste exemplo vamos trabalhar com o banco de dados do pacote, o qual pode ser carregado com a função data.

Este exemplo trata-se de dados multicategóricos em Famílias de Meios Irmãos.

data("Dados.FMI.Quali")
head(Dados.FMI.Quali)
#>   Parcela Tratamento Planta Bloco avaliador Angulodafolha Formatodolimbofoliar
#> 1      27    F11B3P2      1     1         1             1                    2
#> 2      27    F11B3P2      2     1         1             1                    6
#> 3      27    F11B3P2      3     1         1             2                    1
#> 4      27    F11B3P2      4     1         1             2                    1
#> 5      27    F11B3P2      5     1         1            NA                   NA
#> 6      27    F11B3P2      6     1         1             2                    2
#>   Divisaofoliar Divisaofoliarincisao Formatodoapice
#> 1             4                    4              4
#> 2             4                    2              4
#> 3             4                    3              6
#> 4             4                    3              6
#> 5            NA                   NA             NA
#> 6             4                    2              4

#Obtendo a porcentagem de cada classificação em nível de tratamento.

Fator=Dados.FMI.Quali$Tratamento
DadosQuali=Dados.FMI.Quali[,6:10]
Dados2=ApplyDissimilaridade(Dados = DadosQuali,Factor = Fator)
(head(Dados2))
#>         Angulodafolha_1 Angulodafolha_2 Angulodafolha_3 Angulodafolha_4
#> F11B3P2       0.2181818       0.5272727       0.1454545      0.10909091
#> F11B3P4       0.2363636       0.3636364       0.3272727      0.07272727
#> F12B1P1       0.1509434       0.5660377       0.2830189      0.00000000
#> F12B1P2       0.1403509       0.5614035       0.2982456      0.00000000
#> F12B1P5       0.1020408       0.3877551       0.3469388      0.16326531
#> F12B2P2       0.2173913       0.5869565       0.1521739      0.04347826
#>         Angulodafolha_5 Formatodolimbofoliar_2 Formatodolimbofoliar_6
#> F11B3P2               0              0.5000000             0.03030303
#> F11B3P4               0              0.2096774             0.00000000
#> F12B1P1               0              0.2833333             0.00000000
#> F12B1P2               0              0.4218750             0.03125000
#> F12B1P5               0              0.3500000             0.00000000
#> F12B2P2               0              0.3877551             0.00000000
#>         Formatodolimbofoliar_1 Formatodolimbofoliar_3 Formatodolimbofoliar_5
#> F11B3P2              0.2575758              0.1666667             0.03030303
#> F11B3P4              0.4838710              0.2258065             0.08064516
#> F12B1P1              0.1833333              0.4666667             0.05000000
#> F12B1P2              0.1562500              0.3281250             0.04687500
#> F12B1P5              0.2500000              0.3333333             0.05000000
#> F12B2P2              0.3061224              0.1632653             0.10204082
#>         Formatodolimbofoliar_4 Formatodolimbofoliar_7 Divisaofoliar_4
#> F11B3P2             0.01515152                      0      0.56666667
#> F11B3P4             0.00000000                      0      0.03389831
#> F12B1P1             0.01666667                      0      0.00000000
#> F12B1P2             0.01562500                      0      0.15000000
#> F12B1P5             0.01666667                      0      0.00000000
#> F12B2P2             0.04081633                      0      0.04081633
#>         Divisaofoliar_2 Divisaofoliar_3 Divisaofoliar_5 Divisaofoliar_7
#> F11B3P2       0.3000000       0.1166667      0.01666667      0.00000000
#> F11B3P4       0.7966102       0.1694915      0.00000000      0.00000000
#> F12B1P1       0.6724138       0.3275862      0.00000000      0.00000000
#> F12B1P2       0.5666667       0.2666667      0.01666667      0.00000000
#> F12B1P5       0.6896552       0.2931034      0.00000000      0.01724138
#> F12B2P2       0.4693878       0.4693878      0.00000000      0.00000000
#>         Divisaofoliar_1 Divisaofoliar_0 Divisaofoliar_6 Divisaofoliarincisao_4
#> F11B3P2      0.00000000               0               0             0.45000000
#> F11B3P4      0.00000000               0               0             0.01666667
#> F12B1P1      0.00000000               0               0             0.00000000
#> F12B1P2      0.00000000               0               0             0.08333333
#> F12B1P5      0.00000000               0               0             0.00000000
#> F12B2P2      0.02040816               0               0             0.04081633
#>         Divisaofoliarincisao_2 Divisaofoliarincisao_3 Divisaofoliarincisao_1
#> F11B3P2              0.4500000             0.10000000              0.0000000
#> F11B3P4              0.7666667             0.11666667              0.1000000
#> F12B1P1              0.8620690             0.05172414              0.0862069
#> F12B1P2              0.7833333             0.08333333              0.0500000
#> F12B1P5              0.8793103             0.01724138              0.0862069
#> F12B2P2              0.8367347             0.02040816              0.1020408
#>         Divisaofoliarincisao_0 Divisaofoliarincisao_11 Divisaofoliarincisao_8
#> F11B3P2             0.00000000                       0                      0
#> F11B3P4             0.00000000                       0                      0
#> F12B1P1             0.00000000                       0                      0
#> F12B1P2             0.00000000                       0                      0
#> F12B1P5             0.01724138                       0                      0
#> F12B2P2             0.00000000                       0                      0
#>         Divisaofoliarincisao_6 Divisaofoliarincisao_7 Divisaofoliarincisao_5
#> F11B3P2                      0                      0                      0
#> F11B3P4                      0                      0                      0
#> F12B1P1                      0                      0                      0
#> F12B1P2                      0                      0                      0
#> F12B1P5                      0                      0                      0
#> F12B2P2                      0                      0                      0
#>         Formatodoapice_4 Formatodoapice_6 Formatodoapice_8 Formatodoapice_2
#> F11B3P2       0.37500000        0.6250000       0.00000000        0.0000000
#> F11B3P4       0.13725490        0.6470588       0.03921569        0.1764706
#> F12B1P1       0.07843137        0.6666667       0.09803922        0.1568627
#> F12B1P2       0.14000000        0.5600000       0.14000000        0.1600000
#> F12B1P5       0.01851852        0.5740741       0.14814815        0.2407407
#> F12B2P2       0.20000000        0.5777778       0.02222222        0.1777778
#>         Formatodoapice_1 Formatodoapice_5 Formatodoapice_0 Formatodoapice_3
#> F11B3P2       0.00000000                0                0                0
#> F11B3P4       0.00000000                0                0                0
#> F12B1P1       0.00000000                0                0                0
#> F12B1P2       0.00000000                0                0                0
#> F12B1P5       0.01851852                0                0                0
#> F12B2P2       0.02222222                0                0                0

Obtenção de medidas de dissimilaridade

Muitas são as opções que este pacote oferece de medidas de dissimilaridade. Convidamos os usuários a ler o manual da funcao Distancia (?Distancia).

Para se ter diferentes medidas de dissimilaridade basta colocar o respectivo numero no argumento Metodo dentro da função Distancia:

Dados quantitativos

1 = Distancia euclidiana.

2= Distancia euclidiana media.

3 = Quadrado da distancia euclidiana media.

4 = Distancia euclidiana padronizada.

5 = Distancia euclidiana padronizada media.

6 = Quadrado da distancia euclidiana padronizada media.

7 = Distancia de Mahalanobis.

8 = Distancia de Cole Rodgers.

#distancia euclidiana padronizada
Dist=Distancia(Dados2,Metodo = 4)

Informações importantes podem ser obtidas dessa matriz com a função SummaryDistancia:

resumo=SummaryDistancia(Dist)

resumo
#> _________________________________________________________________________ 
#> Tabela com o resumo da matriz dissimilaridade 
#>            Medio Minimo Maximo   sd MaisProximo MaisDistante
#> F11B3P2    10.48   6.13  13.16 1.64     F22B1P5   Portuguesa
#> F11B3P4     7.20   4.05  12.40 1.98      F8B1P4       F5B1P4
#> F12B1P1     6.47   2.17  12.51 2.52    Manteiga       F5B1P4
#> F12B1P2     7.61   4.12  11.80 2.03     F12B2P4       F5B1P4
#> F12B1P5     9.16   6.76  13.85 1.71     F14B4P3       F5B1P4
#> F12B2P2     7.39   3.93  11.85 2.00     F22B1P1       F5B1P4
#> F12B2P3     7.41   4.28  11.86 1.91     F23B4P4       F5B1P4
#> F12B2P4     7.33   3.57  12.80 2.24     F12B1P1       F5B1P4
#> F12B3P1     6.95   3.35  12.60 2.17     F17B1P5       F5B1P4
#> F12B4P3    10.66   9.03  14.35 1.37     F12B3P1       F5B1P4
#> F14B1P1     7.24   3.90  10.92 2.04     F12B1P1       F5B1P4
#> F14B1P5     9.34   6.67  14.46 1.76     F12B3P1       F5B1P4
#> F14B2P3     6.86   3.56  12.37 2.25     F23B4P4       F5B1P4
#> F14B3P2     6.69   3.09  12.59 2.36     F17B1P5       F5B1P4
#> F14B4P1     7.99   6.00  12.55 1.78     F23B4P4       F5B1P4
#> F14B4P3     6.52   3.03  12.26 2.35    Manteiga       F5B1P4
#> F14B4P4    11.21   9.26  14.42 1.38     F14B1P1       F5B1P4
#> F17B1P5     6.54   3.09  12.07 2.20     F14B3P2       F5B1P4
#> F18B3P2    10.62   8.48  14.02 1.38     F17B1P5       F5B1P4
#> F18B3P3     9.59   7.69  14.05 1.58     F12B3P1       F5B1P4
#> F21B3P4     6.55   3.15  12.65 2.45     F14B3P2       F5B1P4
#> F22B1P1     7.16   3.93  12.42 2.17     F12B2P2       F5B1P4
#> F22B1P5    10.79   6.13  13.40 1.47     F11B3P2      F14B4P4
#> F22B4P2     7.15   4.58  12.82 2.11     F21B3P4       F5B1P4
#> F23B4P4     6.51   2.87  11.54 2.26      F8B1P4       F5B1P4
#> F24B1P5     7.06   4.36  11.85 2.00     F14B2P3       F5B1P4
#> F4B1P4     10.68   9.03  13.94 1.42     F14B4P3   Portuguesa
#> F4B2P3      8.67   5.99  12.99 1.72      F9B2P3       F5B1P4
#> F5B1P4     12.77   9.81  14.59 1.14     F22B1P5   Portuguesa
#> F7B4P1      9.44   7.15  14.32 1.70     F14B4P3       F5B1P4
#> F8B1P2      9.47   7.24  13.77 1.74     F14B4P3       F5B1P4
#> F8B1P4      7.21   2.87  12.34 2.14     F23B4P4       F5B1P4
#> F9B2P3      7.47   4.65  12.79 2.03    Manteiga       F5B1P4
#> Georgia     8.66   3.87  13.80 2.07  Portuguesa       F5B1P4
#> Manteiga    6.72   2.17  12.95 2.48     F12B1P1       F5B1P4
#> Portuguesa 10.30   3.87  14.59 2.05     Georgia       F5B1P4
#> 
#> Menor Distancia: 2.169371 
#> Maior Distancia: 14.58522 
#> Media das Distancias: 8.330065 
#> Amplitude das Distancias: 12.41585 
#> Desvio Padrao das Distancias: 2.573037 
#> Coeficiente de variacao das Distancias: 30.88856 
#> Individuos mais proximos: F12B1P1 Manteiga 
#> Individuos mais distantes: F5B1P4 Portuguesa 
#> _________________________________________________________________________

A fim de resumir as informações da matriz de dissimilaridade a fim de melhorar a visualização da dissimilaridade, pode-se fazer um Dendrograma com o auxilio da função Dendrograma. Varios algoritimos podem ser utilizados para a construção deste Dendrograma. Para isso, deve-se indicar no argumento Metodo:

1 = Ligacao simples (Metodo do vizinho mais proximo).

2 = Ligacao completa (Metodo do vizinho distante).

3 = Ligacao media entre grupo (UPGMA).

4 = Metodo de Ward.

5 = Metodo de ward (d2).

6= Metodo da mediana (WPGMC).

7= Metodo do centroide (UPGMC).

8 = Metodo mcquitty (WPGMA).

#Dendrograma com o metodo UPGMA
Dendo=Dendrograma(Dist,Metodo=3)

Dendo$SigCorrelCofenetica
#> Estimativa de correlacao:  0.9116587 
#> P-valor obtido pelo teste Mantel:  0.001 
#> Hipotese alternativa:  bilateral
Dendo$MojenaCorte
#>    k=1.25       k=2 
#>  9.668663 11.670184

Adcionalmente, pode-se fazer o agrupamento Tocher com o auxilio da função Tocher:

#Dendrograma com o metodo UPGMA
To=Tocher(Dist)

To$Tocher
#> $`cluster 1`
#>  [1] F12B1P1    Manteiga   F14B4P3    F14B3P2    F21B3P4    F17B1P5   
#>  [7] F23B4P4    F12B3P1    F14B2P3    F22B4P2    F24B1P5    F8B1P4    
#> [13] F11B3P4    F12B2P4    F14B1P1    F22B1P1    F12B2P2    F12B1P2   
#> [19] F12B2P3    F9B2P3     F14B4P1    F4B2P3     Georgia    F12B1P5   
#> [25] F14B1P5    F7B4P1     F8B1P2     F18B3P3    Portuguesa
#> 
#> $`cluster 2`
#> [1] F11B3P2 F22B1P5
#> 
#> $`cluster 3`
#> [1] F12B4P3
#> 
#> $`cluster 4`
#> [1] F14B4P4
#> 
#> $`cluster 5`
#> [1] F18B3P2
#> 
#> $`cluster 6`
#> [1] F4B1P4
#> 
#> $`cluster 7`
#> [1] F5B1P4
To$DistanciaIntraInterCluster
#>           cluster 1 cluster 2 cluster 3 cluster 4 cluster 5 cluster 6 cluster 7
#> cluster 1  6.913665 10.525979  10.18662  10.76328  10.16810  10.23428  12.75033
#> cluster 2 10.525979  6.129233  12.76782  12.82102  12.30325  12.62523  10.32105
#> cluster 3 10.186625 12.767821   0.00000  13.23156  12.46421  12.11257  14.35269
#> cluster 4 10.763282 12.821023  13.23156   0.00000  13.60951  13.44901  14.42456
#> cluster 5 10.168100 12.303247  12.46421  13.60951   0.00000  12.14783  14.02431
#> cluster 6 10.234282 12.625225  12.11257  13.44901  12.14783   0.00000  13.88823
#> cluster 7 12.750326 10.321047  14.35269  14.42456  14.02431  13.88823   0.00000
To$CorrelacaoCofenetica
#> Estimativa de correlacao:  0.7836556 
#> P-valor obtido pelo teste Mantel:  0.001 
#> Hipotese alternativa:  maior

Outra possibilidade é o estudo da dispersão da matriz de dissimilaridade pelas técnica de coordenadas principais:


CO=CoordenadasPrincipais(Dist)

Logo, quando se tem dados quantitativos faz mais sentido utilizar os componentes principais que coordenadas principais em situações quando irá se considerar a distância euclidiana padronizada.