선형 판별 분석 (LDA)의 스케일링 값을 사용하여 선형 판별에 설명 변수를 그릴 수 있습니까?

주성분 분석을 통해 얻은 Biplot 값을 사용하여 각 주성분을 구성하는 설명 변수를 탐색 할 수 있습니다. 선형 판별 분석에서도 가능합니까?

제공된 데이터는 "Edgar Anderson의 홍채 데이터"( http://en.wikipedia.org/wiki/Iris_flower_data_set )입니다. 홍채 데이터 는 다음과 같습니다 .

  id  SLength   SWidth  PLength   PWidth species 

   1      5.1      3.5      1.4       .2 setosa 
   2      4.9      3.0      1.4       .2 setosa 
   3      4.7      3.2      1.3       .2 setosa 
   4      4.6      3.1      1.5       .2 setosa 
   5      5.0      3.6      1.4       .2 setosa 
   6      5.4      3.9      1.7       .4 setosa 
   7      4.6      3.4      1.4       .3 setosa 
   8      5.0      3.4      1.5       .2 setosa 
   9      4.4      2.9      1.4       .2 setosa 
  10      4.9      3.1      1.5       .1 setosa 
  11      5.4      3.7      1.5       .2 setosa 
  12      4.8      3.4      1.6       .2 setosa 
  13      4.8      3.0      1.4       .1 setosa 
  14      4.3      3.0      1.1       .1 setosa 
  15      5.8      4.0      1.2       .2 setosa 
  16      5.7      4.4      1.5       .4 setosa 
  17      5.4      3.9      1.3       .4 setosa 
  18      5.1      3.5      1.4       .3 setosa 
  19      5.7      3.8      1.7       .3 setosa 
  20      5.1      3.8      1.5       .3 setosa 
  21      5.4      3.4      1.7       .2 setosa 
  22      5.1      3.7      1.5       .4 setosa 
  23      4.6      3.6      1.0       .2 setosa 
  24      5.1      3.3      1.7       .5 setosa 
  25      4.8      3.4      1.9       .2 setosa 
  26      5.0      3.0      1.6       .2 setosa 
  27      5.0      3.4      1.6       .4 setosa 
  28      5.2      3.5      1.5       .2 setosa 
  29      5.2      3.4      1.4       .2 setosa 
  30      4.7      3.2      1.6       .2 setosa 
  31      4.8      3.1      1.6       .2 setosa 
  32      5.4      3.4      1.5       .4 setosa 
  33      5.2      4.1      1.5       .1 setosa 
  34      5.5      4.2      1.4       .2 setosa 
  35      4.9      3.1      1.5       .2 setosa 
  36      5.0      3.2      1.2       .2 setosa 
  37      5.5      3.5      1.3       .2 setosa 
  38      4.9      3.6      1.4       .1 setosa 
  39      4.4      3.0      1.3       .2 setosa 
  40      5.1      3.4      1.5       .2 setosa 
  41      5.0      3.5      1.3       .3 setosa 
  42      4.5      2.3      1.3       .3 setosa 
  43      4.4      3.2      1.3       .2 setosa 
  44      5.0      3.5      1.6       .6 setosa 
  45      5.1      3.8      1.9       .4 setosa 
  46      4.8      3.0      1.4       .3 setosa 
  47      5.1      3.8      1.6       .2 setosa 
  48      4.6      3.2      1.4       .2 setosa 
  49      5.3      3.7      1.5       .2 setosa 
  50      5.0      3.3      1.4       .2 setosa 
  51      7.0      3.2      4.7      1.4 versicolor 
  52      6.4      3.2      4.5      1.5 versicolor 
  53      6.9      3.1      4.9      1.5 versicolor 
  54      5.5      2.3      4.0      1.3 versicolor 
  55      6.5      2.8      4.6      1.5 versicolor 
  56      5.7      2.8      4.5      1.3 versicolor 
  57      6.3      3.3      4.7      1.6 versicolor 
  58      4.9      2.4      3.3      1.0 versicolor 
  59      6.6      2.9      4.6      1.3 versicolor 
  60      5.2      2.7      3.9      1.4 versicolor 
  61      5.0      2.0      3.5      1.0 versicolor 
  62      5.9      3.0      4.2      1.5 versicolor 
  63      6.0      2.2      4.0      1.0 versicolor 
  64      6.1      2.9      4.7      1.4 versicolor 
  65      5.6      2.9      3.6      1.3 versicolor 
  66      6.7      3.1      4.4      1.4 versicolor 
  67      5.6      3.0      4.5      1.5 versicolor 
  68      5.8      2.7      4.1      1.0 versicolor 
  69      6.2      2.2      4.5      1.5 versicolor 
  70      5.6      2.5      3.9      1.1 versicolor 
  71      5.9      3.2      4.8      1.8 versicolor 
  72      6.1      2.8      4.0      1.3 versicolor 
  73      6.3      2.5      4.9      1.5 versicolor 
  74      6.1      2.8      4.7      1.2 versicolor 
  75      6.4      2.9      4.3      1.3 versicolor 
  76      6.6      3.0      4.4      1.4 versicolor 
  77      6.8      2.8      4.8      1.4 versicolor 
  78      6.7      3.0      5.0      1.7 versicolor 
  79      6.0      2.9      4.5      1.5 versicolor 
  80      5.7      2.6      3.5      1.0 versicolor 
  81      5.5      2.4      3.8      1.1 versicolor 
  82      5.5      2.4      3.7      1.0 versicolor 
  83      5.8      2.7      3.9      1.2 versicolor 
  84      6.0      2.7      5.1      1.6 versicolor 
  85      5.4      3.0      4.5      1.5 versicolor 
  86      6.0      3.4      4.5      1.6 versicolor 
  87      6.7      3.1      4.7      1.5 versicolor 
  88      6.3      2.3      4.4      1.3 versicolor 
  89      5.6      3.0      4.1      1.3 versicolor 
  90      5.5      2.5      4.0      1.3 versicolor 
  91      5.5      2.6      4.4      1.2 versicolor 
  92      6.1      3.0      4.6      1.4 versicolor 
  93      5.8      2.6      4.0      1.2 versicolor 
  94      5.0      2.3      3.3      1.0 versicolor 
  95      5.6      2.7      4.2      1.3 versicolor 
  96      5.7      3.0      4.2      1.2 versicolor 
  97      5.7      2.9      4.2      1.3 versicolor 
  98      6.2      2.9      4.3      1.3 versicolor 
  99      5.1      2.5      3.0      1.1 versicolor 
 100      5.7      2.8      4.1      1.3 versicolor 
 101      6.3      3.3      6.0      2.5 virginica 
 102      5.8      2.7      5.1      1.9 virginica 
 103      7.1      3.0      5.9      2.1 virginica 
 104      6.3      2.9      5.6      1.8 virginica 
 105      6.5      3.0      5.8      2.2 virginica 
 106      7.6      3.0      6.6      2.1 virginica 
 107      4.9      2.5      4.5      1.7 virginica 
 108      7.3      2.9      6.3      1.8 virginica 
 109      6.7      2.5      5.8      1.8 virginica 
 110      7.2      3.6      6.1      2.5 virginica 
 111      6.5      3.2      5.1      2.0 virginica 
 112      6.4      2.7      5.3      1.9 virginica 
 113      6.8      3.0      5.5      2.1 virginica 
 114      5.7      2.5      5.0      2.0 virginica 
 115      5.8      2.8      5.1      2.4 virginica 
 116      6.4      3.2      5.3      2.3 virginica 
 117      6.5      3.0      5.5      1.8 virginica 
 118      7.7      3.8      6.7      2.2 virginica 
 119      7.7      2.6      6.9      2.3 virginica 
 120      6.0      2.2      5.0      1.5 virginica 
 121      6.9      3.2      5.7      2.3 virginica 
 122      5.6      2.8      4.9      2.0 virginica 
 123      7.7      2.8      6.7      2.0 virginica 
 124      6.3      2.7      4.9      1.8 virginica 
 125      6.7      3.3      5.7      2.1 virginica 
 126      7.2      3.2      6.0      1.8 virginica 
 127      6.2      2.8      4.8      1.8 virginica 
 128      6.1      3.0      4.9      1.8 virginica 
 129      6.4      2.8      5.6      2.1 virginica 
 130      7.2      3.0      5.8      1.6 virginica 
 131      7.4      2.8      6.1      1.9 virginica 
 132      7.9      3.8      6.4      2.0 virginica 
 133      6.4      2.8      5.6      2.2 virginica 
 134      6.3      2.8      5.1      1.5 virginica 
 135      6.1      2.6      5.6      1.4 virginica 
 136      7.7      3.0      6.1      2.3 virginica 
 137      6.3      3.4      5.6      2.4 virginica 
 138      6.4      3.1      5.5      1.8 virginica 
 139      6.0      3.0      4.8      1.8 virginica 
 140      6.9      3.1      5.4      2.1 virginica 
 141      6.7      3.1      5.6      2.4 virginica 
 142      6.9      3.1      5.1      2.3 virginica 
 143      5.8      2.7      5.1      1.9 virginica 
 144      6.8      3.2      5.9      2.3 virginica 
 145      6.7      3.3      5.7      2.5 virginica 
 146      6.7      3.0      5.2      2.3 virginica 
 147      6.3      2.5      5.0      1.9 virginica 
 148      6.5      3.0      5.2      2.0 virginica 
 149      6.2      3.4      5.4      2.3 virginica 
 150      5.9      3.0      5.1      1.8 virginica

R의 홍채 데이터 세트를 사용하는 PCA biplot 예 (아래 코드) :

여기에 이미지 설명을 입력하십시오

이 그림은 꽃잎 길이와 꽃잎 너비가 PC1 점수를 결정하고 종 그룹을 구별하는 데 중요하다는 것을 나타냅니다. 세토 사는 꽃잎이 작고 꽃받침이 넓습니다.

분명히 LDA 플롯이 무엇을 나타내는 지 확실하지 않지만 선형 판별 분석 결과를 플롯 팅하여 유사한 결론을 도출 할 수 있습니다. 축은 두 개의 첫 번째 선형 판별 변수입니다 (LD1 99 % 및 LD2 1 % of trace). 레드 벡터의 좌표는 "선형 판별 계수"로도 설명되며 "확장"(lda.fit $ scaling : 관측 값을 판별 함수로 변환하고 그룹 내 공분산 행렬이 구형이되도록 정규화 된 행렬)입니다. "스케일링"은 diag(1/f1, , p)및 으로 계산됩니다 f1 is sqrt(diag(var(x - group.means[g, ]))). https://stackoverflow.com/a/17240647/742447에 설명 된대로 데이터를 선형 판별기에 예측할 수 있습니다 (predict.lda 사용) (아래 코드).). 데이터와 예측 변수는 함께 표시되어 예측 변수를 볼 수있는 증가에 의해 어떤 종을 정의 할 수 있습니다 (일반 PCA biplots 및 위의 PCA biplot에서와 같이).

R의 홍채 데이터 세트를 사용한 LDA biplot 예

이 그림에서 Sepal width, Petal Width 및 Petal Length는 모두 LD1과 비슷한 수준에 기여합니다. 예상대로, setosa는 더 작은 꽃잎과 더 넓은 sepals로 보입니다.

R의 LDA에서 이러한 biplots를 플로팅하는 기본 방법은 없으며 온라인에 대한 토론은 거의 없으므로이 접근법에 대해 경고합니다.

이 LDA 도표 (아래 코드 참조)가 예측 변수 스케일링 점수의 통계적으로 유효한 해석을 제공합니까?

PCA 코드 :

require(grid)

  iris.pca <- prcomp(iris[,-5])
  PC <- iris.pca
  x="PC1"
  y="PC2"
  PCdata <- data.frame(obsnames=iris[,5], PC$x)

  datapc <- data.frame(varnames=rownames(PC$rotation), PC$rotation)
  mult <- min(
    (max(PCdata[,y]) - min(PCdata[,y])/(max(datapc[,y])-min(datapc[,y]))),
    (max(PCdata[,x]) - min(PCdata[,x])/(max(datapc[,x])-min(datapc[,x])))
  )
  datapc <- transform(datapc,
                      v1 = 1.6 * mult * (get(x)),
                      v2 = 1.6 * mult * (get(y))
  )

  datapc$length <- with(datapc, sqrt(v1^2+v2^2))
  datapc <- datapc[order(-datapc$length),]

  p <- qplot(data=data.frame(iris.pca$x),
             main="PCA",
             x=PC1,
             y=PC2,
             shape=iris$Species)
  #p <- p + stat_ellipse(aes(group=iris$Species))
  p <- p + geom_hline(aes(0), size=.2) + geom_vline(aes(0), size=.2)
  p <- p + geom_text(data=datapc, 
                     aes(x=v1, y=v2,
                         label=varnames,
                         shape=NULL,
                         linetype=NULL,
                         alpha=length), 
                     size = 3, vjust=0.5,
                     hjust=0, color="red")
  p <- p + geom_segment(data=datapc, 
                        aes(x=0, y=0, xend=v1,
                            yend=v2, shape=NULL, 
                            linetype=NULL,
                            alpha=length),
                        arrow=arrow(length=unit(0.2,"cm")),
                        alpha=0.5, color="red")
  p <- p + coord_flip()


  print(p)

LDA 코드

#Perform LDA analysis
iris.lda <- lda(as.factor(Species)~.,
                 data=iris)

#Project data on linear discriminants
iris.lda.values <- predict(iris.lda, iris[,-5])

#Extract scaling for each predictor and
data.lda <- data.frame(varnames=rownames(coef(iris.lda)), coef(iris.lda))

#coef(iris.lda) is equivalent to iris.lda$scaling

data.lda$length <- with(data.lda, sqrt(LD1^2+LD2^2))
scale.para <- 0.75

#Plot the results
p <- qplot(data=data.frame(iris.lda.values$x),
           main="LDA",
           x=LD1,
           y=LD2,
           shape=iris$Species)#+stat_ellipse()
p <- p + geom_hline(aes(0), size=.2) + geom_vline(aes(0), size=.2)
p <- p + theme(legend.position="none")
p <- p + geom_text(data=data.lda,
                   aes(x=LD1*scale.para, y=LD2*scale.para,
                       label=varnames, 
                       shape=NULL, linetype=NULL,
                       alpha=length),
                   size = 3, vjust=0.5,
                   hjust=0, color="red")
p <- p + geom_segment(data=data.lda,
                      aes(x=0, y=0,
                          xend=LD1*scale.para, yend=LD2*scale.para,
                          shape=NULL, linetype=NULL,
                          alpha=length),
                      arrow=arrow(length=unit(0.2,"cm")),
                      color="red")
p <- p + coord_flip()

print(p)

LDA의 결과는 다음과 같습니다

lda(as.factor(Species) ~ ., data = iris)

Prior probabilities of groups:
    setosa versicolor  virginica 
 0.3333333  0.3333333  0.3333333 

Group means:
           Sepal.Length Sepal.Width Petal.Length Petal.Width
setosa            5.006       3.428        1.462       0.246
versicolor        5.936       2.770        4.260       1.326
virginica         6.588       2.974        5.552       2.026

Coefficients of linear discriminants:
                    LD1         LD2
Sepal.Length  0.8293776  0.02410215
Sepal.Width   1.5344731  2.16452123
Petal.Length -2.2012117 -0.93192121
Petal.Width  -2.8104603  2.83918785

Proportion of trace:
   LD1    LD2 
0.9912 0.0088

— 에티엔 로데 카리
소스

코드를 따를 수 없습니다 (R 사용자가 아니며 설명 할 수없는 그림과 설명 할 수없는 코드 대신 실제 데이터와 결과 값 을보고 싶습니다 ). 죄송합니다. 당신의 음모는 무엇입니까? 빨간색 벡터의 좌표는 무엇입니까 ? 잠복 또는 변수의 회귀 가중치는 무엇입니까? 데이터 포인뿐만 아니라 무엇을 플롯 했습니까? 무엇입니까 discriminant predictor variable scaling scores? -이 용어는 나에게 흔하고 이상하지 않은 것 같습니다.

— ttnphns 2012 년

@ttnphns : 질문에 반영된 질문 개선을 제안 해 주셔서 감사합니다.

— Etienne Low-Décarie

나는 아직도 무엇인지 모른다 predictor variable scaling scores. 어쩌면 "구별 점수"? 어쨌든, 나는 당신의 관심이 될만한 답변을 추가했습니다.

— ttnphns

답변:

주요 성분 분석 및 선형 판별 분석 출력 ; 홍채 데이터 .

이중화는 다양한 정규화로 그릴 수 있으므로 다르게 보일 수 있기 때문에 이중화를 그리지 않을 것입니다. 나는 R사용자가 아니기 때문에 플롯을 어떻게 생성했는지 추적하고 반복하기가 어렵습니다. 대신, 내가 PCA와 LDA를하고 유사한 방식으로 결과를 보여줍니다 이 (당신은 읽어보십시오). 두 가지 분석 모두 SPSS에서 수행되었습니다.

홍채 데이터 의 주요 구성 요소 :

The analysis will be based on covariances (not correlations) between the 4 variables.

Eigenvalues (component variances) and the proportion of overall variance explained
PC1   4.228241706    .924618723 
PC2    .242670748    .053066483 
PC3    .078209500    .017102610 
PC4    .023835093    .005212184 
# @Etienne's comment: 
# Eigenvalues are obtained in R by
# (princomp(iris[,-5])$sdev)^2 or (prcomp(iris[,-5])$sdev)^2.
# Proportion of variance explained is obtained in R by
# summary(princomp(iris[,-5])) or summary(prcomp(iris[,-5]))

Eigenvectors (cosines of rotation of variables into components)
              PC1           PC2           PC3           PC4
SLength   .3613865918   .6565887713  -.5820298513   .3154871929 
SWidth   -.0845225141   .7301614348   .5979108301  -.3197231037 
PLength   .8566706060  -.1733726628   .0762360758  -.4798389870 
PWidth    .3582891972  -.0754810199   .5458314320   .7536574253    
# @Etienne's comment: 
# This is obtained in R by
# prcomp(iris[,-5])$rotation or princomp(iris[,-5])$loadings

Loadings (eigenvectors normalized to respective eigenvalues;
loadings are the covariances between variables and standardized components)
              PC1           PC2           PC3           PC4
SLength    .743108002    .323446284   -.162770244    .048706863 
SWidth    -.173801015    .359689372    .167211512   -.049360829 
PLength   1.761545107   -.085406187    .021320152   -.074080509 
PWidth     .736738926   -.037183175    .152647008    .116354292    
# @Etienne's comment: 
# Loadings can be obtained in R with
# t(t(princomp(iris[,-5])$loadings) * princomp(iris[,-5])$sdev) or
# t(t(prcomp(iris[,-5])$rotation) * prcomp(iris[,-5])$sdev)

Standardized (rescaled) loadings
(loadings divided by st. deviations of the respective variables)
              PC1           PC2           PC3           PC4
SLength    .897401762     .390604412   -.196566721    .058820016
SWidth    -.398748472     .825228709    .383630296   -.113247642
PLength    .997873942    -.048380599    .012077365   -.041964868
PWidth     .966547516   -.048781602    .200261695    .152648309  

Raw component scores (Centered 4-variable data multiplied by eigenvectors)
     PC1           PC2           PC3           PC4
-2.684125626    .319397247   -.027914828    .002262437 
-2.714141687   -.177001225   -.210464272    .099026550 
-2.888990569   -.144949426    .017900256    .019968390 
-2.745342856   -.318298979    .031559374   -.075575817 
-2.728716537    .326754513    .090079241   -.061258593 
-2.280859633    .741330449    .168677658   -.024200858 
-2.820537751   -.089461385    .257892158   -.048143106 
-2.626144973    .163384960   -.021879318   -.045297871 
-2.886382732   -.578311754    .020759570   -.026744736 
-2.672755798   -.113774246   -.197632725   -.056295401 
... etc.
# @Etienne's comment: 
# This is obtained in R with
# prcomp(iris[,-5])$x or princomp(iris[,-5])$scores.
# Can also be eigenvector normalized for plotting

Standardized (to unit variances) component scores, when multiplied
by loadings return original centered variables.

해석해야 할 경우 일반적으로 주요 구성 요소 (또는 요인 분석의 요인)를 해석하는 고유 벡터가 아닌 하중이라는 점을 강조하는 것이 중요합니다 . 하중은 표준화 된 구성 요소 별 모델링 변수 의 회귀 계수입니다 . 동시에 성분은 서로 관련이 없기 때문에 이러한 성분과 변수 간의 공분산 입니다. 상관 관계와 같은 표준화 된 (축척 된)로드는 1을 초과 할 수 없으며 변수의 불균형 분산 효과가 제거되므로 해석하기가 더 편리합니다.

고유 벡터가 아닌 하중은 일반적으로 구성 요소 점수와 함께 바이 플롯에 나란히 표시됩니다 . 후자는 종종 열 정규화로 표시됩니다.

선형 판별 식 의 홍채 데이터 :

There is 3 classes and 4 variables: min(3-1,4)=2 discriminants can be extracted.
Only the extraction (no classification of data points) will be done.

Eigenvalues and canonical correlations
(Canonical correlation squared is SSbetween/SStotal of ANOVA by that discriminant)
Dis1    32.19192920     .98482089 
Dis2      .28539104     .47119702
# @Etienne's comment:
# In R eigenvalues are expected from
# lda(as.factor(Species)~.,data=iris)$svd, but this produces
#   Dis1       Dis2
# 48.642644  4.579983
# @ttnphns' comment:
# The difference might be due to different computational approach
# (e.g. me used eigendecomposition and R used svd?) and is of no importance.
# Canonical correlations though should be the same.

Eigenvectors (here, column-normalized to SS=1: cosines of rotation of variables into discriminants)
              Dis1          Dis2
SLength  -.2087418215   .0065319640 
SWidth   -.3862036868   .5866105531 
PLength   .5540117156  -.2525615400 
PWidth    .7073503964   .7694530921

Unstandardized discriminant coefficients (proportionally related to eigenvectors)
              Dis1          Dis2
SLength   -.829377642    .024102149 
SWidth   -1.534473068   2.164521235 
PLength   2.201211656   -.931921210 
PWidth    2.810460309   2.839187853
# @Etienne's comment:
# This is obtained in R with
# lda(as.factor(Species)~.,data=iris)$scaling
# which is described as being standardized discriminant coefficients in the function definition.

Standardized discriminant coefficients
              Dis1          Dis2
SLength  -.4269548486   .0124075316 
SWidth   -.5212416758   .7352613085 
PLength   .9472572487  -.4010378190 
PWidth    .5751607719   .5810398645

Pooled within-groups correlations between variables and discriminants
              Dis1          Dis2
SLength   .2225959415   .3108117231 
SWidth   -.1190115149   .8636809224 
PLength   .7060653811   .1677013843 
PWidth    .6331779262   .7372420588 

Discriminant scores (Centered 4-variable data multiplied by unstandardized coefficients)
     Dis1           Dis2
-8.061799783    .300420621 
-7.128687721   -.786660426 
-7.489827971   -.265384488 
-6.813200569   -.670631068 
-8.132309326    .514462530 
-7.701946744   1.461720967 
-7.212617624    .355836209 
-7.605293546   -.011633838 
-6.560551593  -1.015163624 
-7.343059893   -.947319209
... etc.
# @Etienne's comment:
# This is obtained in R with
# predict(lda(as.factor(Species)~.,data=iris), iris[,-5])$x

LDA의 판별 기 추출 계산에 대해서는 여기 를 참조 하십시오 . 우리는 일반적으로 판별 계수 또는 표준화 된 판별 계수로 판별을 해석합니다. 이것은 PCA와 같습니다. 그러나 참고 : 여기의 계수 는 PCA에서와 같이 변수 로 모델링 판별 변수 의 회귀 계수입니다 . 변수는 서로 관련이 없으므로 계수는 변수와 판별 변수 사이의 공분산으로 볼 수 없습니다.

그러나 우리는 판별 자와 변수 사이의 그룹 내 상관 관계를 모은 판별 자의 대안 적 해석 소스 역할을 할 수있는 또 다른 매트릭스를 가지고 있습니다. 판별 기는 PC와 같이 상관되지 않기 때문에이 매트릭스는 PCA의 표준화 된로드와 유사합니다.

PCA에서는 잠재 성을 해석하는 데 도움이되는 유일한 매트릭스 (loading)가 있지만 LDA에는 두 가지 대안 매트릭스가 있습니다. 플롯 (biplot 또는 기타)을 플롯해야하는 경우 계수 또는 상관을 플롯할지 여부를 결정해야합니다.

물론, 홍채 데이터의 PCA에서 구성 요소는 3 가지 클래스가 있다는 것을 "알지"않습니다. 그들은 수업을 차별 할 것으로 기대할 수 없습니다 . 판별 자들은 수업이 있다는 것을 "알고"구별하는 것은 당연한 일입니다.

— ttnphns
소스

따라서 임의의 스케일링 후 "표준화 판별 계수"또는 "변수와 판별 변수 사이의 그룹 내 상관 관계"를 "Discriminant scores"와 동일한 축에 플롯하여 결과를 두 가지 방법으로 해석 할 수 있습니까? 내 질문에 나는 "미분류 점수"와 같은 축에 "표준화되지 않은 판별 계수"를 플로팅했습니다.

— Etienne Low-Décarie

@Etienne 나는 당신이 요청한 세부 사항을이 답변 stats.stackexchange.com/a/48859/3277 의 맨 아래에 추가 했습니다 . 당신의 관대함에 감사드립니다.

— ttnphns

@TLJ는 변수와 표준화 된 구성 요소 사이에 있어야합니다 . 나는 단어를 삽입했다. 제발 참조 여기 : Loadings are the coefficients to predict...뿐만 아니라 여기에 : [Footnote: The components' values...]. 하중은 하중과 이들 간의 공분산으로 인해 표준화 및 직교 성분에서 변수를 계산하는 계수입니다.

— ttnphns

@TLJ, "이것들과 그것들"= 변수와 구성 요소. 당신은 원시 성분 점수를 계산했다고 말했다. 각 성분을 분산 = 1로 표준화합니다. 변수와 성분 간의 공분산을 계산합니다. 그것이 로딩입니다. "표준화"또는 "재조정 된"로딩은 로딩을 st로 나눈 값입니다. 각 변수의 편차.

— ttnphns

로딩 제곱 은 구성 요소가 설명하는 변수 분산의 비율입니다.

— ttnphns

내 이해는 선형 판별 분석의 biplots 가 수행 될 수 있다는 것입니다. 실제로 R 패키지 ggbiplot 및 ggord 에서 구현 되며 다른 기능은 이 StackOverflow 스레드에 게시됩니다 .

또한 M. Greenacre의 "실제로 Biplots"라는 책에는 한 장 (11 장, pdf 참조 )이 있으며 그림 11.5에는 홍채 데이터 세트에 대한 선형 판별 분석의 Biplot이 나와 있습니다.

— 톰 Wenseleers
소스

실제로 multivariatestatistics.org/biplots.html 에서 전체 책을 온라인으로 무료로 이용할 수 있습니다 (챕터 당 하나의 pdf) .

— amoeba

Aha 아무 dodgy 웹 사이트도 필요하지 않습니다. 감사합니다!

— Tom Wenseleers

나는 이것이 1 년 전에 요청 된 것을 알고 있으며, ttnphns는 훌륭하고 깊이있는 답변을 주었지만 PCA와 LDA에 관심이있는 사람들에게 생태 학적 유용성에 대해 몇 가지 의견을 추가 할 것이라고 생각했습니다. 과학은 있지만 통계적 배경은 제한적입니다 (통계 학자 아님).

PCA의 PC는 다차원 데이터 세트의 총 분산을 순차적으로 최대로 설명하는 원래 변수의 선형 조합입니다. 원래 변수만큼 많은 PC가 있습니다. PC가 설명하는 분산의 백분율은 사용 된 유사성 행렬의 고유 값으로 제공되며, 각 새 PC에서 각 원래 변수의 계수는 고유 벡터로 제공됩니다. PCA에는 그룹에 대한 가정이 없습니다. PCA는 데이터에서 여러 변수의 값이 어떻게 변화하는지 (예 : 이중 플롯) 매우 유용합니다. PCA 해석은 바이 플롯에 크게 의존합니다.

LDA는 매우 중요한 이유로 다릅니다. 그룹 간 편차를 최대화하여 새 변수 (LD)를 만듭니다. 이들은 여전히 원래 변수의 선형 조합이지만 각 순차 LD에서 가능한 많은 편차를 설명하는 대신 새 변수를 따라 그룹 간의 차이를 최대화하기 위해 그려집니다. 유사도 행렬 대신 LDA (및 MANOVA)는 그룹 간 및 그룹 내 제곱과 교차 곱의 비교 행렬을 사용합니다. 이 행렬의 고유 벡터 (원래 OP와 관련된 계수)는 원래 변수가 새로운 LD의 형성에 얼마나 기여하는지 설명합니다.

이러한 이유로 PCA의 고유 벡터는 데이터 클라우드에서 변수의 값이 어떻게 변하는 지, 그리고 LDA보다 데이터 세트의 총 분산에 얼마나 중요한지 더 잘 알 수 있습니다. 그러나 LDA, 특히 MANOVA와 조합하면 그룹의 다변량 중심에서의 차이에 대한 통계적 테스트와 각 그룹에 포인트를 할당 할 때의 오차 추정 (다변량 효과 크기)이 제공됩니다. LDA에서 변수가 그룹간에 선형 적으로 (그리고 유의하게) 변하더라도 LD에 대한 계수는 해당 효과의 "척도"를 나타내지 않을 수 있으며 분석에 포함 된 다른 변수에 전적으로 의존합니다.

나는 그것이 분명하기를 바랍니다. 시간 내 줘서 고마워. 아래 그림을 참조하십시오 ...

PC와 LD는 다르게 구성되며 LD에 대한 계수는 데이터 세트에서 원래 변수가 어떻게 다른지에 대한 감각을 제공하지 않을 수 있습니다.

— 단노
소스

이것은 모두 정확하고 나에게서 +1이지만 귀하의 답변이 원래의 질문을 어떻게 처리하는지 잘 모르겠습니다.

— amoeba

나는 당신이 옳다고 생각합니다-나는 이것에 주로 응답했습니다. "주성분 분석을 통해 얻은 biplot 값을 사용하면 각 성분을 구성하는 설명 변수를 탐색 할 수 있습니다. 선형 판별 분석으로도 가능합니까? " -대답은 그렇습니다. 그러나 위에서 설명한 것처럼 그 의미는 매우 다릅니다. 의견과 +1에 감사드립니다!

— danno 2019