나는 randomForest를 사용하여 8 가지 변수 (다른 신체 자세와 움직임)를 기반으로 6 가지 동물 행동 (예 : 서기, 걷기, 수영 등)을 분류했습니다.
randomForest 패키지의 MDSplot 은이 출력을 제공하며 결과를 해석하는 데 문제가 있습니다. 나는 동일한 데이터에 대해 PCA를 수행했으며 PC1과 PC2의 모든 클래스 사이에서 이미 좋은 분리를 얻었지만 Dim1과 Dim2는 3 가지 동작을 분리하는 것처럼 보입니다. 이것은이 세 가지 행동이 다른 모든 행동보다 더 유사하지 않다는 것을 의미합니까 (따라서 MDS는 변수간에 가장 큰 비 유사성을 찾으려고하지만 첫 번째 단계에서 모든 변수가 반드시 필요한 것은 아님)? 3 개의 클러스터 (예 : Dim1 및 Dim2)의 위치는 무엇을 나타 냅니까? RI를 처음 사용하기 때문에이 줄거리에 범례를 그리는 데 문제가 있지만 (다른 색상의 의미가 무엇인지 알 수 있지만) 누군가 도움이 될 수 있습니까? 고마워요 !!
RandomForest에서 ClassCenter 함수로 만든 플롯을 추가합니다. 이 함수는 또한 프로토 타입을 플로팅하기 위해 근접 매트릭스 (MDS 플롯과 동일)를 사용합니다. 그러나 여섯 가지 행동에 대한 데이터 포인트를 보면 근접 매트릭스가 프로토 타입을 그랬던 것처럼 이해할 수 없습니다. 또한 홍채 데이터로 클래스 센터 기능을 시도해 보았습니다. 하지만 내 데이터에서 작동하지 않는 것 같습니다 ...
이 플롯에 사용한 코드는 다음과 같습니다.
be.rf <- randomForest(Behaviour~., data=be, prox=TRUE, importance=TRUE)
class1 <- classCenter(be[,-1], be[,1], be.rf$prox)
Protoplot <- plot(be[,4], be[,7], pch=21, xlab=names(be)[4], ylab=names(be)[7], bg=c("red", "green", "blue", "yellow", "turquoise", "orange") [as.numeric(factor(be$Behaviour))])
points(class1[,4], class1[,7], pch=21, cex=2, bg=c("red", "green", "blue", "yellow", "turquoise", "orange"))
내 수업 열이 첫 번째 열이고 그 뒤에 8 개의 예측자가 있습니다. 최고의 예측 변수 두 개를 x와 y로 플로팅했습니다.