일련의 아울렛에 대한 판매 데이터가 있고 시간에 따른 곡선 모양을 기준으로 분류하고 싶습니다. 데이터는 대략 다음과 같습니다 (그러나 무작위는 아니며 일부 누락 된 데이터가 있음).
n.quarters <- 100
n.stores <- 20
if (exists("test.data")){
rm(test.data)
}
for (i in 1:n.stores){
interval <- runif(1, 1, 200)
new.df <- data.frame(
var0 = interval + c(0, cumsum(runif(49, -5, 5))),
date = seq.Date(as.Date("1990-03-30"), by="3 month", length.out=n.quarters),
store = rep(paste("Store", i, sep=""), n.quarters))
if (exists("test.data")){
test.data <- rbind(test.data, new.df)
} else {
test.data <- new.df
}
}
test.data$store <- factor(test.data$store)
R의 곡선 모양 을 기반으로 클러스터링하는 방법을 알고 싶습니다 . 다음 방법을 고려했습니다.
- 각 상점의 var0을 전체 시계열에 대해 0.0과 1.0 사이의 값으로 선형 변환하여 새 열을 만듭니다.
- R 의
kml
패키지 를 사용하여 이러한 변환 된 곡선을 군집화합니다.
두 가지 질문이 있습니다.
- 이것이 합리적인 탐색 적 접근입니까?
- 데이터를
kml
이해할 수 있는 종단 데이터 형식으로 변환 하려면 어떻게해야합니까? 모든 R 스 니펫은 대단히 감사하겠습니다!
kml
있었나요?