6 가지 범주를 구분하기 위해 Random Forest로 분류 모델을 훈련하고 있습니다. 내 거래 데이터에는 약 60k 이상의 관측치와 35 개의 변수가 있습니다. 다음은 대략 어떻게 보이는지에 대한 예입니다.
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
모델이 생성되면 지난 몇 주 동안의 관측치에 점수를 매기고 싶습니다. 시스템에 변화가 생겼을 때, 더 최근의 관측치가 내가 예측하고 싶은 현재 관측치의 환경과 더 유사 할 것입니다. 따라서 랜덤 포레스트가 최근 관측에 더 중요하게 가중되도록 가중치 변수를 만들고 싶습니다.
R의 randomForest 패키지가 관측 당 가중치를 처리 할 수 있는지 아는 사람이 있습니까?
또한 가중치 변수를 만드는 좋은 방법이 무엇인지 제안 해 주시겠습니까? 예를 들어 내 데이터가 2013 년 데이터이므로 날짜의 월 번호를 가중치로 사용할 수 있다고 생각했습니다. 누구 든지이 방법에 문제가 있습니까?
미리 감사드립니다!