그 절차를 사용하지 않는 것이 좋습니다. 나의 추천은 :이 프로젝트를 버린다. 그냥 포기하고 떠나십시오. 당신은이 일에 대한 희망이 없습니다.
이미지 소스
단계적 선택과 관련된 표준 문제를 제외하고 ( 여기 참조 ), 귀하의 경우 그러한 높은 공간에서의 분리로 인해 완벽한 예측을 할 가능성이 큽니다.
귀하의 상황에 대한 구체적인 내용은 없지만 "수십 개의 샘플 만"있다고 진술합니다. 자선을 구하고 90 명을 가지고 있다고 가정 해 봅시다. 또한 "수천 가지 기능"이 있다고 말합니다. 당신이 2,000 명만 가지고 있다고 상상해 봅시다. 간단하게하기 위해 모든 기능이 이진이라고 가정하겠습니다. "몇 가지 기능 만 사용하여 클래스 레이블을 정확하게 예측할 수 있다고 생각합니다."최대 9 개의 기능 만 찾을 수 있다고 가정 해 봅시다. 마지막으로, 관계가 결정론 적이므로 실제 관계가 항상 데이터에 완벽하게 존재한다고 가정 해 봅시다. (이러한 숫자와 가정은 변경할 수 있지만 문제가 더 악화 될뿐입니다.) 이러한 (풍부한) 조건에서 그 관계를 얼마나 잘 회복 할 수 있습니까? 즉, 얼마나 정확한 세트가 완벽한 정확도를 제공하는 유일한 세트일까요? 아니면 우연히도 몇 개의 9 가지 기능 세트가 적합합니까?
일부 (과도한) 간단한 수학 및 시뮬레이션은이 질문에 대한 힌트를 제공해야합니다. 먼저, 각각 9 또는 1 일 수있는 9 개의 변수를 사용하면 관측치에서 표시 할 수있는 패턴의 수는 이지만 관측치 만 90 개입니다. 따라서, 주어진 9 개의 이진 변수 세트에 대해 모든 관측치마다 다른 예측 변수 값 세트가 있으며, 반복 실험이 없습니다. 일부 y = 0 및 일부 y = 1 인 동일한 예측 변수 값으로 반복 실험을 수행하지 않으면 모든 분리를 완벽하게 예측할 수 있으며 모든 관측 값을 완벽하게 예측할 수 있습니다. 29= 512
아래에는 0과 1의 x 값 패턴이없는 빈도를 확인하는 시뮬레이션 (R로 코딩)이 있습니다. 작동 방식은 가능한 패턴을 나타내는 1에서 512까지의 숫자 집합을 얻고 첫 번째 45의 패턴 (0 일 수 있음)이 두 번째 45의 패턴과 일치하는지 확인하는 것입니다. (1 일 수 있음). 이것은 응답 데이터가 완벽하게 균형을 이루고 있다고 가정하여이 문제에 대해 최상의 보호를 제공합니다. y 값이 다른 복제 된 x- 벡터가 있다고해서 실제로 숲에서 벗어날 수는 없습니다. 이는 데이터 세트의 모든 단일 관측 값을 완벽하게 예측할 수 없다는 것을 의미합니다. 여기서 사용하고 있습니다.
set.seed(7938) # this makes the simulation exactly reproducible
my.fun = function(){
x = sample.int(512, size=90, replace=TRUE)
return(sum(x[1:45]%in%x[46:90])==0)
}
n.unique = replicate(10000, my.fun())
mean(n.unique) # [1] 0.0181
시뮬레이션은 9 개의 x- 변수 세트의 약 1.8 %에서이 문제가 발생한다고 제안합니다. 자, 9 세트가 몇 개 있습니까? 엄밀히 말하면 은 9 = 1.3 × 10 24를 선택합니다 (진정한 9 개의 결정적 인과 변수가 설정되어 있기 때문에). 그러나 이러한 세트 중 많은 부분이 겹칠 것입니다. 가있을 것이다 1991 년 / 9 ≈ 221 (가능한 많은 같은 파티션) 당신의 변수의 지정된 파티션 내에서 9의 비 중첩 세트. 따라서, 주어진 파티션 내에서 221 × 0.018 ≈ 4 가있을 것으로 예상 할 수 있습니다1991 9를 선택하십시오 = 1.3 × 10241991 년 / (9) ≈ (221)221 × 0.018 ≈ 4 데이터 세트의 모든 관측치를 완벽하게 예측하는 9 개의 x- 변수 세트.
이 결과는 상대적으로 더 큰 데이터 세트 ( "수천"내), 비교적 적은 수의 변수 ( "수천"내)를 가진 경우에만 모든 단일 관측치가 완벽하게 예측 될 수있는 경우 만 찾습니다 ( 있을 것이다 많은 귀하의 실제 사건 '이 아니라'운동 않을 수 있습니다 등을 거의 완벽하게되어 더 세트). 또한, 우리는 관계가 완벽하게 결정적이라고 규정했다. 관계에 임의의 노이즈가 있으면 어떻게됩니까? 이 경우 데이터를 완벽하게 예측하는 ~ 4 (널) 세트가 있지만 올바른 세트가 아닐 수도 있습니다 .
Tl; dr , 여기서 기본적인 요점은 변수 세트가 너무 크거나 높은 차원이며, 데이터 양이 너무 작아서 가능한 모든 것이 있다는 것입니다. 샘플의 "수십", 변수의 "수천", 어떤 변수가 옳을 지 모르는 세상적인 아이디어가 전혀 없다는 것이 사실이라면, 어떤 절차로든 어디든 갈 수있는 희망이 없습니다. 당신의 시간과 함께 다른 일을하십시오.