답변:
이 결과는 어떤 방법을 사용하든 최적의 의사 결정 규칙 (일명 Bayes 규칙 )에 합리적으로 접근 할 수 있음을 의미합니다 . 근본적인 이유는 Hastie, Tibshirani 및 Friedman의 "통계학 학습 요소" 에 설명되어 있습니다. 그들은 서로 다른 방법들이 Fig. 2.1, 2.2, 2.3, 5.11 (제 1 판-다차원 스플라인 섹션), 12.2, 12.3 (지원 벡터 머신) 및 기타 일부. 그 책을 읽지 않았다면 지금 당장 모든 것을 버리고 읽어야합니다. (직장을 잃을 가치는 없지만 학생이라면 숙제를 놓칠 가치가 있습니다.)
가변 비율에 대한 관찰이 설명이라고 생각하지 않습니다. 위의 이론적 근거에 비추어 볼 때, 당신이 시도한 모든 방법이 식별 할 수 있었던 것은 다차원 공간에서 클래스를 분리하는 경계의 비교적 간단한 형태입니다.
@ seanv507이 제안한 것처럼 유사한 성능은 데이터가 선형 모델로 가장 잘 분리되어 있기 때문일 수 있습니다. 그러나 일반적으로 "가변 비율에 대한 관측치가 너무 높기"때문에 잘못된 진술입니다. 표본 크기 대 변수 수의 비율이 무한대가 되더라도 동일한 예측 바이어스를 제공하지 않는 한 다른 모델이 거의 동일하게 수행 될 것으로 기 대해서는 안됩니다.
가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다.
나는이 설명이 완벽하다고 생각합니다.
이것이 정확하다면, 어떤 모델 대 가변 비율이 다른 모델이 다른 결과를 내기 시작합니까?
이는 아마도 특정 데이터 (예를 들어, 9 개의 변수가 연속적, 요인, 일반 또는 이진인지 여부)와 모델을 피팅하는 동안 결정한 튜닝 결정에 따라 크게 달라집니다.
그러나 변수 수를 늘리는 것이 아니라 관측 수를 줄이면 관측-가변 비율로 해결할 수 있습니다. 무작위로 100 개의 관측 값을 그리고 모형에 적합하며 다른 모형이 다른 결과를 산출하는지 확인합니다. (그럴 것 같습니다.) 총 관측치에서 추출한 다른 샘플을 사용하여 여러 번이 작업을 수행하십시오. 그런 다음 1,000 개의 관측치 ... 10,000 개의 관측치 등의 하위 샘플을보십시오.