여러 유형의 모델이 왜 거의 동일한 결과를 낼 수 있습니까?


10

~ 400k 레코드와 9 개 변수의 데이터 세트를 분석했습니다. 종속 변수는 이진입니다. 로지스틱 회귀, 회귀 트리, 임의의 숲 및 그라디언트 강화 트리를 장착했습니다. 다른 데이터 세트에서 유효성을 검사 할 때 모두 동일한 똑같은 적합도를 제공합니다.

왜 그렇습니까? 가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다. 이것이 정확하다면, 어떤 모델 대 가변 비율이 다른 모델이 다른 결과를 내기 시작합니까?

답변:


7

이 결과는 어떤 방법을 사용하든 최적의 의사 결정 규칙 (일명 Bayes 규칙 )에 합리적으로 접근 할 수 있음을 의미합니다 . 근본적인 이유는 Hastie, Tibshirani 및 Friedman의 "통계학 학습 요소" 에 설명되어 있습니다. 그들은 서로 다른 방법들이 Fig. 2.1, 2.2, 2.3, 5.11 (제 1 판-다차원 스플라인 섹션), 12.2, 12.3 (지원 벡터 머신) 및 기타 일부. 그 책을 읽지 않았다면 지금 당장 모든 것을 버리고 읽어야합니다. (직장을 잃을 가치는 없지만 학생이라면 숙제를 놓칠 가치가 있습니다.)

가변 비율에 대한 관찰이 설명이라고 생각하지 않습니다. 위의 이론적 근거에 비추어 볼 때, 당신이 시도한 모든 방법이 식별 할 수 있었던 것은 다차원 공간에서 클래스를 분리하는 경계의 비교적 간단한 형태입니다.


상사에게 회사에 지불 할 수 있는지 물어볼 것입니다.
JenSCDC

1
ESL은 홈페이지에서 pdf로 '무료'입니다. 다운로드 할 가치가있는 ISL (동일한 많은 저자의 ISL)-보다 실용적인 www-bcf.usc.edu/~gareth/ISL
seanv507

4

훈련 오류도 살펴볼 가치가 있습니다.

기본적으로 나는 당신의 분석에 동의하지 않습니다. 로지스틱 회귀 등이 모두 동일한 결과를 제공하는 경우 '최상의 모델'은 매우 간단한 것입니다 (예 : 기본적으로 선형).

그렇다면 가장 좋은 모델이 단순한 모델 인 이유는 의문 일 수 있습니다. 변수가 예측하기 어려운 것이 좋습니다. 물론 데이터를 모른 채 분석하기가 어렵습니다.


1

@ seanv507이 제안한 것처럼 유사한 성능은 데이터가 선형 모델로 가장 잘 분리되어 있기 때문일 수 있습니다. 그러나 일반적으로 "가변 비율에 대한 관측치가 너무 높기"때문에 잘못된 진술입니다. 표본 크기 대 변수 수의 비율이 무한대가 되더라도 동일한 예측 바이어스를 제공하지 않는 한 다른 모델이 거의 동일하게 수행 될 것으로 기 대해서는 안됩니다.


방금 종속 변수가 이진임을 추가하기 위해 질문을 편집했습니다. 따라서 선형 모델이 적합하지 않습니다.
JenSCDC

"모든 모델이 동일한 예측 편향을 제공하지 않는 한 다른 모델이 거의 동일하게 수행 될 것으로 기 대해서는 안됩니다." 유효성 검사 수단으로 MAE와 실제 결과 대 예측 결과의 비율을 사용했으며 그 비율은 매우 비슷했습니다.
JenSCDC

1
Andy, 저는 로지스틱 회귀 (및 선형 SVM)를 '선형'모델로 포함합니다. 그들은 모두 가중 된 입력 합계로 데이터를 분리합니다.
seanv507

1
@ seanv507 정확합니다. 결정 경계는 여전히 선형입니다. 이진 분류가 수행된다는 사실은 변경되지 않습니다.
bogatron

나무는 어떻습니까? 그들은 나에게 선형 적으로 보이지 않습니다.
JenSCDC

0

가변 비율에 대한 나의 관측치가 너무 높기 때문이라고 생각합니다.

나는이 설명이 완벽하다고 생각합니다.

이것이 정확하다면, 어떤 모델 대 가변 비율이 다른 모델이 다른 결과를 내기 시작합니까?

이는 아마도 특정 데이터 (예를 들어, 9 개의 변수가 연속적, 요인, 일반 또는 이진인지 여부)와 모델을 피팅하는 동안 결정한 튜닝 결정에 따라 크게 달라집니다.

그러나 변수 수를 늘리는 것이 아니라 관측 수를 줄이면 관측-가변 비율로 해결할 수 있습니다. 무작위로 100 개의 관측 값을 그리고 모형에 적합하며 다른 모형이 다른 결과를 산출하는지 확인합니다. (그럴 것 같습니다.) 총 관측치에서 추출한 다른 샘플을 사용하여 여러 번이 작업을 수행하십시오. 그런 다음 1,000 개의 관측치 ... 10,000 개의 관측치 등의 하위 샘플을보십시오.


1
흠 왜? 더 많은 관측은 결정 경계가 더 복잡 할 가능성을 증가시키는 것으로 보입니다. 그리고이 모델들은 복잡한 경우에 다른 일을하며 단순한 모델에서도 같은 경향이 있습니다.
Sean Owen

@SeanOwen : 귀하의 의견을 이해하지 못하는 것 같습니다. 내 대답 중 "그 이유는 무엇입니까?"는 무엇입니까? OP는 선형 의사 결정 경계를 사용하는 것에 대해 아무 말도하지 않았습니다.
Stephan Kolassa

더 많은 관측치가 다른 분류기에서 더 유사한 결정을 내릴 수있는 이유는 무엇입니까? 내 직감은 정반대입니다. 예, 나는 단순한 결정의 경계를 생각하지 않습니다. 최적의 경계가 복잡할수록 그것들이 그 경계와 비슷한 것에 덜 적합 할 것입니다. 그리고 경계는 더 많은 관측으로 더 복잡 해지는 경향이 있습니다.
Sean Owen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.