로지스틱 회귀 분석은 비모수 검사입니까?


15

최근 이메일을 통해 다음과 같은 질문을 받았습니다. 아래에 답변을 게시하지만 다른 사람들의 의견을 듣고 싶습니다.

로지스틱 회귀 분석을 비모수 적 테스트라고 하시겠습니까? 데이터가 정상적으로 분포되어 있지 않기 때문에 테스트 비모수에 레이블을 지정하는 것만으로는 충분하지 않습니다. 그것은 가정의 부족과 관련이 있습니다. 로지스틱 회귀에는 가정이 있습니다.


7
(+1) 기록과 문제의 주장에 대한 반격으로, 비모수 적 방법을 "부정한 가정"으로 정의 (또는 특성화)하는 신뢰할만한 참조가 없다. 모든 통계 절차는 가정합니다. 대부분의 비모수 적 절차는 기본 확률 분포에 대해 제한적인 정량적 가정을하지만, 이러한 가정은 가능한 차원의 문제를 유한 차원 실수 매니 폴드의 구조를 갖는 집합으로 좁히지 않습니다.
whuber

우리가 선형 로지스틱 회귀에 대해 이야기하고 있다면 (이것은 당신이 쓴 답에 따라 암시적인 것처럼 보입니다) 물론 이것은 모수 적 모델이지만 비모수 적 평활 함수를 사용하여 공변량 효과를 맞추면 주목할 가치가 있습니다. 예 :
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
다음의 함수로서 추정 된 확률에 대한 파라 메트릭 제약이없는 . 이것은 물류 링크에 대해서만 사실이 아닙니다. 동일한 논리가 모든 반전 불가능 링크 기능에 적용됩니다. x
매크로

여기에 관련 질문이 있습니다 . GLM의 일부 사례 (예 : 물류 모델)가 비모수 적 테스트를 제공 한다는 것을 이해하기 시작했습니다 . Wasserman의 책을 살펴볼 것입니다. (잘못 기억하지 않는 한) 그의 연구의 일부 원리와 결과에 대해서는 약간의 의견 차이가 있습니다.
AdamO

답변:


19

Larry Wasserman은 매개 변수 모델을 "유한 한 수의 매개 변수로 매개 변수화 할 수있는 분포 세트"로 정의합니다. 반대로 비모수 적 모델은 유한 한 수의 매개 변수로 매개 변수화 할 수없는 분포 세트입니다.

따라서이 정의에 따르면 표준 로지스틱 회귀는 파라 메트릭 모델입니다. 로지스틱 회귀 모형에는 유한 매개 변수 세트가 있으므로 모수 적입니다. 구체적으로, 파라미터는 회귀 계수이다. 이들은 일반적으로 각 예측 변수마다 하나에 상수를 더한 값에 해당합니다. 로지스틱 회귀는 일반화 된 선형 모형의 특정 형태입니다. 특히 이진 분산 데이터를 모델링하기 위해 로짓 링크 기능을 사용합니다.

흥미롭게도 비모수 로지스틱 회귀 분석을 수행 할 수 있습니다 (예 : Hastie, 1983). 스플라인 또는 비모수 평활 형태를 사용하여 예측 변수의 효과를 모델링하는 작업이 포함될 수 있습니다.

참고 문헌

  • Wasserman, L. (2004). 모든 통계 : 통계적 추론의 간결한 과정. 스프링거 Verlag.
  • Hastie, T. (1983). 비모수 로지스틱 회귀 SLAC PUB-3160, 6 월. PDF

모델은 분포의 집합입니까? 거기에 필수적인 것이 없습니다.
rolando2

질문을하고 스스로 대답하는 것이 일반적입니까?

1
@ fcop 그것은 권장됩니다. blog.stackoverflow.com/2011/07/…
Jeromy Anglim

죄송합니다, 몰랐습니다

걱정 마. 저에게 사이트의 주요 요점은 향후 답변을 찾을 때 다른 사람들이 발견 할 수있는 리소스를 만드는 것입니다. 자신의 답변을 제공하면 모든 도움이됩니다.
Jeromy Anglim

16

로지스틱 회귀는 전혀 테스트가 아니라고 말하고 싶습니다. 그러나 로지스틱 회귀는 테스트가 없거나 몇 가지 테스트로 이어질 수 있습니다.

비 매개 변수 레이블이 정상이 아니기 때문에 레이블을 지정하는 것만으로는 충분하지 않습니다. 지수 패밀리를 명시 적으로 매개 변수라고 부릅니다. 따라서 일반적으로 로지스틱 회귀 (및 Poisson 회귀 및 감마 회귀 및 ...)를 매개 변수로 간주하지만 특정 로지스틱 회귀 분석이 비모수 적 (또는 모호한 수동 물결 모양의 의미에서 준-파라 메트릭)으로 간주됩니다.

회귀를 비모수라고하는 두 가지 의미에 대한 혼동에주의하십시오.

xyx 경사와 절편 계수로 매개 변수화 된 있습니다.

반면에 커널 다항식 회귀 (국소 선형 회귀)에 적합하지만 정상적인 오류 있는 경우 비모수라고도 하지만이 경우 사이의 관계 매개 변수입니다yx (적어도 잠재적으로 무한 분포) 오류 분포가 아닙니다.

두 가지 감각이 모두 사용되지만 회귀에 관해서는 두 번째 종류가 실제로 더 자주 사용됩니다.

그것은이다 또한 (충분한 데이터를, I는, 예를 들어, 로컬 Theil 가중 회귀에 맞게 수) 세게 두 감각으로 비모수 될 수 있지만.

GLM의 경우, 비모수 적 다중 회귀의 제 2 형태는 GAM; 두 번째 형식은 Hastie가 일반적으로 운영되는 의미입니다 (그리고 그가 인용 한대로 운영하고 있음).


3

위의 답변에 약간의 도움이 될 수있는 한 가지 유용한 차이점 : Andrew Ng는 강의 자료 1 에서 강의 1의 비모수 적 모델이라는 의미에 대해 휴리스틱을 제공합니다. 기계 학습에 스탠포드 CS-229 코스를.

Ng는 말한다 (pp. 14-15) :

θiθih

나는 이것이 복잡성의 개념을 직접적으로 불러 일으키기 때문에 그것에 대해 생각하는 유용한 대조 방법이라고 생각합니다. 비모수 적 모델은 훨씬 더 많은 훈련 데이터를 유지해야하기 때문에 본질적으로 덜 복잡하지 않습니다. 단지 훈련 데이터를 유한 한 매개 변수화 된 계산으로 압축하여 사용을 줄이지 않고 있다는 것을 의미합니다. 효율성 또는 불편 함 또는 기타 여러 속성을 위해 매개 변수화를 원할 수 있습니다. 그러나 매개 변수화를 포기하고 많은 데이터를 보관할 수 있다면 성능이 향상 될 수 있습니다.


0

로지스틱 회귀는 파라 메트릭 기술이라고 생각합니다.

이것은 Wolfowitz (1942) [부가 분할 함수와 통계적 가설의 클래스 수학적 통계의 분석, 1942, 13, 247-279]에서 도움이 될 수 있습니다.

“ 문제에 들어가는 다양한 확률 론적 변수 의 분포 함수 [주 : 복수 !!!] 는 알려진 기능적 형태 인 것으로 가정되며, 추정 이론과 검정 이론은 이론 이론에 대한 추정 이론과 검정 이론이다. 한정된 수의 하나 이상의 파라미터, 관련 지식은 관련된 다양한 분포 함수를 완전히 결정할 것이다. 우리는이 상황을 간결성을 위해 모수 적 사례로 지칭하고, 분포의 기능적 형태가 알려지지 않은 반대 상황을 비모수 적 사례로 표시 할 것이다.

또한, 이것이 상당히 많이 논의되었다는 소식을 들었을 때, 나는 Noether (1984)에 의해 재미있는 것을 발견했습니다. [비모수 : 초창기 인상과 기억 The American Statistician, 1984, 38, 173-178] :

"비모수라는 용어는 이론적 통계 학자에게는 역사적인 의미와 의미를 지닐 수 있지만, 적용 통계학자를 혼동시키는 역할 만합니다."


0

Hastie와 Tibshirani는 선형 회귀가 f (X)의 선형 기능 형태를 가정하기 때문에 파라 메트릭 접근 방식이라고 정의합니다. 비모수 적 방법은 f (X)의 형식을 명시 적으로 가정하지 않습니다. 이는 비모수 적 방법이 모형에서 계산 된 f의 추정치를 기반으로 모형에 적합 함을 의미합니다. 로지스틱 회귀 분석은 확률이 로지스틱 함수에 의해 계산되지만 그러한 클래스를 분리하는 로지스틱 경계가 가정되지 않는 p (x) = Pr (Y = 1 | X = x)로 설정하며, 이는 LR도 비모수적임을 확인

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.