최근 이메일을 통해 다음과 같은 질문을 받았습니다. 아래에 답변을 게시하지만 다른 사람들의 의견을 듣고 싶습니다.
로지스틱 회귀 분석을 비모수 적 테스트라고 하시겠습니까? 데이터가 정상적으로 분포되어 있지 않기 때문에 테스트 비모수에 레이블을 지정하는 것만으로는 충분하지 않습니다. 그것은 가정의 부족과 관련이 있습니다. 로지스틱 회귀에는 가정이 있습니다.
최근 이메일을 통해 다음과 같은 질문을 받았습니다. 아래에 답변을 게시하지만 다른 사람들의 의견을 듣고 싶습니다.
로지스틱 회귀 분석을 비모수 적 테스트라고 하시겠습니까? 데이터가 정상적으로 분포되어 있지 않기 때문에 테스트 비모수에 레이블을 지정하는 것만으로는 충분하지 않습니다. 그것은 가정의 부족과 관련이 있습니다. 로지스틱 회귀에는 가정이 있습니다.
답변:
Larry Wasserman은 매개 변수 모델을 "유한 한 수의 매개 변수로 매개 변수화 할 수있는 분포 세트"로 정의합니다. 반대로 비모수 적 모델은 유한 한 수의 매개 변수로 매개 변수화 할 수없는 분포 세트입니다.
따라서이 정의에 따르면 표준 로지스틱 회귀는 파라 메트릭 모델입니다. 로지스틱 회귀 모형에는 유한 매개 변수 세트가 있으므로 모수 적입니다. 구체적으로, 파라미터는 회귀 계수이다. 이들은 일반적으로 각 예측 변수마다 하나에 상수를 더한 값에 해당합니다. 로지스틱 회귀는 일반화 된 선형 모형의 특정 형태입니다. 특히 이진 분산 데이터를 모델링하기 위해 로짓 링크 기능을 사용합니다.
흥미롭게도 비모수 로지스틱 회귀 분석을 수행 할 수 있습니다 (예 : Hastie, 1983). 스플라인 또는 비모수 평활 형태를 사용하여 예측 변수의 효과를 모델링하는 작업이 포함될 수 있습니다.
로지스틱 회귀는 전혀 테스트가 아니라고 말하고 싶습니다. 그러나 로지스틱 회귀는 테스트가 없거나 몇 가지 테스트로 이어질 수 있습니다.
비 매개 변수 레이블이 정상이 아니기 때문에 레이블을 지정하는 것만으로는 충분하지 않습니다. 지수 패밀리를 명시 적으로 매개 변수라고 부릅니다. 따라서 일반적으로 로지스틱 회귀 (및 Poisson 회귀 및 감마 회귀 및 ...)를 매개 변수로 간주하지만 특정 로지스틱 회귀 분석이 비모수 적 (또는 모호한 수동 물결 모양의 의미에서 준-파라 메트릭)으로 간주됩니다.
회귀를 비모수라고하는 두 가지 의미에 대한 혼동에주의하십시오.
경사와 절편 계수로 매개 변수화 된 있습니다.
반면에 커널 다항식 회귀 (국소 선형 회귀)에 적합하지만 정상적인 오류 가 있는 경우 비모수라고도 하지만이 경우 사이의 관계 매개 변수입니다 (적어도 잠재적으로 무한 분포) 오류 분포가 아닙니다.
두 가지 감각이 모두 사용되지만 회귀에 관해서는 두 번째 종류가 실제로 더 자주 사용됩니다.
그것은이다 또한 (충분한 데이터를, I는, 예를 들어, 로컬 Theil 가중 회귀에 맞게 수) 세게 두 감각으로 비모수 될 수 있지만.
GLM의 경우, 비모수 적 다중 회귀의 제 2 형태는 GAM; 두 번째 형식은 Hastie가 일반적으로 운영되는 의미입니다 (그리고 그가 인용 한대로 운영하고 있음).
위의 답변에 약간의 도움이 될 수있는 한 가지 유용한 차이점 : Andrew Ng는 강의 자료 1 에서 강의 1의 비모수 적 모델이라는 의미에 대해 휴리스틱을 제공합니다. 기계 학습에 스탠포드 CS-229 코스를.
Ng는 말한다 (pp. 14-15) :
나는 이것이 복잡성의 개념을 직접적으로 불러 일으키기 때문에 그것에 대해 생각하는 유용한 대조 방법이라고 생각합니다. 비모수 적 모델은 훨씬 더 많은 훈련 데이터를 유지해야하기 때문에 본질적으로 덜 복잡하지 않습니다. 단지 훈련 데이터를 유한 한 매개 변수화 된 계산으로 압축하여 사용을 줄이지 않고 있다는 것을 의미합니다. 효율성 또는 불편 함 또는 기타 여러 속성을 위해 매개 변수화를 원할 수 있습니다. 그러나 매개 변수화를 포기하고 많은 데이터를 보관할 수 있다면 성능이 향상 될 수 있습니다.
로지스틱 회귀는 파라 메트릭 기술이라고 생각합니다.
이것은 Wolfowitz (1942) [부가 분할 함수와 통계적 가설의 클래스 수학적 통계의 분석, 1942, 13, 247-279]에서 도움이 될 수 있습니다.
“ 문제에 들어가는 다양한 확률 론적 변수 의 분포 함수 [주 : 복수 !!!] 는 알려진 기능적 형태 인 것으로 가정되며, 추정 이론과 검정 이론은 이론 이론에 대한 추정 이론과 검정 이론이다. 한정된 수의 하나 이상의 파라미터, 관련 지식은 관련된 다양한 분포 함수를 완전히 결정할 것이다. 우리는이 상황을 간결성을 위해 모수 적 사례로 지칭하고, 분포의 기능적 형태가 알려지지 않은 반대 상황을 비모수 적 사례로 표시 할 것이다.
또한, 이것이 상당히 많이 논의되었다는 소식을 들었을 때, 나는 Noether (1984)에 의해 재미있는 것을 발견했습니다. [비모수 : 초창기 인상과 기억 The American Statistician, 1984, 38, 173-178] :
"비모수라는 용어는 이론적 통계 학자에게는 역사적인 의미와 의미를 지닐 수 있지만, 적용 통계학자를 혼동시키는 역할 만합니다."