Kjetil의 탁월한 답변 외에도 조건부 분포 의 의미를 명확히하는 데 도움이되는 몇 가지 구체적인 예를 추가하고 싶었습니다. 이는 다소 어려운 개념 일 수 있습니다.
호수에서 100 마리의 물고기를 무작위로 채취하여 물고기의 나이가 여러 결과 변수에 어떤 영향을 미치는지 알고 싶다고 가정 해 봅시다.
- 생선 무게 (무게);
- 물고기가 30cm 이상인지 여부;
- 생선 비늘의 수
첫 번째 결과 변수는 연속적이며 두 번째 결과는 이진 (0 = 물고기는 30cm보다 길지 않고 1 = 물고기는 30cm보다 길다)이고 세 번째는 개수 변수입니다.
간단한 선형 회귀
나이는 체중에 어떤 영향을 미칩니 까? 다음과 같은 간단한 선형 회귀 모델을 공식화하려고합니다.
Weight=β0+β1∗Age+ϵ
여기서 은 평균이 0이고 표준 편차가 정규 분포에 따라 독립적이고 동일하게 분포 됩니다. 이 모델에서, 같은 연령을 공유하는 호수의 모든 물고기에 대한 가중치 변수의 평균은 연령에 따라 선형으로 변한다고 가정합니다. 조건부 평균은 됩니다. 같은 나이 의 호수에있는 모든 물고기의 평균 무게이기 때문에 조건부라고합니다 . (무조건적인 평균 무게는 나이에 관계없이 호수에있는 모든 물고기의 평균 무게가됩니다.) ϵσβ0+β1∗Age
단순 이항 로지스틱 회귀
나이는 물고기의 길이가 30cm 이상인지에 어떤 영향을 미칩니 까? 다음과 같은 간단한 이항 로지스틱 회귀 모델을 공식화하려고합니다.
log(p1−p)=β0+β1∗Age
여기서 는 주어진 연령의 물고기가 30cm보다 길다는 조건부 확률을 나타냅니다. 이 모델에서, 같은 연령을 공유하는 호수의 모든 물고기에 해당하는 변수 "물고기가 30cm보다 긴지 여부"의 조건부 평균은 로짓 변환에 공급 된 후 연령에 따라 선형으로 변하는 것으로 가정합니다. 로짓 변환 된 조건 평균은 됩니다. 이 모델은 우리가 주어진 연령에 대해 "물고기가 30cm 이상인지 여부"변수 값의 분포가 베르누이 분포라고 가정하기 때문에 작동합니다. 이 분포에서 분산은 평균값의 함수이므로 평균값을 추정 할 수 있으면 분산도 추정 할 수 있습니다.pβ0+β1∗Agep 및 분산은 입니다.) https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ 도 참조하십시오 .p∗(1−p)
단순 포아송 회귀
나이는 어류 비늘 수에 어떤 영향을 미칩니 까? 다음과 같은 간단한 포아송 회귀 모형을 공식화하려고합니다.
log(μ)=β0+β1∗Age
여기서 는 주어진 연령의 물고기에 대한 결과 변수 "물고기 비늘 수"의 조건부 평균값을 나타냅니다 (즉, 주어진 연령의 호수에있는 모든 물고기에 대한 예상 물고기 비늘 수). 이 모델에서 결과 변수의 조건부 평균은 로그 변환에 입력 된 후 연령에 따라 선형으로 변하는 것으로 가정합니다. 로그 변환 된 조건 평균은 됩니다. 이 모델은 주어진 연령의 호수에있는 모든 물고기에 대한 가변 "물고기 비늘 수"값의 분포가 포아송 분포라고 가정하기 때문에 작동합니다. 이 분포에 대해 평균과 분산이 같으므로 평균값을 모델링하기에 충분합니다.μβ0+β1∗Age
요약하면 , 조건부 분포는 모형에 포함 된 예측 변수의 특정 값에 대한 결과 값의 분포를 나타냅니다 . 위에 예시 된 각 유형의 회귀 모델은 연령에 따른 결과 변수의 조건부 분포에 대한 특정 분포 가정을 부과합니다. 이러한 분포 가정에 기초하여, 모델은 (1) 조건부 분포의 평균이 연령의 함수에 따라 어떻게 변하는 지 (단순 선형 회귀), (2) 조건부 분포의 로짓 변환 된 평균이 연령 (단순 이진 로지스틱 회귀) 또는 (3) 조건부 분포의 로그 변환 평균은 연령의 함수에 따라 다릅니다.
각 모델 유형에 대해 모델 검사 목적으로 해당 잔차를 정의 할 수 있습니다. 특히, 로지스틱 및 포아송 회귀 모형에 대해 Pearson 및 이탈 잔차를 정의 할 수 있습니다.