나는 주로 컴퓨터 과학 배경을 가지고 있지만 지금은 기본 통계를 가르치려고합니다. 포아송 분포가 있다고 생각되는 데이터가 있습니다.
두 가지 질문이 있습니다.
- 이것이 포아송 분포입니까?
- 둘째, 이것을 정규 분포로 변환 할 수 있습니까?
도움을 주시면 감사하겠습니다. 감사합니다
나는 주로 컴퓨터 과학 배경을 가지고 있지만 지금은 기본 통계를 가르치려고합니다. 포아송 분포가 있다고 생각되는 데이터가 있습니다.
두 가지 질문이 있습니다.
도움을 주시면 감사하겠습니다. 감사합니다
답변:
1) 묘사 된 것은 막대 차트로 그려진 (그룹화 된) 연속 데이터 인 것으로 보입니다.
포아송 분포 가 아니라고 결론을 내릴 수 있습니다 .
푸 아송 랜덤 변수는 0, 1, 2, ...의 값을 취하며 평균이 1보다 작은 경우에만 0에서 가장 높은 피크를 갖습니다. 카운트 데이터에 사용됩니다. Poisson 데이터의 유사한 차트를 그린 경우 아래 그림과 같이 보일 수 있습니다.
첫 번째는 Poisson입니다. 평균이 매우 작다는 것을 알 수 있습니다 (약 0.6).
두 번째는 당신과 비슷한 의미를 갖는 포아송입니다. 보시다시피, 그것은 대칭으로 보입니다.
왜도 또는 큰 평균을 가질 수 있지만 동시에 두 가지를 모두 사용할 수는 없습니다.
2) (i) 이산 데이터를 정상으로 만들 수 없습니다.
그룹화 된 데이터를 사용하면 단조 증가 변환을 사용하여 그룹의 모든 값을 동일한 위치로 이동하므로 가장 낮은 그룹은 여전히 가장 높은 피크를 갖습니다 (아래 그림 참조). 첫 번째 그림에서 x 값의 위치를 이동하여 일반 cdf와 거의 일치시킵니다.
두 번째 줄거리에서는 변환 후 확률 함수를 봅니다. 우리는 정규성과 같은 것을 달성 할 수 없습니다. 첫 번째 그룹의 큰 점프는 왼쪽 또는 오른쪽으로 밀더라도 큰 점프로 유지됩니다.
(ii) 연속으로 치우친 데이터는 정상적인 것으로 보이도록 변환 될 수 있습니다. 원시 (그룹화되지 않은) 값이 있고 값이 크게 이산 적이 지 않은 경우 무언가를 할 수 있지만 사람들이 데이터를 변환하려고 할 때 종종 불필요하거나 근본적인 문제를 다른 (일반적으로 더 나은) 방법으로 해결할 수 있습니다 . 때로는 변환이 좋은 선택이지만 일반적으로 좋지 않은 이유로 수행됩니다.
그렇다면 ... 왜 변환하고 싶습니까?
후손에 대한 더 재미있는 정보를 게시합니다.
로지스틱 회귀 분석을위한 독립 변수로 카운트 데이터를 사용하는 것과 관련하여 유사한 문제를 논의하는 이전 게시물이 있습니다.
여기있어:
카운트 데이터를 독립 변수로 사용하면 GLM 가정을 위반합니까?
Glen이 언급 한 것처럼 이분법적인 결과를 예측하려는 경우 변환되지 않은 카운트 데이터를 로지스틱 회귀 모델의 직접 구성 요소로 사용할 수 있습니다. 그러나주의 사항 : 독립 변수 (IV)가 모두 포아송 분포이고 원시 값을 사용하여 여러 차수의 범위를 갖는 경우 영향을 미치는 점이 높아져 모델에 치우칠 수 있습니다. 이 경우 더 강력한 모델을 얻기 위해 IV로 변환하는 것이 유용 할 수 있습니다.
제곱근 또는 로그와 같은 변환은 IV와 승산 비 간의 관계를 강화할 수 있습니다. 예를 들어, X의 3 배 전체 크기 (중간 X 값에서 멀어짐)에 의한 X의 변화가 Y 발생 확률 (0.1에서 멀어짐)의 0.1에 불과한 변화에 해당하는 경우, 모든 모델 불일치가 발생한다고 가정하는 것이 안전합니다. 특이 치 X 값의 극단적 인 레버리지로 인해 상당한 편향이 발생합니다.
더 자세히 설명하기 위해, 사람이 고추를 "불편하게 매운"것으로 분류 할 확률을 예측하기 위해 다양한 칠리 고추의 스코 빌 등급 (domain [X] = {0, 3.2 million})을 사용하려고한다고 상상해보십시오. X 등급의 후추를 먹은 후 {1 = 예, 0 = 아니오}).
https://ko.wikipedia.org/wiki/Scoville_scale
스코 빌 등급 차트를 보면 원시 스코 빌 등급의 로그 변환이 각 칠리의 주관적인 (1-10) 등급에 더 가까운 근사치를 제공함을 알 수 있습니다.
따라서이 경우 원시 Scoville 등급과 주관적 열 등급 간의 실제 관계를 포착하는보다 강력한 모델을 원한다면 X 값에 대해 로그 변환을 수행 할 수 있습니다. 이렇게하면 과도하게 큰 값 사이의 거리를 효과적으로 "축소"하여 X 이상치 (예 : 캡사이신 불내성 및 / 또는 미친 향신료 양념)의 무게를 줄임으로써 지나치게 큰 X 도메인의 영향을 줄일 수 있습니다! !!) 우리의 예측에 있습니다.
이것이 재미있는 컨텍스트를 추가하기를 바랍니다!