포아송 분포를 정규 분포로 변환


10

나는 주로 컴퓨터 과학 배경을 가지고 있지만 지금은 기본 통계를 가르치려고합니다. 포아송 분포가 있다고 생각되는 데이터가 있습니다.

여기에 이미지 설명을 입력하십시오

두 가지 질문이 있습니다.

  1. 이것이 포아송 분포입니까?
  2. 둘째, 이것을 정규 분포로 변환 할 수 있습니까?

도움을 주시면 감사하겠습니다. 감사합니다


3
1. 아니요, 포아송 분포는 일반적으로 모수 근처에 모드 가 있으므로이를 포아송 분포와 일치시키는 것은 모수에 대해 매우 작은 값을 의미합니다. 2. 그렇습니다. 정규 분포로 무엇을 하시겠습니까?
Dilip Sarwate

이 데이터를 로지스틱 회귀에 제공하려고합니다. 정규 분포 데이터가 훨씬 더 나은 결과를 낳을 것이라고 믿게되었습니다
Abhi

답변:


11

1) 묘사 된 것은 막대 차트로 그려진 (그룹화 된) 연속 데이터 인 것으로 보입니다.

포아송 분포 가 아니라고 결론을 내릴 수 있습니다 .

푸 아송 랜덤 변수는 0, 1, 2, ...의 값을 취하며 평균이 1보다 작은 경우에만 0에서 가장 높은 피크를 갖습니다. 카운트 데이터에 사용됩니다. Poisson 데이터의 유사한 차트를 그린 경우 아래 그림과 같이 보일 수 있습니다.

여기에 이미지 설명을 입력하십시오

첫 번째는 Poisson입니다. 평균이 매우 작다는 것을 알 수 있습니다 (약 0.6).

두 번째는 당신과 비슷한 의미를 갖는 포아송입니다. 보시다시피, 그것은 대칭으로 보입니다.

왜도 또는 큰 평균을 가질 수 있지만 동시에 두 가지를 모두 사용할 수는 없습니다.

2) (i) 이산 데이터를 정상으로 만들 수 없습니다.

그룹화 된 데이터를 사용하면 단조 증가 변환을 사용하여 그룹의 모든 값을 동일한 위치로 이동하므로 가장 낮은 그룹은 여전히 ​​가장 높은 피크를 갖습니다 (아래 그림 참조). 첫 번째 그림에서 x 값의 위치를 ​​이동하여 일반 cdf와 거의 일치시킵니다.

여기에 이미지 설명을 입력하십시오

두 번째 줄거리에서는 변환 후 확률 함수를 봅니다. 우리는 정규성과 같은 것을 달성 할 수 없습니다. 첫 번째 그룹의 큰 점프는 왼쪽 또는 오른쪽으로 밀더라도 큰 점프로 유지됩니다.

(ii) 연속으로 치우친 데이터는 정상적인 것으로 보이도록 변환 될 수 있습니다. 원시 (그룹화되지 않은) 값이 있고 값이 크게 이산 적이 지 않은 경우 무언가를 할 수 있지만 사람들이 데이터를 변환하려고 할 때 종종 불필요하거나 근본적인 문제를 다른 (일반적으로 더 나은) 방법으로 해결할 수 있습니다 . 때로는 변환이 좋은 선택이지만 일반적으로 좋지 않은 이유로 수행됩니다.

그렇다면 ... 왜 변환하고 싶습니까?


매우 자세한 답변을 위해 Glen에게 감사드립니다. 많은 개념을 설명합니다. 이 데이터를 로지스틱 회귀 모델에 공급하려고합니다. 정규 분포 데이터가 훨씬 더 나은 결과를 낳을 것이라고 생각했습니다. 추천 메뉴가 무엇인가요?
Abhi

1
이것은 독립 변수입니다 x-변하기 쉬운)? 이 문맥에서 "더 나은 결과"는 무엇을 의미합니까?
Glen_b-복지 주 모니카

@Glen_b 훌륭한 답변 감사합니다. 나는 또한 컴퓨터 과학 배경을 가지고 있으며이 질문에 갇혀 있습니다 : stats.stackexchange.com/questions/408232/… 이것에 대한 당신의 생각을 알려주십시오. 여러분의 의견을 기다리겠습니다. 다시 한번 감사드립니다 :)
EmJ

귀하의 질문에 답변 할 사람들을 모집하기 위해 의견을 사용하지 마십시오. 나는 이미 당신의 질문을 보았다.
Glen_b-복지국 모니카

0

후손에 대한 더 재미있는 정보를 게시합니다.

로지스틱 회귀 분석을위한 독립 변수로 카운트 데이터를 사용하는 것과 관련하여 유사한 문제를 논의하는 이전 게시물이 있습니다.

여기있어:

카운트 데이터를 독립 변수로 사용하면 GLM 가정을 위반합니까?

Glen이 언급 한 것처럼 이분법적인 결과를 예측하려는 경우 변환되지 않은 카운트 데이터를 로지스틱 회귀 모델의 직접 구성 요소로 사용할 수 있습니다. 그러나주의 사항 : 독립 변수 (IV)가 모두 포아송 분포이고 원시 값을 사용하여 여러 차수의 범위를 갖는 경우 영향을 미치는 점이 높아져 모델에 치우칠 수 있습니다. 이 경우 더 강력한 모델을 얻기 위해 IV로 변환하는 것이 유용 할 수 있습니다.

제곱근 또는 로그와 같은 변환은 IV와 승산 비 간의 관계를 강화할 수 있습니다. 예를 들어, X의 3 배 전체 크기 (중간 X 값에서 멀어짐)에 의한 X의 변화가 Y 발생 확률 (0.1에서 멀어짐)의 0.1에 불과한 변화에 해당하는 경우, 모든 모델 불일치가 발생한다고 가정하는 것이 안전합니다. 특이 치 X 값의 극단적 인 레버리지로 인해 상당한 편향이 발생합니다.

더 자세히 설명하기 위해, 사람이 고추를 "불편하게 매운"것으로 분류 할 확률을 예측하기 위해 다양한 칠리 고추의 스코 빌 등급 (domain [X] = {0, 3.2 million})을 사용하려고한다고 상상해보십시오. X 등급의 후추를 먹은 후 {1 = 예, 0 = 아니오}).

https://ko.wikipedia.org/wiki/Scoville_scale

스코 빌 등급 차트를 보면 원시 스코 빌 등급의 로그 변환이 각 칠리의 주관적인 (1-10) 등급에 더 가까운 근사치를 제공함을 알 수 있습니다.

따라서이 경우 원시 Scoville 등급과 주관적 열 등급 간의 실제 관계를 포착하는보다 강력한 모델을 원한다면 X 값에 대해 로그 변환을 수행 할 수 있습니다. 이렇게하면 과도하게 큰 값 사이의 거리를 효과적으로 "축소"하여 X 이상치 (예 : 캡사이신 불내성 및 / 또는 미친 향신료 양념)의 무게를 줄임으로써 지나치게 큰 X 도메인의 영향을 줄일 수 있습니다! !!) 우리의 예측에 있습니다.

이것이 재미있는 컨텍스트를 추가하기를 바랍니다!

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.