백분율 데이터의 분포


11

내 데이터로 모델을 만드는 데 사용할 올바른 분포에 대한 질문이 있습니다. 나는 50 개의 플롯으로 삼림 인벤토리를 수행했으며 각 플롯은 20m × 50m입니다. 각 음모에 대해 땅을 가리는 나무 캐노피의 비율을 추정했습니다. 각 플롯에는 캐노피 덮개에 대한 하나의 값 (백분율)이 있습니다. 백분율은 0에서 0.95 사이입니다. 위성 이미지 및 환경 데이터를 기반으로 독립 X 변수 행렬을 사용하여 백분율 트리 캐노피 커버 ( Y 변수) 모델을 만들고 있습니다.

이항 랜덤 변수는 n 개의 독립적 인 시행 (즉, Bernoulli 랜덤 변수) 의 합이므로 이항 분포를 사용해야하는지 잘 모르겠습니다 . 백분율 값은 시행의 합이 아닙니다. 실제 비율입니다. 상한이 없더라도 감마를 사용해야합니까? 백분율을 정수로 변환하고 포아송을 카운트로 사용해야합니까? 가우스 만 고집해야합니까? 이 방법으로 백분율을 모델링하려고하는 문헌이나 교과서에서 많은 예제를 찾지 못했습니다. 힌트 나 통찰력이 있으면 감사하겠습니다.


답변 주셔서 감사합니다. 실제로 베타 배포는 내가 필요한 것이므로이 기사에서 자세히 설명합니다.

다음 기사는 베타 범위의 반응 변수가 백분율 범위에 참 0 및 / 또는 1을 포함 할 때 베타 분산 반응 변수를 변환하는 좋은 방법을 설명합니다.


2
분수 로짓 또는 제로 팽창 베타 사용에 대해 생각해 보셨습니까 ?
Dimitriy V. Masterov

2
답변 주셔서 감사합니다. 실제로 베타 분포는 필자가 필요로하는 내용이며 Eskelson, BN, Madsen, L., Hagar, JC, & Temesgen, H. (2011)에서 자세히 설명합니다. 베타 회귀 및 copula 모델을 사용하여 Riparian Understory 초목 덮개를 추정합니다. 산림 과학, 57 (3), 212-221. 이 저자들은 Cribari-Neto와 Zeileis의 R 베타 베타 패키지를 사용합니다. 더 레몬 평방 스미, M., 및 J. Verkuilen, 2006 년 A : 다음의 기사는 사실 0과 / 또는 비율의 범위에서 하나 개의 포함하는 베타 - 분산 반응 변수를 변환 할 수있는 좋은 방법에 대해 설명

답변:


7

당신이 바로 그 점이다 이항 분포는 베르누이 시험의 유한 번호에서 '성공'의 수에서 발생하는 이산 비율에 대한, 그리고이 데이터에 적합하지 분배를 만드는 것이다. 감마 분포를 해당 감마와 다른 감마의 합으로 나눈 값을 사용해야합니다. 즉, 베타 분포 를 사용하여 연속 비율을 모델링 해야합니다 .

내 대답에는 베타 회귀의 예가 있습니다 .R의 회귀를 사용하여 연속 비율 데이터에 대한 요인의 영향을 제거하십시오 .

업데이트 :
@ DimitriyV.Masterov는 데이터에 이 있다고 언급 하지만 좋은 점을 지적 하지만 베타 배포는 에서만 지원됩니다 . 그러면 그러한 값으로 수행해야 할 작업에 대한 질문이 나타납니다. 이 우수한 CV 스레드에서 몇 가지 아이디어를 얻을 수 있습니다. 0의 로그를 피하기 위해 x에 얼마나 적은 양을 추가해야합니까?0(0, 1)


3
베타 배포판이 0을 다룰 수 있습니까?
Dimitriy V. Masterov

1

백분율 값은 샘플 수와 무관 한 비율을 나타냅니다. 이 백분율을 종속 변수로 사용하고 위성 이미지를 설명 변수로 사용하려고합니다. 그러나 인벤토리의 50 개 플롯 모두에 비슷한 수의 샘플이있는 것은 아닙니다. 이러한 비율을 다른 변수와 관련시키는 적합한 모델은 측정시이 불확실성을 고려해야하므로 높은 표본이있는 도표에 더 많은 가중치를 부여해야합니다.

또한 데이터의 경우 오류 분포는 분명히 이항입니다. 오차 분산은 경계에서 가장 작으며 이항 분포로 캡처됩니다.

이 모든 것은 이항 오차 모델과 함께 GLM을 사용하는 전형적인 예입니다.

Crawley의 14 장 "통계 : R을 사용한 소개"에서는 정확히이 항목과 R을 사용하여 분석하는 방법에 대해 설명합니다.


4
이항 분포 베르누이 시행 알려진 다수의 성공 회수의 분포이다. "Beroulli 시행이 이항 분포로 설명되었다고해서 이항 분포로 설명 된 모든 것이 Bernoulli 구조와 일치해야한다는 의미는 아닙니다"라는 의견은 귀하의 의견입니다. 이항 분포는 연속 비율에 적합하지 않습니다. 또한 감마 배포판이 아니라 베타 배포판을 제안했습니다.
gung-Monica Monica 복원

1
예, 당신은 완벽합니다.
bonobo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.