이론, 적합 또는 다른 것에 기초하여 분포를 선택하는 것이 더 낫습니까?


12

이것은 철학적 질문에 접해 있지만 더 많은 경험을 가진 다른 사람들이 분포 선택에 대해 어떻게 생각하는지에 관심이 있습니다. 어떤 경우에는 이론이 가장 잘 작동 할 수 있음이 분명해 보입니다 (마우스 꼬리 길이는 아마도 정규 분포 일 것입니다). 많은 경우에 데이터 세트를 설명하는 이론이 없을 수도 있으므로 원래 설명하기 위해 개발 한 내용에 관계없이 상당히 잘 맞는 것을 사용합니까? 나는 이것들 중 하나 또는 다른 것과 함께 갈 때의 함정을 상상할 수 있으며, 물론 당신이 정말로 모른다면 경험적 분포를 사용해야하는 문제가있는 것 같습니다.

그래서 나는 내가 정말로 묻는 것을 추측합니다 : 누군가이 문제에 대해 일관된 접근 방식을 가지고 있습니까? 그리고 이것을 잘 치료할 수있는 자료가 있습니까?


4
그것은 분배를 적합하게하거나 가정하는지, 그리고 그것이 무엇을 나타내는 지에 달려 있습니다. 그 사람들이 실제로 운동은 무의미 (또는 더 나쁜,기만) 때 그들은 통계 문제를 해결로까지 (회귀 잔차 같은) 데이터에 배포 또는 유도 량에 맞게해야 기분이 표시되는 위치를 우리는이 사이트에 많은 질문을 필드 정말 우려하고있다. 당신이 생각하고있는 사건의 종류를 분명히 설명해 주시겠습니까?
whuber

1
의견을 보내 주셔서 감사합니다. 확률 적 위험 평가에 대해 약간의 작업을 시작한 이래로 모든 데이터를 분포에 맞출 필요가 있었으며 분포 선택이 어떻게 수행되는지에 대해보다 일관된 견해를 갖는 데 관심이있었습니다. 그래서 나는 분명히 배포판 을 사용해야 할 때 와 올바르게 배포하는 방법에 관심이 있다고 생각합니다. 내가 말했듯이, 어떤 경우는 때문에 나는 경험적 분포를 사용하고 이론, 다른 시간에서 쉬웠을 것 같다 최고,하지만 내 의사 결정은 내가 좋아하는 것보다 더 우연한이다.
HFBrowning

1
실제로 뭘하고있는 것은 계산을 통해 샘플링 불확실성을 전파하려고하기 때문에 웜의 흥미로운 깡통입니다. 이 높은 수준에서 절차를 살펴 보는 이유는 데이터를 분포로 대체함으로써 추정 된 분포 모수에 불확실성을 포함시키지 못하는 경우가 종종 발생하는 근본적인 실수를 드러내 기 때문입니다. 이에 대한 설명은 일부 실무자에 의해 "2 차"PRA라고합니다. 일반적으로 분포 피팅에 대해 묻는 것이 아니라 이러한 문제에 초점을 맞추기 위해 질문을 좁히기를 제안합니다.
whuber

1
PRA에 사용중인 패키지는 2 차 몬테 카를로 ( R의 mc2d 패키지)이므로 배포를 "불확실성", "가변성"또는 둘 다로 지정합니다. 희망적으로 나는 가능한 한 그 문제를 설명하고 있습니다. 그러나이 질문에 대한 나의 원래 의도는 더 높은 수준의 견해를 얻는 것이었고, 나는 왜 내가 관심이 있는지에 대한 맥락을 제시하기 위해 위험 평가를 제기했습니다. 그리고 아마보다 더 좋은 방법 "때때로 당신은, 때때로 당신이 그런 식으로이해야합니까"하지만 누군가가 제안을했다 : 더 나은 수 있습니다 때 쉽게 확인할 수 없습니다 특히 때문에 기대했다가 없다 -
HFBrowning

3
이것은 귀하의 게시물에 적합한 장소입니다. 수정하는 데 문제가 있다고 말하고 있습니까? 덧붙여서, 나는 당신의 절차가 경험적 분포를 사용할 때의 불확실성을 어떻게 정량화하는지 궁금합니다. 또한 매개 변수를 명시 적으로 추정하지 않았더라도 샘플링 변동성 (꼬리에서 심할 수 있으며 위험 평가에서 가장 중요 할 수 있음)이 함께 제공됩니다.
whuber

답변:


6

문제의 데이터가 무엇인지, 그리고 얼마나 많은 데이터를 알고 싶어하는지에 따라 결정됩니다. 으로 @whuber 최근 채팅에서 말했다 , "물리 법칙이 관련되는 경우, 당신은 거의 항상 데이터를 모델링 할 수있는 적절한 방법에 대해 합리적인 추측을 할 수 있습니다." (이것이 나보다 사실이라고 생각합니다! 또한 이것이 원래의 맥락에서 잘못 적용되지 않기를 바랍니다 ...) 사회 과학의 잠재 구조 모델링과 같은 경우에는 종종 초점을 맞추는 것이 유용합니다 덜 알려진 현상의 뉘앙스를 이해하는 방법으로 경험적 분포. 정규 분포를 가정하고 전체 형태의 부적합을 무시할 정도로 무시하는 것은 다소 쉽지 않으며, 이상 치가 틀린 것보다 더 정당화되지 않고 잘못된 것으로 기각하는 것은 상당히 특이합니다. '

물론,이 행동의 많은 부분은 적용하고자하는 분석의 가정에 의해 동기가 부여됩니다. 가장 흥미로운 질문은 종종 변수 분포의 설명이나 분류를 넘어선 것입니다. 이것은 또한 주어진 시나리오에 대한 정답에 영향을 미칩니다. 방법 과 방법이 완벽 하지 않기 때문에 정규 분포가 특히 적합하지 않은 경우 (예 : 요구) 이유가있을 수 있습니다 . 그럼에도 불구하고, 습관적으로 그렇게 할 위험은 단일 변수의 분포에 관해 흥미로운 질문을하는 것을 잊어 버리는 것입니다.

예를 들어, 사람들이 일반적으로 묻고 싶은 인기있는 질문 인 부와 행복의 관계를 생각해보십시오. 부는 감마 (Salem & Mount, 1974) 또는 일반 베타 (Parker, 1999) 분포를 따른다고 가정하는 것이 안전 할 수 있지만 행복이 정상적으로 분배된다고 가정하는 것이 실제로 안전합니까? 실제로, 원래의 질문에 대답하기 위해 이것을 전혀 가정 할 필요는 없지만 사람들은 때때로 응답하고 응답 편향 및 문화적 차이와 같은 잠재적으로 중요한 문제를 무시합니다. 예를 들어, 일부 문화권은 다소 극단적 인 반응을 보이는 경향이 있으며 (리 커트 항목으로 구성된 설문지의 요인 분석에 대한 @chl의 답변 참조 ), 규범은 긍정적 감정과 부정적인 감정의 열린 표현에 따라 다릅니다 (터커, 오 제르, 류보 미르 스키, & 보엠, 2006 ) . 이것은 왜도 및 첨도와 같은 경험적 분포 특성의 차이의 중요성을 증가시킬 수 있습니다. 러시아, 중국, 미국에서 부의 관계를 주관적인 행복 등급과 비교한다면 행복 등급의 중심 경향의 차이를 평가하고 싶을 것입니다. 그렇게 할 때, 일원 분산 분석을 위해 각각에 대한 정규 분포를 가정하는 것이 주저합니다 ( 위반에 대해서는 상당히 강력 할 수 있음)) 다양한 문화 의존적 규범과 응답 편견으로 인해 중국에서 "꼬리 꼬리"분포, 러시아에서는 긍정적으로 치우친 분포, 미국에서는 부정적인 비뚤어진 분포를 기대할 이유가있을 때. 유의성 테스트를 위해 (실제로 효과 크기를보고하는 것을 선호하더라도) 비모수 적 방법을 사용하고 각 모집단의 주관적 행복을 실제로 이해하기 위해 오히려 분포를 실증적으로 설명하여 단순한 이론적 분포로 분류하고 모든 부적합에 대한 무시 또는 광택을 시도하십시오. 그것은 정보 IMO의 낭비입니다.

참고 문헌
-Parker, SC (1999). 수입 분배 모델로 일반화 된 베타. 경제 서신, 62 (2), 197–200.
-Salem, ABZ, & Mount, TD (1974). 소득 분배의 편리한 설명 모델 : 감마 밀도. 계량 경제학, 42 (6), 1115-1127.
-터커, KL, 오 제르, DJ, Lyubomirsky, S., & Boehm, JK (2006). 수명 척도 만족도의 측정 불일치 테스트 : 러시아와 북미의 비교. 사회 지표 연구, 78 (2), 341–360. http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf 에서 검색했습니다 .


답변 주셔서 감사합니다, 닉 예제가 특히 도움이된다는 것을 알았습니다.
HFBrowning

3

마우스 꼬리 길이는 아마도 정규 분포 일 것입니다

나는 그것을 의심 할 것이다. 정규 분포는 많은 독립적 인 부가 효과에서 발생합니다. 생물학적 시스템은 많은 상호 작용 피드백 루프 (상호 의존적 곱셈 효과)로 구성됩니다. 또한 다른 국가보다 더 안정적인 주 (예 : 유치자)가 종종 있습니다. 따라서 어떤 종류의 긴 꼬리 또는 다중 모드 분포는 아마도 꼬리 길이를 설명합니다. 실제로, 정규 분포는 아마도 생물학적으로 어떤 것을 묘사하기에 매우 나쁜 기본 선택 일 것이며, 오용은 그 문헌에보고 된 많은 "이상치"에 대한 책임이 있습니다. 자연에서이 분포의 보급은 신화이며 "완벽한 원은 실제로 존재하지 않는다"라는 의미가 아닙니다. 그러나 평균과 sd가 요약 통계로 쓸모가 없다는 것은 아닙니다.

특히 데이터를 신뢰하는 것이 더 좋은 시점을 쉽게 판단 할 수 없기 때문에 (내가 가지고있는이 펑키 한 오른쪽으로 치우친 데이터 세트와 같지만 데이터가 충분하지 않은 n = 160) 경험적이거나 내 동료가 계속 주장하는 것처럼 베타 배포판에 맞추십시오. 나는 그가 [0,1]에 묶여 있기 때문에 그것을 선택했다고 의심했다. 모두 정말 특별 해 보입니다. 잘만되면 이것은 나의 의도를 명확히한다!

경험적 분포의 적합은 기본 과정에서 힌트를 제공하여 이론적 분포의 개발을 촉진합니다. 그런 다음 이론적 분포를 실험적 분포와 비교하여 이론에 대한 증거를 테스트합니다.

귀하의 목적이 사용 가능한 현재 증거를 기반으로 특정 결과의 확률을 평가하고 특정 분포를 선택할 이유가 없다면 추가 가정을 만드는 것이 어떻게 도움이되는지 알지 못하는 것 같습니다. 대신 문제를 혼동하는 것 같습니다.

그러나 데이터를 설명하거나 요약하려는 경우 분포에 맞는 것이 좋습니다.


1
하나의 답만 받아 들일 수 있지만 정규 분포가 실제로 어떻게 발생하는지 지적 해 주셔서 감사합니다. 그것은 이론에 근거한 것이 무엇을 의미하는지 더 신중하게 생각하도록 강요했습니다.
HFBrowning

3

어떤 경우에는 이론이 가장 잘 작동 할 수 있음이 분명해 보입니다 (마우스 꼬리 길이는 아마도 정규 분포 일 것입니다).

꼬리 길이는 확실히 정규 분포가 아닙니다.

정규 분포는 음수가 아닌 확률이 0입니다. 꼬리 길이는 그렇지 않습니다.

조지 박스 (George Box)의 유명한 라인 은“ 모든 모델이 잘못되었지만 일부는 유용하다 ”는 점을 지적하는 것입니다. 우리가 합리적으로 정상 성을 주장 할 수있는 사례는 (거의 대략적인 정규성보다는) 거의 드물고, 거의 전설적인 생물이며, 신기루는 때때로 눈의 구석에서 거의 빛을 발합니다.

많은 경우에 데이터 세트를 설명하는 이론이 없을 수도 있으므로 원래 설명하기 위해 개발 한 내용에 관계없이 상당히 잘 맞는 것을 사용합니까?

관심있는 수량이 선택에 특히 민감하지 않은 경우 (분포의 광범위한 기능이 알려진 것과 일치하는 한) 상당히 잘 맞는 것을 사용할 수 있습니다.

감도가 더 큰 경우에는 '적합한 것을 사용하는 것'만으로는 충분하지 않습니다. 우리는 특별한 가정을하지 않는 접근 방식을 사용할 수 있습니다 (예 : 순열, 부트 스트랩 또는 기타 리샘플링 접근 방식 또는 강력한 절차와 같은 배포가 필요없는 절차). 또는 시뮬레이션을 통해와 같이 분포 가정에 대한 민감도를 정량화 할 수 있습니다 (실제로는 이것이 좋은 생각이라고 생각합니다).

당신이 정말로 모른다면 경험적 분포를 사용해야한다는 문제가있는 것 같습니다.

나는 경험적 분포에 대한 추론을 근거로 많은 종류의 문제에 적합한 합법적 인 접근 방식을 문제로 묘사하지 않을 것입니다 (순열 / 무작위 화 및 부트 스트랩은 두 가지 예입니다).

누군가이 문제에 대해 일관된 접근 방식을 생각하고 있습니까?

대체로 많은 경우에 다음과 같은 질문을 고려하는 경향이 있습니다.

1)이 양식의 데이터에 대해 평균 (또는 다른 위치 유형 수량)의 동작에 대해 무엇을 이해해야합니까 *?

* (이 형식의 데이터에 대한 이론, 경험 또는 전문가의 조언, 또는 필요한 경우 데이터 자체에서 다루어야하지만 문제가있는 경우)

2) 확산 (분산, IQR 등)은 어떻게됩니까?

3) 다른 분포 특징 (경계, 왜도, 불연속 등)은 어떻습니까?

4) 의존성, 인구의 이질성, 때로는 매우 불일치하는 경향 등은 어떻습니까?

이러한 종류의 고려 사항은 일반 모델, GLM, 다른 모델 또는 견고하거나 분포가없는 접근 방식 (예 : 순위 기반 절차를 포함하여 부트 스트랩 또는 순열 / 랜덤 화 접근 방식) 중에서 선택하도록 안내 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.